【生物信息学学习】第一天：生物数据库使用

PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE（生物医学文献数据库）、生命科学领域数据杂志以及在线的专业书籍。PubMed链接:在PubMed中进行搜索：关于PubMed搜索的相关内容，通过WoS的知识进行理解。（后续会更新WoS搜索相关文章）

Ginno

5360人浏览 · 2023-09-08 22:59:50

Ginno · 2023-09-08 22:59:50 发布

【生物信息学学习】第一天：生物数据库使用

生物数据库
一、文献搜索（PubMed）
- 1. 什么是PubMed
- 2. PubMed存在的问题
二、一级核酸数据库
三、二级核酸数据库

本文内容均来自山东大学生物信息学课程

生物数据库

这一篇文章主要介绍生物信息学需要用到的各个数据库

由于数据库的数量众多，本文将对数据库进行一个分类，并选取其中几个重要数据库进行分析。

核酸数据库	蛋白质数据库	专用数据库
NCBI-GenBank		PubMed
EEMBL-ENA
DDBJ

一、文献搜索（PubMed）

你的导师给你扔来了一大段基因序列让你去研究，该如何进行呢？
你头大，你去问你师兄。你的师兄告诉你，这一段序列十分的像dUTPase。
但什么是dUTPase呢？你的师兄不告诉你

这时候我们就需要借助自己的力量，使用PubMed来解决！

1. 什么是PubMed

PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE（生物医学文献数据库）、生命科学领域数据杂志以及在线的专业书籍。
PubMed链接: http://www.ncbi.nlm.nih.gov/pubmed

在PubMed中进行搜索：

关于PubMed搜索的相关内容，通过WoS的知识进行理解。（后续会更新WoS搜索相关文章）

2. PubMed存在的问题

（1）搜索1995年前文献中排名是为以后的作者
（2）搜索1976年以前的文献是没有摘要的
（3）1965年前的文献较难搜索

通过PubMed我们了解到dUTPase到底是什么：
dUTP焦磷酸酶（dUTPase）是DNA合成中的一种关键酶，广泛分布于真核、原核细胞以及病毒等生命有机体内。该酶能够水解细胞质中的dUTP，从而最大限度地减少尿嘧啶在DNA合成中的错误插入，降低细胞中dUTP/dTTP的比例，维持基因组复制的保真度和顺利进行。

二、一级核酸数据库

当你对导师的任务有了一个初步的了解，之后就该去干活惹。那我们在哪里获取核酸的数据呢？

1. GenBank

GenBank是由美国国家生物技术信息中心（NCBI）开发并负责维护，隶属于美国国立卫生研究院（NIH）。
GenBank数据库: http://www.ncbi.nlm.nih.gov/

注意：在NCBI网站中需选择Nucleotide选项（GenBank）

解读GenBank

恭喜！到了这一阶段，说明你已经开始渐渐习惯打工人的生活了。我们现在开始学习你该学会的第一个技能：解读一级核酸数据库

在这一章，我们用真核生物和原核生物作为例子，来了解两者的基因在数据库中不同的存储以及注释方式

首先，我们得明白，为什么他们之间为何存在不同？

	Prokaryotes	Eukaryotes
基因组大小	0.5-91 million bp	10-670,000 million bp
基因密度	one gene / 1,000 bp	one gene / 100,000 bp
编码区含量	70%	5%
基因是否线性分布	是	否
mRNA有无内含子	无	有

原核生物核酸数据库解读

当你了解到了真核生物和原核生物的区别之后。你的导师又跑来找你，让你搜索一下大肠杆菌（原核生物）dUTPase的DNA序列：X01714

那这时候我们就可以通过上面的几个数据库，轻松地得到对应的信息，X01714的DNA序列如下:

LOCUS       X01714                  1609 bp    DNA     linear   BCT 23-OCT-2008
DEFINITION  E. coli dut gene for dUTPase (EC 3.6.1.23) (deoxyuridine
            5'-triphosphate nucleotidohydrolase).
ACCESSION   X01714
VERSION     X01714.1
KEYWORDS    dUTPase; unidentified reading frame.
SOURCE      Escherichia coli
  ORGANISM  Escherichia coli
            Bacteria; Pseudomonadota; Gammaproteobacteria; Enterobacterales;
            Enterobacteriaceae; Escherichia.
REFERENCE   1  (bases 1 to 1609)
  AUTHORS   Lundberg,L.G., Thoresson,H.O., Karlstrom,O.H. and Nyman,P.O.
  TITLE     Nucleotide sequence of the structural gene for dUTPase of
            Escherichia coli K-12
  JOURNAL   EMBO J. 2 (6), 967-971 (1983)
   PUBMED   6139280
COMMENT     Data kindly reviewed (25-NOV-1985) by L. Lundberg.
FEATURES             Location/Qualifiers
     source          1..1609
                     /organism="Escherichia coli"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:562"
     regulatory      286..291
                     /regulatory_class="promoter"
                     /note="-35 region"
     regulatory      310..316
                     /regulatory_class="promoter"
                     /note="-10 region"
     misc_feature    322..324
                     /note="put. transcription start region"
     regulatory      330..333
                     /regulatory_class="ribosome_binding_site"
                     /note="put. rRNA binding site"
     CDS             343..798
                     /note="unnamed protein product; dUTP-ase (aa 1-151)"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25859.1"
                     /db_xref="GOA:P06968"
                     /db_xref="InterPro:IPR008180"
                     /db_xref="InterPro:IPR008181"
                     /db_xref="PDB:1DUD"
                     /db_xref="PDB:1DUP"
                     /db_xref="PDB:1EU5"
                     /db_xref="PDB:1EUW"
                     /db_xref="PDB:1RN8"
                     /db_xref="PDB:1RNJ"
                     /db_xref="PDB:1SEH"
                     /db_xref="PDB:1SYL"
                     /db_xref="PDB:2HR6"
                     /db_xref="PDB:2HRM"
                     /db_xref="UniProtKB/Swiss-Prot:P06968"
                     /translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
                     GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
                     RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"
     misc_feature    831..851
                     /note="put.stem-loop structure"
     repeat_region   831..838
                     /note="inverted repeat A"
     repeat_region   844..851
                     /note="inverted repeat A'"
     misc_feature    866..893
                     /note="put. stem-loop structure"
     repeat_region   866..872
                     /note="imp. inverted repeat B"
     repeat_region   888..893
                     /note="imp. inverted repeat B'"
     regulatory      889..895
                     /regulatory_class="ribosome_binding_site"
                     /note="pot. rRNA binding site"
     CDS             905..1540
                     /note="unnamed protein product; unidentified reading
                     frame"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25860.1"
                     /db_xref="GOA:P0C093"
                     /db_xref="InterPro:IPR001647"
                     /db_xref="InterPro:IPR009057"
                     /db_xref="InterPro:IPR011075"
                     /db_xref="InterPro:IPR015893"
                     /db_xref="UniProtKB/Swiss-Prot:P0C093"
                     /translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
                     EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
                     PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
                     QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"
ORIGIN      
        1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
       61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
      121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
      181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
      241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
      301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
      361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
      421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
      481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
      541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
      601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
      661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
      721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
      781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
      841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
      901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
      961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
     1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
     1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
     1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
     1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
     1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
     1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
     1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
     1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
     1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
     1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg
//

观察数据的第一行，是不是一时有些懵？这一段代表的是什么意思呢？用中文标记一下，或许更有利于理解：

LOCUS	X01714	1609bp	DNA	linear	BCT 23-0CT-2000
	基因座名	核酸序列长度	分子的类别	拓扑类型	更新时间

以下是剩余的几行相关术语的注解：

ACCESSION：检索号在数据库中是唯一旦不变的，即使数据提交者改变数据内容。ACCESSION不一定和IOCUS相同。（原因：LOCUS是真实姓名，ACCESSION是编号。同一个基因只有一个名字，但可以在不同的数据库中有不同的编号。）

VERSION：版本号的格式是“检索号.版本编号”。版本号于1999年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如果某条序列数据发生了变化，即使是单碱基的改变，它的版本号都将增加，而它的检索号保持不变。
（例如：由U12345.1变为U12345.2。）

GI (Genlnfo Identifier）号：与前面的版本号系统是平行运行的。当一条序列改变后，它将被赋予一个新的GI号，同时它的版本号將增加。

KEYWORDS:能够大致描述该条目的几个关键词。

SOURCE：基因序列所属物种的俗名。

ORGANISM：对所属物种的更详细定义，包括他的科学分类。

REFERENCE：基因序列来源的科学文献（一条基因序列的不同片段可能来源于不同的文献）。文献具体分为作者、题目和刊物。刊物还包括PubMedID作为其子条目。

COMMENT：自由撰写内容，比如致谢或者无法归入前几类的内容。

FEATURES（重要信息）：描迷核酸序列中各个已确定的片段区域，包含很多子条目，比如来源(source)，启动子（ptomotet）等。
source：说明了核酸序列的来源，据此可以容易地分辦出该序列是来源于克隆載体还是基因组。当前序列（全长）来源于大肠杆茵的基因组DNA。
promotet：列出了启动子的位置。复习：细菌有两个启
动子区，一个-35区（5’-TTGACA-3〞）位置在第286
个碱基到第291个碱基，一个-10区（5’-TATAAT-3〞）
位置在第310个碱基到第316个碱基。
misc_ featute：混合内容。比如，这条说明了从第322个
碱基到第324个碱基是一个推测的(putative，推定，但无实验证实）转录起始位置。
RBS (Ribosome Binding Site)：核糖体结合位点。
CDs(CodingSegment)：记录了一个ORF(open reading frame），从第343个碱基开始的ATG（起始密码子）到第798个碱基结束的TAA（结束密码子）。除了第一行的位置信息，还包括翻译产物（蛋白质）的诸多信息。

  CDS             343..798
                     /note="unnamed protein product; dUTP-ase (aa 1-151)"
                     /*翻译产物蛋白的名字:该ORF编码其1-151个氨基酸*/
                     /codon_start=1
                     /transl_table=11
                     /*翻译起始位置和使用的密码本*/
                     /protein_id="CAA25859.1"
                     /db_xref="GOA:P06968"
                     /db_xref="InterPro:IPR008180"
                     /db_xref="InterPro:IPR008181"
                     /db_xref="PDB:1DUD"
                     /db_xref="PDB:1DUP"
                     /db_xref="PDB:1EU5"
                     /db_xref="PDB:1EUW"
                     /db_xref="PDB:1RN8"
                     /db_xref="PDB:1RNJ"
                     /db_xref="PDB:1SEH"
                     /db_xref="PDB:1SYL"
                     /db_xref="PDB:2HR6"
                     /db_xref="PDB:2HRM"
                     /db_xref="UniProtKB/Swiss-Prot:P06968"
                     /*中间一大段是该蛋白质序列在各蛋白质数据库中的检索号*/
                     /translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
                     GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
                     RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"               		
                     /*计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列（不是实际获得）*/

/*该核酸序列还存在着潜在基因unidentified reading frame，是由计算机预测出的基因，编码蛋白在系统中无明确记录*/
  CDS             905..1540
                     /note="unnamed protein product; unidentified reading
                     frame"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25860.1"
                     /db_xref="GOA:P0C093"
                     /db_xref="InterPro:IPR001647"
                     /db_xref="InterPro:IPR009057"
                     /db_xref="InterPro:IPR011075"
                     /db_xref="InterPro:IPR015893"
                     /db_xref="UniProtKB/Swiss-Prot:P0C093"
                     /translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
                     EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
                     PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
                     QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"

/*核酸序列*/
ORIGIN      
        1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
       61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
      121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
      181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
      241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
      301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
      361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
      421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
      481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
      541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
      601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
      661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
      721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
      781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
      841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
      901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
      961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
     1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
     1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
     1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
     1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
     1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
     1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
     1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
     1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
     1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
     1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg

终于，我们把X01714的信息给解读完了，但此时还不能休息

我们还需要学会如何下载其信息，我们直接采用ctrlcv大法是不行的。我们把界面翻到最上面，可以看到两个选项：FASTA和Graphics。

点击FASTA我们可以获取FASTA格式的核酸序列信息，点击Graphics可以获取序列的图形概览。

在这里插入图片描述

真核生物核酸数据库解读

你的导师又派给了你一个任务，去研究一下人（真核生物）dUTPase的成熟mRNA（U90223）序列信息。

根据上文所述的技巧，我们可以得到真核生物的序列信息：

LOCUS       HSU90223                 960 bp    mRNA    linear   PRI 03-JAN-1998
DEFINITION  Human deoxyuridine triphosphate nucleotidohydrolase precursor mRNA,
            nuclear gene encoding mitochondrial protein, complete cds.
ACCESSION   U90223
VERSION     U90223.1
KEYWORDS    .
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 960)
  AUTHORS   Ladner,R.D. and Caradonna,S.J.
  TITLE     The Human dUTPase Gene Encodes Both Nuclear and Mitochondrial
            Isoforms: Differential Expression of the Isoforms and
            Characterization of a cDNA Encoding the Mitochondrial Species
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 960)
  AUTHORS   Ladner,R.D. and Caradonna,S.J.
  TITLE     Direct Submission
  JOURNAL   Submitted (19-FEB-1997) Dept. of Molecular Biology, Univ. of Med.
            and Dent. of NJ-School of Osteopathic Medicine, 2 Medical Center
            Drive, Stratford, NJ 08084, USA
FEATURES             Location/Qualifiers
     source          1..960
                     /organism="Homo sapiens"
                     /mol_type="mRNA"
                     /db_xref="taxon:9606"
     CDS             63..821
                     /note="mitochondrial dUTPase isoform; DUT-M"
                     /codon_start=1
                     /product="deoxyuridine triphosphate nucleotidohydrolase
                     precursor"
                     /protein_id="AAB94642.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     sig_peptide     63..269
                     /note="mitochondrial targeting presequence"
     mat_peptide     270..818
                     /product="deoxyuridine triphosphate nucleotidohydrolase"
ORIGIN      
        1 ggtggaagcc tggcgcacgt ccggaggtgc cgaggaccca accagcccaa actctggggg
       61 aaatgactcc cctctgccct cgccccgcgc tctgctacca tttccttacg tctctgcttc
      121 gctcagcgat gcaaaacgcg cgaggcacgg cagagggccg aagccgcggt actctccggg
      181 ccaggcccgc ccctcggccg ccggcggcgc agcacgggat tccccggccg ctgtccagcg
      241 ctggccgcct gagccaaggc tgccgcggag ccagtacagt cggggccgct ggctggaagg
      301 gcgagcttcc taaggcgggg ggaagcccgg cgccggggcc ggagacaccc gccatttcac
      361 ccagtaagcg ggcccggcct gcggaggtgg gcggcatgca gctccgcttt gcccggctct
      421 ccgagcacgc cacggccccc acccggggct ccgcgcgcgc cgcgggctac gacctgtaca
      481 gtgcctatga ttacacaata ccacctatgg agaaagctgt tgtgaaaacg gacattcaga
      541 tagcgctccc ttctgggtgt tatggaagag tggctccacg gtcaggcttg gctgcaaaac
      601 actttattga tgtaggagct ggtgtcatag atgaagatta tagaggaaat gttggtgttg
      661 tactgtttaa ttttggcaaa gaaaagtttg aagtcaaaaa aggtgatcga attgcacagc
      721 tcatttgcga acggattttt tatccagaaa tagaagaagt tcaagccttg gatgacaccg
      781 aaaggggttc aggaggtttt ggttccactg gaaagaatta aaatttatgc caagaacaga
      841 aaacaagaag tcataccttt ttcttaaaaa aaaaaaaagt ttttgcttca agtgttttgg
      901 tgttttgcac ttctgtaaac ttactagctt taccttctaa aagtactgca ttttttactt
//

观察这一大串符号我们可以发现，真核生物和原核生物在数据库中的数据排列方式很类似，但是却出现了两个不一样的条目：

  sig_peptide     63..269
                     /note="mitochondrial targeting presequence"
  /*该段指出了编码用于亚细胞定位的信号肽的碱基位置*/
  mat_peptide     270..818
                     /product="deoxyuridine triphosphate nucleotidohydrolase"
  /*该段指出了编码成熟蛋白的碱基位置 */

mat_peptide 270…818的编码位置与 CDS 343…798相差了三个碱基，为什么？
回答：在这一段序列最后的三个氨基酸为编码区的终止密码子（不翻译）

新任务！：研究一下人（真核生物）dUTPase的基因组DNA序列信息（AH005568）

LOCUS       AH005568                5507 bp    DNA     linear   PRI 10-JUN-2016
DEFINITION  Homo sapiens dUTPase (DUT) gene, complete cds, alternatively
            spliced.
ACCESSION   AH005568 AF018429 AF018430 AF018431 AF018432
VERSION     AH005568.2
KEYWORDS    .
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 5507)
  AUTHORS   Pearlman,R.E.
  TITLE     Human genomic nuclear and mitochondria dUTPase gene
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 5507)
  AUTHORS   Pearlman,R.E.
  TITLE     Direct Submission
  JOURNAL   Submitted (11-AUG-1997) Biology, York University, 4700 Keele St.,
            North York, ONT M3J 1P3, Canada
COMMENT     On or before Jun 10, 2016 this sequence version replaced
            AF018429.1, AF018430.1, AF018431.1, AF018432.1, AH005568.1.
FEATURES             Location/Qualifiers
     source          1..5507
                     /organism="Homo sapiens"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:9606"
                     /map="15q15-q21.1"
     gene            <1..>5236
                     /gene="DUT"
     mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"
     CDS             join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-M; alternatively spliced; mitochondrial form of
                     the protein; similar to H. sapiens dUTPase encoded by
                     GenBank Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71393.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1
     protein_bind    898..903
                     /gene="DUT"
                     /bound_moiety="SP-1"
     protein_bind    935..943
                     /gene="DUT"
                     /bound_moiety="E2F"
     mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"
     CDS             join(1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-N; alternatively spliced; nuclear form of the
                     protein; similar to H. sapiens dUTPase encoded by GenBank
                     Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71394.1"
                     /translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
                     AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
                     EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
                     TGKN"
     exon            <1018..1172
                     /gene="DUT"
                     /note="alternative exon used in nuclear form of the
                     protein"
                     /number=2
     exon            1034..1172
                     /gene="DUT"
                     /note="alternative exon used in mitochondrial form of the
                     protein"
                     /number=2
     gap             1736..1835
                     /estimated_length=unknown
     exon            2395..2486
                     /gene="DUT"
                     /number=3
     gap             3013..3112
                     /estimated_length=unknown
     exon            3113..3157
                     /gene="DUT"
                     /number=4
     gap             3690..3789
                     /estimated_length=unknown
     exon            4447..4521
                     /gene="DUT"
                     /number=5
     exon            4673..4743
                     /gene="DUT"
                     /number=6
     exon            5180..5236
                     /gene="DUT"
                     /number=7
ORIGIN      
        1 tcggaaaaat gggggccaga gcaaacaaga agagcgaaag caagagggct aggcagccag
       61 aggcggcagc aagactcaag acgccaacgg cgctgtttcc tggggcccca gggcttgcgc
      121 catccctggg ctgccggggc accgcctctc cacgcccctc gtccggcggc ggctgcgact
      181 gcttccgagg tcatgttccc aggacgggcg cgtcttcagg gtggaagcct ggcgcacgtc
      241 cggaggtgcc gaggacccaa ccagcccaaa ctctggggga aatgactccc ctctgccctc
      301 gccccgcgct ctgctaccat ttccttacgt ctctgcttcg ctcagcgatg caaaacgcgc
      361 gaggcacggc agagggccga agccgcggta ctctccgggc caggcccgcc cctcggccgc
      421 cggccgcgca gcacgggatt ccccggccgc tgtccagcgc tggccgcctg agccaaggct
      481 gccgcggagc cagtacagtc ggggccgctg gctggaaggg cgagcttcct aaggcggggg
      541 gaagcccggc gccggggccg ggtaggaaag gcgggggagg ggctccggcc gtctggaagg
      601 aatccaacgc ggcttgaggc tgtggggaag tagggtggcg agcggtcctt ctgcgcgcgg
      661 ggggccgggg gggtggggtg gtccattagg gtcccctggc gagggggcgg ctttctagtg
      721 tgtgaaggcg acgccctaga agctcccctt caaagttggc cccacgcgct gaatgtggaa
      781 agttgactgg gacccagtag tttcccatcc caaacctgct ttccgagaag ggcttcaaac
      841 ccaaaatgtg aatcccgcct cccctctcag ccagaactgt ggactcgtcc cggggagggg
      901 cggtgggtgg ggcggggctg gcgggaaatt tcggttttgg cgcgctccct gcggcgacgc
      961 tcatcgtgcg ctctcctctt cccccggtgg tctcctcgct cgccttctgg ctctgccatg
     1021 ccctgctctg aagagacacc cgccatttca cccagtaagc gggcccggcc tgcggaggtg
     1081 ggcggcatgc agctccgctt tgcccggctc tccgagcacg ccacggcccc cacccggggc
     1141 tccgcgcgcg ccgcgggcta cgacctgtac aggtgagcgg ggacctgccg gcgaggaggc
     1201 tgggaagggc cggccgtccg ctgccacagc tagaaacagt caccggagag atcacaggaa
     1261 cacactagct ataaatagga tttctgcctt tttcgtgttt aaaattttag ctttcatctt
     1321 tggcataaat taaatagaga tttgggcaaa gactgcagaa taagtaaaat agctatacgg
     1381 tgtctagcaa ggcgttactt tgcaacgttt attgtgccct tcctaaatag aagatagaga
     1441 ggaaggccca tggtggcttt cgaagtggcc cgagggtgat gctgtgctca atagaaaaac
     1501 caaggtgaga gcctagatgt gagcgtgaaa atacctaaga aggatgaacg aagatgcatc
     1561 tgccttaaaa agttatttct atacattcat ccggcccagg gcggaatttg agaagcatct
     1621 gaaaacgaag gcagactgcc tgtatctacc acactttcat ctctacagca cgttttactg
     1681 tactaaaact tcccgtatgc tgttgtatag tcctccacac atccctaact agata     
          [gap 100 bp]    Expand Ns
     1836                                       tccct aaatcaacac agatcatgtg
     1861 gaggaataaa atggggttaa tatatgtaaa accaattagg aaactgtttc tggggcaaca
     1921 cagtaaaggg cttattcaat ggataggcta gtattattag ttagtaattg ggcccttttt
     1981 ttctttgttt cttttcttca tttttttcct tttcaaacta tgggttgtaa agcatccacc
     2041 ttttgaaagt ttgcctttct gccctttcac gctgataagt acctcagttt ccaataaact
     2101 tttgttcagg ggcaaacatt tacaatgttg acatctcttc acaccaccaa aaatattcat
     2161 ggagaattat tttatctaaa gctgtctttt taataataaa atagccacct ctaccttctt
     2221 cataaacttt taagatgaat tggtaattca tcatagcaag gttgatttta gaaactaaag
     2281 ttgcattaat tcattaaata cactgaaagt aattttgtat gcttggtcac aaagaaaata
     2341 taaaaacaat tttataaata gatttgcagt tattttcttt caatattttc ttagtgccta
     2401 tgattacaca ataccaccta tggagaaagc tgttgtgaaa acggacattc agatagcgct
     2461 cccttctggg tgttatggaa gagtgggtaa gtcatttaag aaacaggtaa ctatttgtca
     2521 agttctcctt tgtgatagat tcttcatgtt tcatttgggg taataagcag gcaatattgc
     2581 ttgggctgtg tcctaaaaga agcaccattt gtgatagcaa atgcactctt tgaaaggctt
     2641 tatttacatc tctgctttgc ctctttttga cccttttatt tttctccttc ctcactggag
     2701 cttttaggct cacactggcc tagaaggctg ttctcagaac atggcatttt atattatgag
     2761 agtaaaactt ctgacctgtt ggtcccagaa tgtgtaagcc tacttaacct tttcttgttt
     2821 ggccatgggg tttagggtaa gggatactct tcagtgtttg tagaggcact gggaggaagc
     2881 taggacaaaa tggagttaca cgtcaacagg tttgattttt cctggaagcg aattcagtgt
     2941 ttaccagaca gttcctttgc agagcgttag ttcctttttg actacttcca agttaactta
     3001 aggaggcatg ga                                                    
          [gap 100 bp]    Expand Ns
     3113                                                          ctccacgg
     3121 tcaggcttgg ctgcaaaaca ctttattgat gtaggaggta atatatttcc ttttttattc
     3181 tgtaaatgtt tgcaagtatt tactttgtct ttaaaaggta atattcaaat gacagatttt
     3241 atttttaaga aaagaaaatg attagaggaa agcttgttat aataggagga aaagctttgt
     3301 ggttatttta agtaattata ttttgtttaa ctactaactt aatttttaaa ataatgatta
     3361 cctaattaat aatgacagat ttaatgatat aataattaag taattattta agcaacaaaa
     3421 gttctagaaa acacaggtct atcttgtaag aattttcttc ataagagagc tatctgtctt
     3481 tagcaaaatt taagaagaaa atctttccct gaagtcagga gagaaaacac ttttctctaa
     3541 atttgttaag acagtccctc tgtgttacct gtttcccctt tataataaag cctttctcat
     3601 gtttggtcct caaagttaac ccctacctcc tgttggtacc ctttcatgaa gaaccctcag
     3661 tgtccccccg gccaactaac ccctgatac                                  
          [gap 100 bp]    Expand Ns
     3790          t cccccgggtc atattctaac agtatataca caaaaagtgt actcaggaag
     3841 cctatgtgct acagtctctg agaaccatgt ctaaggaagg atggtggttc agattaaaag
     3901 gagaggaaga ttatgaactg aaaaatacag ctcattttta gtgtaaaaat ggaatattct
     3961 aatatttgca agactgctgc ttaacaatgt cagcgttgat ttactccact gcagagcttt
     4021 aggctttttg acatttttat ttatgactca attgtatttc aatctgggta ttagcgggaa
     4081 gctgatacca ggaaaaacct ttaaaaccca aattgtaatt ttctcctagt ctttttggca
     4141 agtgtgccgt gggtagacag taggttggag atggccattg ctactgccag cttaaaatag
     4201 gaaatggtcg ccatttgata aagagtgaca ggttggaaaa ttaggacctg ttttctaaat
     4261 ttttatttgt attttagtaa tgtcatttct tggttttgag gctttacata gtaccagggc
     4321 aagattcact tattcaattg taagaataca aatctcagag ctacatgata atgattttga
     4381 gataatctta cacctctagt attccaatag caaaaattga gataatatta cttttctttt
     4441 ctctagctgg tgtcatagat gaagattata gaggaaatgt tggtgttgta ctgtttaatt
     4501 ttggcaaaga aaagtttgaa ggtatgttaa atatatacat tcacataatt ttagtgaatt
     4561 ttcagagtca tgtatgtgta aattaatatt gactccttta attctcattg aataagacag
     4621 gatatggcga atgtgtcagt aacgtcagta ataaactatt ctttctttga agtcaaaaaa
     4681 ggtgatcgaa ttgcacagct catttgcgaa cggatttttt atccagaaat agaagaagtt
     4741 caagtaagta ttacaaagga agatacagaa taagtaatat aacatcttaa gtgaagaaat
     4801 atatataatc ttgagaattt aatatgctgt ttgtaactaa atagtatata tgactaaact
     4861 tattttaagc aaatttaaaa tactagtttt agaatttctt taaatgtttt tcatgtagct
     4921 attatgtagt attactttgg ataataagtt atttaaacat actgtgaact tctaatattt
     4981 tattagaatt ttttaaagtt atccagtatt ctaatttatg gagcttttta gaatttaatt
     5041 ttctttctgt aatctccctt ttgaaaagat gatatagcaa gagtagaatt ctggctgtat
     5101 ttttcttagg agctggagag gaaaactgaa agatgctctt aaaaaaaact gtgaagctta
     5161 ctacctttct atctttcagg ccttggatga caccgaaagg ggttcaggag gttttggttc
     5221 cactggaaag aattaaaatt tatgccaaga acagaaaaca agaagtcata cctttttctt
     5281 aaaaaaaaaa aaaaagtttt tgcttcaagt gttttggtgt tttgcacttc tgtaaactta
     5341 ctagctttac cttctaaaag tactgcattt tttacttttt tttatgatca aggaaaagat
     5401 cattaaaaaa aaacacaaag aagtttttcc tttgtgttgg gatcaaaaga aactttgttt
     5461 tcccgcaatt gaagggttgt atgtaaatcg ccttgttgtg aaccaca
//

我们观察FEATURES段：

FEATURES             Location/Qualifiers
     source          1..5507
                     /organism="Homo sapiens"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:9606"
                     /map="15q15-q21.1"
     gene            <1..>5236
                     /gene="DUT"
     mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"
     CDS             join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-M; alternatively spliced; mitochondrial form of
                     the protein; similar to H. sapiens dUTPase encoded by
                     GenBank Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71393.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1
     protein_bind    898..903
                     /gene="DUT"
                     /bound_moiety="SP-1"
     protein_bind    935..943
                     /gene="DUT"
                     /bound_moiety="E2F"
     mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"
     CDS             join(1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-N; alternatively spliced; nuclear form of the
                     protein; similar to H. sapiens dUTPase encoded by GenBank
                     Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71394.1"
                     /translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
                     AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
                     EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
                     TGKN"
     exon            <1018..1172
                     /gene="DUT"
                     /note="alternative exon used in nuclear form of the
                     protein"
                     /number=2
     exon            1034..1172
                     /gene="DUT"
                     /note="alternative exon used in mitochondrial form of the
                     protein"
                     /number=2
     gap             1736..1835
                     /estimated_length=unknown
     exon            2395..2486
                     /gene="DUT"
                     /number=3
     gap             3013..3112
                     /estimated_length=unknown
     exon            3113..3157
                     /gene="DUT"
                     /number=4
     gap             3690..3789
                     /estimated_length=unknown
     exon            4447..4521
                     /gene="DUT"
                     /number=5
     exon            4673..4743
                     /gene="DUT"
                     /number=6
     exon            5180..5236
                     /gene="DUT"
                     /number=7

第五行的 /map=“15q15-q21.1”，指出了该序列属于第15号染色体，更精确地说是该染色体的长臂q上的q21.1条带内。

  gene            <1..>5236
                     /gene="DUT"

gen指出了完整基因的具体位置。

mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"

mRNA指出了所有外显子的具体位置，mRNA中的基因串起来相当于完成了剪切的过程，就是成熟的mRNA。

值得注意的是，剪切后的mRNA有两种：

mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"

 mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"

上方的mRNA在前端多一个外显子，这一块将被翻译为定位线粒体的信号肽，从而翻译出线粒体型的蛋白质。下一种没有信号肽的，将形成细胞核型蛋白质。

     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1

exon段表示的含义是：当前序列所包含的282-561号碱基是“DUT”基因的第一个外显子。