【生物信息学学习】第一天:生物数据库使用
PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域数据杂志以及在线的专业书籍。PubMed链接:在PubMed中进行搜索:关于PubMed搜索的相关内容,通过WoS的知识进行理解。(后续会更新WoS搜索相关文章)
【生物信息学学习】第一天:生物数据库使用
本文内容均来自山东大学生物信息学课程
生物数据库
这一篇文章主要介绍生物信息学需要用到的各个数据库
由于数据库的数量众多,本文将对数据库进行一个分类,并选取其中几个重要数据库进行分析。
| 核酸数据库 | 蛋白质数据库 | 专用数据库 |
|---|---|---|
| NCBI-GenBank | PubMed | |
| EEMBL-ENA | ||
| DDBJ |
一、文献搜索(PubMed)
你的导师给你扔来了一大段基因序列让你去研究,该如何进行呢?
你头大,你去问你师兄。你的师兄告诉你,这一段序列十分的像dUTPase。
但什么是dUTPase呢?你的师兄不告诉你
这时候我们就需要借助自己的力量,使用PubMed来解决!
1. 什么是PubMed
PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域数据杂志以及在线的专业书籍。
PubMed链接: http://www.ncbi.nlm.nih.gov/pubmed
在PubMed中进行搜索:
关于PubMed搜索的相关内容,通过WoS的知识进行理解。(后续会更新WoS搜索相关文章)
2. PubMed存在的问题
(1)搜索1995年前文献中排名是为以后的作者
(2)搜索1976年以前的文献是没有摘要的
(3)1965年前的文献较难搜索
通过PubMed我们了解到dUTPase到底是什么:
dUTP焦磷酸酶(dUTPase)是DNA合成中的一种关键酶,广泛分布于真核、原核细胞以及病毒等生命有机体内。该酶能够水解细胞质中的dUTP,从而最大限度地减少尿嘧啶在DNA合成中的错误插入,降低细胞中dUTP/dTTP的比例,维持基因组复制的保真度和顺利进行。
二、一级核酸数据库
当你对导师的任务有了一个初步的了解,之后就该去干活惹。那我们在哪里获取核酸的数据呢?
1. GenBank
GenBank是由美国国家生物技术信息中心(NCBI)开发并负责维护,隶属于美国国立卫生研究院(NIH)。
GenBank数据库: http://www.ncbi.nlm.nih.gov/
注意:在NCBI网站中需选择Nucleotide选项(GenBank)
解读GenBank
恭喜!到了这一阶段,说明你已经开始渐渐习惯打工人的生活了。我们现在开始学习你该学会的第一个技能:解读一级核酸数据库
在这一章,我们用真核生物和原核生物作为例子,来了解两者的基因在数据库中不同的存储以及注释方式
首先,我们得明白,为什么他们之间为何存在不同?
| Prokaryotes | Eukaryotes | |
|---|---|---|
| 基因组大小 | 0.5-91 million bp | 10-670,000 million bp |
| 基因密度 | one gene / 1,000 bp | one gene / 100,000 bp |
| 编码区含量 | 70% | 5% |
| 基因是否线性分布 | 是 | 否 |
| mRNA有无内含子 | 无 | 有 |
原核生物核酸数据库解读
当你了解到了真核生物和原核生物的区别之后。你的导师又跑来找你,让你搜索一下大肠杆菌(原核生物)dUTPase的DNA序列:X01714
那这时候我们就可以通过上面的几个数据库,轻松地得到对应的信息,X01714的DNA序列如下:
LOCUS X01714 1609 bp DNA linear BCT 23-OCT-2008
DEFINITION E. coli dut gene for dUTPase (EC 3.6.1.23) (deoxyuridine
5'-triphosphate nucleotidohydrolase).
ACCESSION X01714
VERSION X01714.1
KEYWORDS dUTPase; unidentified reading frame.
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Pseudomonadota; Gammaproteobacteria; Enterobacterales;
Enterobacteriaceae; Escherichia.
REFERENCE 1 (bases 1 to 1609)
AUTHORS Lundberg,L.G., Thoresson,H.O., Karlstrom,O.H. and Nyman,P.O.
TITLE Nucleotide sequence of the structural gene for dUTPase of
Escherichia coli K-12
JOURNAL EMBO J. 2 (6), 967-971 (1983)
PUBMED 6139280
COMMENT Data kindly reviewed (25-NOV-1985) by L. Lundberg.
FEATURES Location/Qualifiers
source 1..1609
/organism="Escherichia coli"
/mol_type="genomic DNA"
/db_xref="taxon:562"
regulatory 286..291
/regulatory_class="promoter"
/note="-35 region"
regulatory 310..316
/regulatory_class="promoter"
/note="-10 region"
misc_feature 322..324
/note="put. transcription start region"
regulatory 330..333
/regulatory_class="ribosome_binding_site"
/note="put. rRNA binding site"
CDS 343..798
/note="unnamed protein product; dUTP-ase (aa 1-151)"
/codon_start=1
/transl_table=11
/protein_id="CAA25859.1"
/db_xref="GOA:P06968"
/db_xref="InterPro:IPR008180"
/db_xref="InterPro:IPR008181"
/db_xref="PDB:1DUD"
/db_xref="PDB:1DUP"
/db_xref="PDB:1EU5"
/db_xref="PDB:1EUW"
/db_xref="PDB:1RN8"
/db_xref="PDB:1RNJ"
/db_xref="PDB:1SEH"
/db_xref="PDB:1SYL"
/db_xref="PDB:2HR6"
/db_xref="PDB:2HRM"
/db_xref="UniProtKB/Swiss-Prot:P06968"
/translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"
misc_feature 831..851
/note="put.stem-loop structure"
repeat_region 831..838
/note="inverted repeat A"
repeat_region 844..851
/note="inverted repeat A'"
misc_feature 866..893
/note="put. stem-loop structure"
repeat_region 866..872
/note="imp. inverted repeat B"
repeat_region 888..893
/note="imp. inverted repeat B'"
regulatory 889..895
/regulatory_class="ribosome_binding_site"
/note="pot. rRNA binding site"
CDS 905..1540
/note="unnamed protein product; unidentified reading
frame"
/codon_start=1
/transl_table=11
/protein_id="CAA25860.1"
/db_xref="GOA:P0C093"
/db_xref="InterPro:IPR001647"
/db_xref="InterPro:IPR009057"
/db_xref="InterPro:IPR011075"
/db_xref="InterPro:IPR015893"
/db_xref="UniProtKB/Swiss-Prot:P0C093"
/translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"
ORIGIN
1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg
//
观察数据的第一行,是不是一时有些懵?这一段代表的是什么意思呢?用中文标记一下,或许更有利于理解:
| LOCUS | X01714 | 1609bp | DNA | linear | BCT 23-0CT-2000 |
|---|---|---|---|---|---|
| 基因座名 | 核酸序列长度 | 分子的类别 | 拓扑类型 | 更新时间 |
以下是剩余的几行相关术语的注解:
ACCESSION:检索号在数据库中是唯一旦不变的,即使数据提交者改变数据内容。ACCESSION不一定和IOCUS相同。(原因:LOCUS是真实姓名,ACCESSION是编号。同一个基因只有一个名字,但可以在不同的数据库中有不同的编号。)
VERSION:版本号的格式是“检索号.版本编号”。版本号于1999年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变。
(例如:由U12345.1变为U12345.2。)
GI (Genlnfo Identifier)号:与前面的版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号將增加。
KEYWORDS:能够大致描述该条目的几个关键词。
SOURCE:基因序列所属物种的俗名。
ORGANISM:对所属物种的更详细定义,包括他的科学分类。
REFERENCE:基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMedID作为其子条目。
COMMENT:自由撰写内容,比如致谢或者无法归入前几类的内容。
FEATURES(重要信息): 描迷核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子 (ptomotet)等。
source:说明了核酸序列的来源,据此可以容易地分辦出该序列是来源于克隆載体还是基因组。当前序列(全长)来源于大肠杆茵的基因组DNA。
promotet:列出了启动子的位置。复习:细菌有两个启
动子区,一个-35区(5’-TTGACA-3〞)位置在第286
个碱基到第291个碱基,一个-10区(5’-TATAAT-3〞)
位置在第310个碱基到第316个碱基。
misc_ featute:混合内容。比如,这条说明了从第322个
碱基到第324个碱基是一个推测的(putative,推定,但无实验证实) 转录起始位置。
RBS (Ribosome Binding Site):核糖体结合位点。
CDs(CodingSegment):记录了一个ORF(open reading frame),从第343个碱基开始的ATG(起始密码子)到第798个碱基结束的TAA(结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。
CDS 343..798
/note="unnamed protein product; dUTP-ase (aa 1-151)"
/*翻译产物蛋白的名字:该ORF编码其1-151个氨基酸*/
/codon_start=1
/transl_table=11
/*翻译起始位置和使用的密码本*/
/protein_id="CAA25859.1"
/db_xref="GOA:P06968"
/db_xref="InterPro:IPR008180"
/db_xref="InterPro:IPR008181"
/db_xref="PDB:1DUD"
/db_xref="PDB:1DUP"
/db_xref="PDB:1EU5"
/db_xref="PDB:1EUW"
/db_xref="PDB:1RN8"
/db_xref="PDB:1RNJ"
/db_xref="PDB:1SEH"
/db_xref="PDB:1SYL"
/db_xref="PDB:2HR6"
/db_xref="PDB:2HRM"
/db_xref="UniProtKB/Swiss-Prot:P06968"
/*中间一大段是该蛋白质序列在各蛋白质数据库中的检索号*/
/translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"
/*计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列(不是实际获得)*/
/*该核酸序列还存在着潜在基因unidentified reading frame,是由计算机预测出的基因,编码蛋白在系统中无明确记录*/
CDS 905..1540
/note="unnamed protein product; unidentified reading
frame"
/codon_start=1
/transl_table=11
/protein_id="CAA25860.1"
/db_xref="GOA:P0C093"
/db_xref="InterPro:IPR001647"
/db_xref="InterPro:IPR009057"
/db_xref="InterPro:IPR011075"
/db_xref="InterPro:IPR015893"
/db_xref="UniProtKB/Swiss-Prot:P0C093"
/translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"
/*核酸序列*/
ORIGIN
1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg
终于,我们把X01714的信息给解读完了,但此时还不能休息
我们还需要学会如何下载其信息,我们直接采用ctrlcv大法是不行的。我们把界面翻到最上面,可以看到两个选项:FASTA和Graphics。
点击FASTA我们可以获取FASTA格式的核酸序列信息,点击Graphics可以获取序列的图形概览。

真核生物核酸数据库解读
你的导师又派给了你一个任务,去研究一下人(真核生物)dUTPase的成熟mRNA(U90223)序列信息。
根据上文所述的技巧,我们可以得到真核生物的序列信息:
LOCUS HSU90223 960 bp mRNA linear PRI 03-JAN-1998
DEFINITION Human deoxyuridine triphosphate nucleotidohydrolase precursor mRNA,
nuclear gene encoding mitochondrial protein, complete cds.
ACCESSION U90223
VERSION U90223.1
KEYWORDS .
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 960)
AUTHORS Ladner,R.D. and Caradonna,S.J.
TITLE The Human dUTPase Gene Encodes Both Nuclear and Mitochondrial
Isoforms: Differential Expression of the Isoforms and
Characterization of a cDNA Encoding the Mitochondrial Species
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 960)
AUTHORS Ladner,R.D. and Caradonna,S.J.
TITLE Direct Submission
JOURNAL Submitted (19-FEB-1997) Dept. of Molecular Biology, Univ. of Med.
and Dent. of NJ-School of Osteopathic Medicine, 2 Medical Center
Drive, Stratford, NJ 08084, USA
FEATURES Location/Qualifiers
source 1..960
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
CDS 63..821
/note="mitochondrial dUTPase isoform; DUT-M"
/codon_start=1
/product="deoxyuridine triphosphate nucleotidohydrolase
precursor"
/protein_id="AAB94642.1"
/translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
sig_peptide 63..269
/note="mitochondrial targeting presequence"
mat_peptide 270..818
/product="deoxyuridine triphosphate nucleotidohydrolase"
ORIGIN
1 ggtggaagcc tggcgcacgt ccggaggtgc cgaggaccca accagcccaa actctggggg
61 aaatgactcc cctctgccct cgccccgcgc tctgctacca tttccttacg tctctgcttc
121 gctcagcgat gcaaaacgcg cgaggcacgg cagagggccg aagccgcggt actctccggg
181 ccaggcccgc ccctcggccg ccggcggcgc agcacgggat tccccggccg ctgtccagcg
241 ctggccgcct gagccaaggc tgccgcggag ccagtacagt cggggccgct ggctggaagg
301 gcgagcttcc taaggcgggg ggaagcccgg cgccggggcc ggagacaccc gccatttcac
361 ccagtaagcg ggcccggcct gcggaggtgg gcggcatgca gctccgcttt gcccggctct
421 ccgagcacgc cacggccccc acccggggct ccgcgcgcgc cgcgggctac gacctgtaca
481 gtgcctatga ttacacaata ccacctatgg agaaagctgt tgtgaaaacg gacattcaga
541 tagcgctccc ttctgggtgt tatggaagag tggctccacg gtcaggcttg gctgcaaaac
601 actttattga tgtaggagct ggtgtcatag atgaagatta tagaggaaat gttggtgttg
661 tactgtttaa ttttggcaaa gaaaagtttg aagtcaaaaa aggtgatcga attgcacagc
721 tcatttgcga acggattttt tatccagaaa tagaagaagt tcaagccttg gatgacaccg
781 aaaggggttc aggaggtttt ggttccactg gaaagaatta aaatttatgc caagaacaga
841 aaacaagaag tcataccttt ttcttaaaaa aaaaaaaagt ttttgcttca agtgttttgg
901 tgttttgcac ttctgtaaac ttactagctt taccttctaa aagtactgca ttttttactt
//
观察这一大串符号我们可以发现,真核生物和原核生物在数据库中的数据排列方式很类似,但是却出现了两个不一样的条目:
sig_peptide 63..269
/note="mitochondrial targeting presequence"
/*该段指出了编码用于亚细胞定位的信号肽的碱基位置*/
mat_peptide 270..818
/product="deoxyuridine triphosphate nucleotidohydrolase"
/*该段指出了编码成熟蛋白的碱基位置 */
mat_peptide 270…818的编码位置与 CDS 343…798相差了三个碱基,为什么?
回答:在这一段序列最后的三个氨基酸为编码区的终止密码子(不翻译)
新任务!:研究一下人(真核生物)dUTPase的基因组DNA序列信息(AH005568)
LOCUS AH005568 5507 bp DNA linear PRI 10-JUN-2016
DEFINITION Homo sapiens dUTPase (DUT) gene, complete cds, alternatively
spliced.
ACCESSION AH005568 AF018429 AF018430 AF018431 AF018432
VERSION AH005568.2
KEYWORDS .
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 5507)
AUTHORS Pearlman,R.E.
TITLE Human genomic nuclear and mitochondria dUTPase gene
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 5507)
AUTHORS Pearlman,R.E.
TITLE Direct Submission
JOURNAL Submitted (11-AUG-1997) Biology, York University, 4700 Keele St.,
North York, ONT M3J 1P3, Canada
COMMENT On or before Jun 10, 2016 this sequence version replaced
AF018429.1, AF018430.1, AF018431.1, AF018432.1, AH005568.1.
FEATURES Location/Qualifiers
source 1..5507
/organism="Homo sapiens"
/mol_type="genomic DNA"
/db_xref="taxon:9606"
/map="15q15-q21.1"
gene <1..>5236
/gene="DUT"
mRNA join(<282..561,1034..1172,2395..2486,3113..3157,
4447..4521,4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes mitochondrial form
of the protein"
CDS join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..5236)
/gene="DUT"
/note="DUT-M; alternatively spliced; mitochondrial form of
the protein; similar to H. sapiens dUTPase encoded by
GenBank Accession Number U90224"
/codon_start=1
/product="dUTPase"
/protein_id="AAB71393.1"
/translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
exon <282..561
/gene="DUT"
/note="exon used only in the mitochondrial form of the
protein"
/number=1
protein_bind 898..903
/gene="DUT"
/bound_moiety="SP-1"
protein_bind 935..943
/gene="DUT"
/bound_moiety="E2F"
mRNA join(<1018..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes nuclear form of the
protein"
CDS join(1018..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..5236)
/gene="DUT"
/note="DUT-N; alternatively spliced; nuclear form of the
protein; similar to H. sapiens dUTPase encoded by GenBank
Accession Number U90224"
/codon_start=1
/product="dUTPase"
/protein_id="AAB71394.1"
/translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
TGKN"
exon <1018..1172
/gene="DUT"
/note="alternative exon used in nuclear form of the
protein"
/number=2
exon 1034..1172
/gene="DUT"
/note="alternative exon used in mitochondrial form of the
protein"
/number=2
gap 1736..1835
/estimated_length=unknown
exon 2395..2486
/gene="DUT"
/number=3
gap 3013..3112
/estimated_length=unknown
exon 3113..3157
/gene="DUT"
/number=4
gap 3690..3789
/estimated_length=unknown
exon 4447..4521
/gene="DUT"
/number=5
exon 4673..4743
/gene="DUT"
/number=6
exon 5180..5236
/gene="DUT"
/number=7
ORIGIN
1 tcggaaaaat gggggccaga gcaaacaaga agagcgaaag caagagggct aggcagccag
61 aggcggcagc aagactcaag acgccaacgg cgctgtttcc tggggcccca gggcttgcgc
121 catccctggg ctgccggggc accgcctctc cacgcccctc gtccggcggc ggctgcgact
181 gcttccgagg tcatgttccc aggacgggcg cgtcttcagg gtggaagcct ggcgcacgtc
241 cggaggtgcc gaggacccaa ccagcccaaa ctctggggga aatgactccc ctctgccctc
301 gccccgcgct ctgctaccat ttccttacgt ctctgcttcg ctcagcgatg caaaacgcgc
361 gaggcacggc agagggccga agccgcggta ctctccgggc caggcccgcc cctcggccgc
421 cggccgcgca gcacgggatt ccccggccgc tgtccagcgc tggccgcctg agccaaggct
481 gccgcggagc cagtacagtc ggggccgctg gctggaaggg cgagcttcct aaggcggggg
541 gaagcccggc gccggggccg ggtaggaaag gcgggggagg ggctccggcc gtctggaagg
601 aatccaacgc ggcttgaggc tgtggggaag tagggtggcg agcggtcctt ctgcgcgcgg
661 ggggccgggg gggtggggtg gtccattagg gtcccctggc gagggggcgg ctttctagtg
721 tgtgaaggcg acgccctaga agctcccctt caaagttggc cccacgcgct gaatgtggaa
781 agttgactgg gacccagtag tttcccatcc caaacctgct ttccgagaag ggcttcaaac
841 ccaaaatgtg aatcccgcct cccctctcag ccagaactgt ggactcgtcc cggggagggg
901 cggtgggtgg ggcggggctg gcgggaaatt tcggttttgg cgcgctccct gcggcgacgc
961 tcatcgtgcg ctctcctctt cccccggtgg tctcctcgct cgccttctgg ctctgccatg
1021 ccctgctctg aagagacacc cgccatttca cccagtaagc gggcccggcc tgcggaggtg
1081 ggcggcatgc agctccgctt tgcccggctc tccgagcacg ccacggcccc cacccggggc
1141 tccgcgcgcg ccgcgggcta cgacctgtac aggtgagcgg ggacctgccg gcgaggaggc
1201 tgggaagggc cggccgtccg ctgccacagc tagaaacagt caccggagag atcacaggaa
1261 cacactagct ataaatagga tttctgcctt tttcgtgttt aaaattttag ctttcatctt
1321 tggcataaat taaatagaga tttgggcaaa gactgcagaa taagtaaaat agctatacgg
1381 tgtctagcaa ggcgttactt tgcaacgttt attgtgccct tcctaaatag aagatagaga
1441 ggaaggccca tggtggcttt cgaagtggcc cgagggtgat gctgtgctca atagaaaaac
1501 caaggtgaga gcctagatgt gagcgtgaaa atacctaaga aggatgaacg aagatgcatc
1561 tgccttaaaa agttatttct atacattcat ccggcccagg gcggaatttg agaagcatct
1621 gaaaacgaag gcagactgcc tgtatctacc acactttcat ctctacagca cgttttactg
1681 tactaaaact tcccgtatgc tgttgtatag tcctccacac atccctaact agata
[gap 100 bp] Expand Ns
1836 tccct aaatcaacac agatcatgtg
1861 gaggaataaa atggggttaa tatatgtaaa accaattagg aaactgtttc tggggcaaca
1921 cagtaaaggg cttattcaat ggataggcta gtattattag ttagtaattg ggcccttttt
1981 ttctttgttt cttttcttca tttttttcct tttcaaacta tgggttgtaa agcatccacc
2041 ttttgaaagt ttgcctttct gccctttcac gctgataagt acctcagttt ccaataaact
2101 tttgttcagg ggcaaacatt tacaatgttg acatctcttc acaccaccaa aaatattcat
2161 ggagaattat tttatctaaa gctgtctttt taataataaa atagccacct ctaccttctt
2221 cataaacttt taagatgaat tggtaattca tcatagcaag gttgatttta gaaactaaag
2281 ttgcattaat tcattaaata cactgaaagt aattttgtat gcttggtcac aaagaaaata
2341 taaaaacaat tttataaata gatttgcagt tattttcttt caatattttc ttagtgccta
2401 tgattacaca ataccaccta tggagaaagc tgttgtgaaa acggacattc agatagcgct
2461 cccttctggg tgttatggaa gagtgggtaa gtcatttaag aaacaggtaa ctatttgtca
2521 agttctcctt tgtgatagat tcttcatgtt tcatttgggg taataagcag gcaatattgc
2581 ttgggctgtg tcctaaaaga agcaccattt gtgatagcaa atgcactctt tgaaaggctt
2641 tatttacatc tctgctttgc ctctttttga cccttttatt tttctccttc ctcactggag
2701 cttttaggct cacactggcc tagaaggctg ttctcagaac atggcatttt atattatgag
2761 agtaaaactt ctgacctgtt ggtcccagaa tgtgtaagcc tacttaacct tttcttgttt
2821 ggccatgggg tttagggtaa gggatactct tcagtgtttg tagaggcact gggaggaagc
2881 taggacaaaa tggagttaca cgtcaacagg tttgattttt cctggaagcg aattcagtgt
2941 ttaccagaca gttcctttgc agagcgttag ttcctttttg actacttcca agttaactta
3001 aggaggcatg ga
[gap 100 bp] Expand Ns
3113 ctccacgg
3121 tcaggcttgg ctgcaaaaca ctttattgat gtaggaggta atatatttcc ttttttattc
3181 tgtaaatgtt tgcaagtatt tactttgtct ttaaaaggta atattcaaat gacagatttt
3241 atttttaaga aaagaaaatg attagaggaa agcttgttat aataggagga aaagctttgt
3301 ggttatttta agtaattata ttttgtttaa ctactaactt aatttttaaa ataatgatta
3361 cctaattaat aatgacagat ttaatgatat aataattaag taattattta agcaacaaaa
3421 gttctagaaa acacaggtct atcttgtaag aattttcttc ataagagagc tatctgtctt
3481 tagcaaaatt taagaagaaa atctttccct gaagtcagga gagaaaacac ttttctctaa
3541 atttgttaag acagtccctc tgtgttacct gtttcccctt tataataaag cctttctcat
3601 gtttggtcct caaagttaac ccctacctcc tgttggtacc ctttcatgaa gaaccctcag
3661 tgtccccccg gccaactaac ccctgatac
[gap 100 bp] Expand Ns
3790 t cccccgggtc atattctaac agtatataca caaaaagtgt actcaggaag
3841 cctatgtgct acagtctctg agaaccatgt ctaaggaagg atggtggttc agattaaaag
3901 gagaggaaga ttatgaactg aaaaatacag ctcattttta gtgtaaaaat ggaatattct
3961 aatatttgca agactgctgc ttaacaatgt cagcgttgat ttactccact gcagagcttt
4021 aggctttttg acatttttat ttatgactca attgtatttc aatctgggta ttagcgggaa
4081 gctgatacca ggaaaaacct ttaaaaccca aattgtaatt ttctcctagt ctttttggca
4141 agtgtgccgt gggtagacag taggttggag atggccattg ctactgccag cttaaaatag
4201 gaaatggtcg ccatttgata aagagtgaca ggttggaaaa ttaggacctg ttttctaaat
4261 ttttatttgt attttagtaa tgtcatttct tggttttgag gctttacata gtaccagggc
4321 aagattcact tattcaattg taagaataca aatctcagag ctacatgata atgattttga
4381 gataatctta cacctctagt attccaatag caaaaattga gataatatta cttttctttt
4441 ctctagctgg tgtcatagat gaagattata gaggaaatgt tggtgttgta ctgtttaatt
4501 ttggcaaaga aaagtttgaa ggtatgttaa atatatacat tcacataatt ttagtgaatt
4561 ttcagagtca tgtatgtgta aattaatatt gactccttta attctcattg aataagacag
4621 gatatggcga atgtgtcagt aacgtcagta ataaactatt ctttctttga agtcaaaaaa
4681 ggtgatcgaa ttgcacagct catttgcgaa cggatttttt atccagaaat agaagaagtt
4741 caagtaagta ttacaaagga agatacagaa taagtaatat aacatcttaa gtgaagaaat
4801 atatataatc ttgagaattt aatatgctgt ttgtaactaa atagtatata tgactaaact
4861 tattttaagc aaatttaaaa tactagtttt agaatttctt taaatgtttt tcatgtagct
4921 attatgtagt attactttgg ataataagtt atttaaacat actgtgaact tctaatattt
4981 tattagaatt ttttaaagtt atccagtatt ctaatttatg gagcttttta gaatttaatt
5041 ttctttctgt aatctccctt ttgaaaagat gatatagcaa gagtagaatt ctggctgtat
5101 ttttcttagg agctggagag gaaaactgaa agatgctctt aaaaaaaact gtgaagctta
5161 ctacctttct atctttcagg ccttggatga caccgaaagg ggttcaggag gttttggttc
5221 cactggaaag aattaaaatt tatgccaaga acagaaaaca agaagtcata cctttttctt
5281 aaaaaaaaaa aaaaagtttt tgcttcaagt gttttggtgt tttgcacttc tgtaaactta
5341 ctagctttac cttctaaaag tactgcattt tttacttttt tttatgatca aggaaaagat
5401 cattaaaaaa aaacacaaag aagtttttcc tttgtgttgg gatcaaaaga aactttgttt
5461 tcccgcaatt gaagggttgt atgtaaatcg ccttgttgtg aaccaca
//
我们观察FEATURES段:
FEATURES Location/Qualifiers
source 1..5507
/organism="Homo sapiens"
/mol_type="genomic DNA"
/db_xref="taxon:9606"
/map="15q15-q21.1"
gene <1..>5236
/gene="DUT"
mRNA join(<282..561,1034..1172,2395..2486,3113..3157,
4447..4521,4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes mitochondrial form
of the protein"
CDS join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..5236)
/gene="DUT"
/note="DUT-M; alternatively spliced; mitochondrial form of
the protein; similar to H. sapiens dUTPase encoded by
GenBank Accession Number U90224"
/codon_start=1
/product="dUTPase"
/protein_id="AAB71393.1"
/translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
exon <282..561
/gene="DUT"
/note="exon used only in the mitochondrial form of the
protein"
/number=1
protein_bind 898..903
/gene="DUT"
/bound_moiety="SP-1"
protein_bind 935..943
/gene="DUT"
/bound_moiety="E2F"
mRNA join(<1018..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes nuclear form of the
protein"
CDS join(1018..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..5236)
/gene="DUT"
/note="DUT-N; alternatively spliced; nuclear form of the
protein; similar to H. sapiens dUTPase encoded by GenBank
Accession Number U90224"
/codon_start=1
/product="dUTPase"
/protein_id="AAB71394.1"
/translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
TGKN"
exon <1018..1172
/gene="DUT"
/note="alternative exon used in nuclear form of the
protein"
/number=2
exon 1034..1172
/gene="DUT"
/note="alternative exon used in mitochondrial form of the
protein"
/number=2
gap 1736..1835
/estimated_length=unknown
exon 2395..2486
/gene="DUT"
/number=3
gap 3013..3112
/estimated_length=unknown
exon 3113..3157
/gene="DUT"
/number=4
gap 3690..3789
/estimated_length=unknown
exon 4447..4521
/gene="DUT"
/number=5
exon 4673..4743
/gene="DUT"
/number=6
exon 5180..5236
/gene="DUT"
/number=7
第五行的 /map=“15q15-q21.1”,指出了该序列属于第15号染色体,更精确地说是该染色体的长臂q上的q21.1条带内。
gene <1..>5236
/gene="DUT"
gen指出了完整基因的具体位置。
mRNA join(<282..561,1034..1172,2395..2486,3113..3157,
4447..4521,4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes mitochondrial form
of the protein"
mRNA指出了所有外显子的具体位置,mRNA中的基因串起来相当于完成了剪切的过程,就是成熟的mRNA。
值得注意的是,剪切后的mRNA有两种:
mRNA join(<282..561,1034..1172,2395..2486,3113..3157,
4447..4521,4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes mitochondrial form
of the protein"
mRNA join(<1018..1172,2395..2486,3113..3157,4447..4521,
4673..4743,5180..>5236)
/gene="DUT"
/product="dUTPase"
/note="alternatively spliced; encodes nuclear form of the
protein"
上方的mRNA在前端多一个外显子,这一块将被翻译为定位线粒体的信号肽,从而翻译出线粒体型的蛋白质。下一种没有信号肽的,将形成细胞核型蛋白质。
exon <282..561
/gene="DUT"
/note="exon used only in the mitochondrial form of the
protein"
/number=1
exon段表示的含义是:当前序列所包含的282-561号碱基是“DUT”基因的第一个外显子。
2. ENA
欧洲核苷酸序列数据集(ENA)是由欧洲分子生物学研究室(EMBL)开发并维护。
ENA数据库: http://www.ebi.ac.uk/ena/
3. DDBJ
日本DNA数据库(DDBJ),由位于日本国立遗传学研究所(NIG)开发并负责维护。
DDBJ数据库: http://www.ddbj.nig.ac.jp/
4. INSDC
INSDC是三家数据库共同组成的国际核酸序列数据库合作联盟,通过每日的数据共通,使得他们几乎在任何时候都享有相同的数据。
INSDC数据库: http://www.insdc.org/
5. 基因组数据库Ensemble
这部分我们来学习使用Ensemble基因组数据库
Ensemble链接: http://www.ensembl.org
Ensembl是由欧洲生物信息学研究所(EBI)和英国桑格研究院合作开发。Esemble收入了各种动物的基因组,特别是那些离我们人类相近的动物。这些基因组的注释都是通过配套开发的软件自动添加的。
通过点击上方的连接我们可以前往Ensemble的官网。
从中我们可以获取到染色体一览图等信息:
点击DNA条段,可以进入查看条段的详细信息。从上文的学习可以得知,DUT基因位于15号染色体的长臂条段21.1附近,我们进入这条条段查看一下。
点击条段进入

进入之后可以看到该条段的详细信息

我们在基因图谱中找到DUT基因,并以其为中心放大

点击DUT基因在Ensemble数据库中的检索号,便可以得到该基因在数据库中的详细记录。

6. 微生物宏基因组数据库JCVI
JCVI链接: http://www.jcvi.org
美国基因组研究所(TIGR)致力于为生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所(JCVI)的一部分,自1995年成立之初的两个基因组,至今已有超过700个基因组。TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已经完成测序的基因组,还有哪些测序中的基因组信息。
三、二级核酸数据库
二级核酸数据库包含的内容很多,经常会用到的几个数据库有:NCBI下属的RefSeq数据库,dbEST数据库以及Gene数据库。
RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)
Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录
ncRNAdb:非编码RNA数据库,提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万多条序列。
ncRNA链接: http://biobases.ibch.poznan.pl/ncRNA/
miRBase:主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘miRNA序列间的关系。
miRBase链接: http://www.mirbase.org/
至此,今天对基因库的学习基本上就告一段落。之后需要的就是多搜索几个DNA序列,来巩固自己的所学。
更多推荐



所有评论(0)