怎樣從UCSC下載基因組的GTF文件,針對這個問題,這篇文章詳細介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
創(chuàng)新互聯(lián)從2013年創(chuàng)立,先為方山等服務(wù)建站,方山等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為方山企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
從UCSC下載基因組的GTF文件有兩種方式,一種是利用table browser 瀏覽器,另外一種是通過FTP服務(wù)。
Table Browser提供了一個檢索和下載的入口,支持多種格式的下載,下載gtf文件只是其中一個功能,網(wǎng)址如下
http://genome.ucsc.edu/cgi-bin/hgTables

第一行的3個標簽用于確定確定物種和版本。clade提供了物種分類,包括以下類型
Mammal 哺乳動物
Vertebrate 脊椎動物
Deuterostome 后口動物
Insect 昆蟲
Nematode 線蟲
Viruses 病毒
other 其他
從這里的類別也可以發(fā)現(xiàn),UCSC主要提供了動物的基因組,如果想要下載植物基因組的相關(guān)文件,只能考慮NCBI,Ensembl了。根據(jù)clade的類別,可以快速查找物種。genome選擇對應(yīng)的物種名字,assembly選擇基因組版本。
group用于選擇文件保存信息的類型,提供了以下類型
Mapping and Sequencing
Genes and Gene Predictions
Phenotype and Literature
mRNA and EST
Expression
Regulation
Comparative Genomics
Variation
Repeats
All Tracks
All Tables
GTF文件保存的是基因和轉(zhuǎn)錄本的結(jié)構(gòu)信息,所以選擇2,track選擇對應(yīng)的數(shù)據(jù)庫和版本,通常選擇NCBI RefSeq。
table選擇數(shù)據(jù),對于NCBI RefSeq, 提供了如下選擇
RefSeq All
RefSeq Curated
RefSeq Predicted
UCSC RefSeq
RefSeq All代表RefSeq中所有的轉(zhuǎn)錄本信息,RefSeq Curated代表核對過的數(shù)據(jù),可信度較高,以NM, NR, YP開頭,RefSeq Predicted代表預(yù)測的數(shù)據(jù),以XM, XR開頭;UCSC RefSeq 代表所有以NM, NR開頭的轉(zhuǎn)錄本信息。通常選擇UCSC RefSeq即可。
region選擇下載的區(qū)域,是選擇整個基因組,還是只是染色體上的部分區(qū)域。output format選擇輸出文件格式,常用的有以下兩種
GTF(limited)
BED
output file指定輸出文件的名字,如果不指定,默認會顯示在瀏覽器中共,如果下載整個基因組的信息,建議填寫輸出文件的名字,file type returned選擇返回文件的格式,支持返回壓縮文件。
通過簡單的勾選,就可以下載到GTF文件了。但是這種方式下載的GTF文件是有限制的,只包含了轉(zhuǎn)錄本ID, 示例如下
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";
轉(zhuǎn)錄本對應(yīng)的基因名稱時非常重要的信息,如果要解決這個問題,可以通過FTP服務(wù)器進行下載。
UCSC的FTP服務(wù)提供了物種的注釋文件供下載,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并沒有直接提供bed12, gtf 格式的文件,因為這些格式存在冗余信息,文件大小會比較大。為例節(jié)省磁盤空間,UCSC提出來genePred這種格式。這種格式每一行代表一個轉(zhuǎn)錄本信息,冗余信息較少。更多的介紹可以參考官方文檔
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq這種信息對應(yīng)的文件為refGene.txt.gz, 對于該文件,需要借助UCSC官方提供的格式轉(zhuǎn)換工具轉(zhuǎn)換為gtf格式。
其中genePredToGtf就是把genepred格式轉(zhuǎn)換為gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz gunzip refGene.txt.gz cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtf
refGene.txt的第一列信息是多余的,刪除之后,整個文件就是genePred格式了。最終生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . + . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";
可以看到,gene_id的信息是有了。但是還是有點不足之處,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,無法確定基因類型。
關(guān)于怎樣從UCSC下載基因組的GTF文件問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。
當(dāng)前文章:怎樣從UCSC下載基因組的GTF文件
新聞來源:http://www.chinadenli.net/article32/geejpc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、外貿(mào)建站、自適應(yīng)網(wǎng)站、云服務(wù)器、搜索引擎優(yōu)化、企業(yè)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)