在这里插入图片描述

最近使用hmmer时使用到了prodigal,这个工具主要是用来预测原核生物中所有的ORF的,只要将要预测的基因组传入软件即可,不论是单个物种的基因组,还是宏基因组都可以,而且软件计算速度很快,有需要的时候可以用一下呀!


下载以及安装

prodigal可以直接在github上下载发布版本,分别有windows、linux或者os系统的,在linux上下载后解压,再make一下即可(因为我使用make install报错了,但照样能使用)。github链接为https://github.com/hyattpd/Prodigal/releases/tag/v2.6.3

基本使用方式

prodigal的使用方式十分简单,只需要prodigal一个命令即可,简要介绍一下其包含的参数:

项目 Value
-i 输入文件
-a 表示将预测到的ORF全部翻译为氨基酸序列后记录到-a后跟的文件名中
-g 选取翻译用的密码子表
-c 表示不允许找到的ORF是不具有起始密码或终止密码的(默认是允许的)
-d 后面跟找到的所有ORF的核酸序列
-o 指定输出文件
-f 选取输出格式,默认为gbk格式,还可以选gff,sco等
-h 帮助
-m 不寻找包含N的序列
-p 选择输入单个基因组还是宏基因组(默认为单个)
-q 不打印过程
-s 将所有潜在的序列都记录下来在-s跟的文件中
-t 生成training文件,以便后续类似的预测
-v 打印出prodigal的版本
-n Bypass Shine-Dalgarno trainer and force a full motif scan(这个不是很懂,和使用到的基序相关)

其中比较常用的应该就是-a、-o、-d、-s这几个参数。

三种使用模式

normal mode

默认使用的模式,根据输入的基因组,从基因组中分析、学习等,再根据得到的特性来预测所有的ORF。

anonymous mode

匿名模式,使用prodigal自带的已经预先计算好的模式来预测ORF

training mode

初次使用时同normal mode,但是使用后可以得到一个训练后得到的文件,下一次预测ORF时可以使用这个文件作为一种模式来预测

输出文件

输出文件中包含的内容主要和找到的序列相关,包含有一个自动生成的ID、其起始密码子的类型,终止密码子的类型,是否同时找到起始和终止密码,以及起始密码和终止密码的位置,gc比值,得分等。如下例(预测的ORF被翻译成蛋白质序列):
在这里插入图片描述
这些信息都比较一目了然,我也就不多介绍了。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐