在肿瘤相关机制课题研究方面,长链非编码RNA的研究成为许多研究者关注的热点方向,其主要原因是long noncoding RNAs本身的独特性,功能的多样性,在疾病的发生发展中的关键作用。发现新的LncRNA,并进行功能的注释,会是一篇非常好的业内文章。然而这类课题的研究仍旧面临着很大的困难。在这些困难中,有一个关键的问题:怎么确定long noncoding RNAs本身是一条非编码的RNA转录本而不是编码氨基酸的转录本呢?对于刚刚踏入实验海洋的战友来说,确实一头雾水。下面我给大家介绍一下学习的心得:首先,软件工具预测,常见用于预测转录本蛋白编码能力的工具包括CPC、CNCI、CPAT、PhyloCSF等。随着信息技术的探索和研发,2014年BMC Bioinformatics杂志上发表的一篇“PLEK: a tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme”的文章,介绍了一款能够简单快速分析long noncoding RNAs序列的编码特性的软件工具-PLEK。为长链非编码RNA的研究提供了初步筛选的手段。
下面我们来简单介绍一下PLEK软件的优势和实操:
PLEK 又称“predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme”是一款免比对的操作工具,能够快速的在特定物种的测序数据中区分LncRNAs和mRNAs,具有可操作性。
在对于非编码序列的分析中,PLEK和CNCI要明显优于CPC和PhyloCSF,文中作者比对鼠的6015 lncRNAs 和随机的6015 mRNAs样本集发现,PhyloCSF和CPC工具至少把22% 非转录本被误判为编码转录本(下图)。
PLEK数据分析的敏感性和特异性的平衡明显优于CPC数据分析(表2)
PLEK的运行速度比CPC和CNCI高出8倍左右,PLEK 特别适合有indel序列的转录组数据和逐渐增长的大的转录组数据集。
综合上述优点,PLEK是一个非常有价值的非序列比对工具,能够准确、可靠、快速的在大量的转录本中鉴别出LncRNAs。
那讲了这么多的优点,那具体怎么操作呢?关键的操作步骤来啦,让我们来揭开PLEK的神秘面纱:
首先,PLEK 软件程序下载网址:
https://sourceforge. net/projects/plek/files/.
下载后自行安装(提示整个计算机环境应在Linux环境下进行操作)
注意软件的操作环境:
软件安装完成后,那就是非常简单了~
输入命令$ cd PLEK.1.2
$ python PLEK_setup.py -fasta fasta_file -out output_file -thread number_of_threads -minlength min_length_of_sequence -isoutmsg 0_or_1 -isrmtempfile 0_or_1
例子: $ python PLEK.py -fasta PLEK_test.fa -out predicted -thread 10
然后点击回车就可以进行计算,并得到最后的结果,结果的输出在Result file: plek_output_文件夹显示,打开输出的txt文件就可以轻松看到结果。
在这里非常值得一提的关键点,准备的文件的格式,
例如: >chr1 exon 12345678-12345678 –
ATCGTTGTATTCGGGCAT……
文件格式是txt。这样会让你在使用软件的时候畅通无阻,以更精确的方式预测转录本的编码特性,为后续的实验打下良好的基础。
至此,PLEK这个工具软件已经介绍完毕,这款使用软件可以在我们课题初期拿到的未知长链非编码RNA转录本后,进行简单的初步分析,在很大程度上确定是非编码的序列后,相对可以放心的进行后续的验证工作。然而,软件工具预测只是给我们提供了一个初步的分析结果和可能的方向,预测的结果仍旧需要后续实验工作的验证。对于后续实验的验证方法,也没有统一的标准,是构建标签质粒,怎么构建标签质粒,怎么进行后续的蛋白检测实验呢?关于具体的通过实验的方法进行验证的方式,如果有机会再和大家分享。