工具篇丨PLEK：练就识破非编码RNA功能的“火眼金睛”

蜡笔小新小张聊科研

在肿瘤相关机制课题研究方面，长链非编码RNA的研究成为许多研究者关注的热点方向，其主要原因是long noncoding RNAs本身的独特性，功能的多样性，在疾病的发生发展中的关键作用。发现新的LncRNA，并进行功能的注释，会是一篇非常好的业内文章。然而这类课题的研究仍旧面临着很大的困难。在这些困难中，有一个关键的问题：怎么确定long noncoding RNAs本身是一条非编码的RNA转录本而不是编码氨基酸的转录本呢？对于刚刚踏入实验海洋的战友来说，确实一头雾水。下面我给大家介绍一下学习的心得：首先，软件工具预测，常见用于预测转录本蛋白编码能力的工具包括CPC、CNCI、CPAT、PhyloCSF等。随着信息技术的探索和研发，2014年BMC Bioinformatics杂志上发表的一篇“PLEK: a tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme”的文章，介绍了一款能够简单快速分析long noncoding RNAs序列的编码特性的软件工具-PLEK。为长链非编码RNA的研究提供了初步筛选的手段。

下面我们来简单介绍一下PLEK软件的优势和实操：

PLEK 又称“predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme”是一款免比对的操作工具，能够快速的在特定物种的测序数据中区分LncRNAs和mRNAs，具有可操作性。

在对于非编码序列的分析中，PLEK和CNCI要明显优于CPC和PhyloCSF，文中作者比对鼠的6015 lncRNAs 和随机的6015 mRNAs样本集发现，PhyloCSF和CPC工具至少把22% 非转录本被误判为编码转录本（下图）。

PLEK数据分析的敏感性和特异性的平衡明显优于CPC数据分析（表2）

PLEK的运行速度比CPC和CNCI高出8倍左右，PLEK 特别适合有indel序列的转录组数据和逐渐增长的大的转录组数据集。

综合上述优点，PLEK是一个非常有价值的非序列比对工具，能够准确、可靠、快速的在大量的转录本中鉴别出LncRNAs。

那讲了这么多的优点，那具体怎么操作呢？关键的操作步骤来啦，让我们来揭开PLEK的神秘面纱：

首先，PLEK 软件程序下载网址：

https://sourceforge. net/projects/plek/files/.

下载后自行安装（提示整个计算机环境应在Linux环境下进行操作）

注意软件的操作环境：

软件安装完成后，那就是非常简单了~

输入命令$ cd PLEK.1.2

$ python PLEK_setup.py -fasta fasta_file -out output_file -thread number_of_threads -minlength min_length_of_sequence -isoutmsg 0_or_1 -isrmtempfile 0_or_1

例子： $ python PLEK.py -fasta PLEK_test.fa -out predicted -thread 10

然后点击回车就可以进行计算，并得到最后的结果，结果的输出在Result file: plek_output_文件夹显示，打开输出的txt文件就可以轻松看到结果。

在这里非常值得一提的关键点，准备的文件的格式，

例如： >chr1 exon 12345678-12345678 –

ATCGTTGTATTCGGGCAT……

文件格式是txt。这样会让你在使用软件的时候畅通无阻，以更精确的方式预测转录本的编码特性，为后续的实验打下良好的基础。

至此，PLEK这个工具软件已经介绍完毕，这款使用软件可以在我们课题初期拿到的未知长链非编码RNA转录本后，进行简单的初步分析，在很大程度上确定是非编码的序列后，相对可以放心的进行后续的验证工作。然而，软件工具预测只是给我们提供了一个初步的分析结果和可能的方向，预测的结果仍旧需要后续实验工作的验证。对于后续实验的验证方法，也没有统一的标准，是构建标签质粒，怎么构建标签质粒，怎么进行后续的蛋白检测实验呢？关于具体的通过实验的方法进行验证的方式，如果有机会再和大家分享。

注：本推文未经许可禁止转载。

阅读推荐：

如果您或者科室有科研上的困扰

扫码备注：科研合作

继续滑动看下一个