上海交大吕晖课题组开发出基因组二代测序数据质控新方法

科技工作者之家 2022-10-24

近日,国际知名期刊《Communications Biology》在线发表了上海交大吕晖教授课题组题为“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果。该研究提出了一种新的基因组二代测序数据质量控制方法,有效提升了二代测序检出的基因变异的可靠性。上海交大生命科学技术学院博士毕业生任永永、孔艳博士后为共同第一作者,生命科学技术学院吕晖教授和赵宏宇教授为共同通讯作者。

全基因组二代测序技术已广泛应用在儿科遗传疾病诊断、肿瘤基因组图谱分析、全基因组关联分析等基因组研究领域,但由于测序和分析误差,检出的SNV和INDEL变异类型中存在大量假阳性变异,给基因组图谱分析和遗传疾病的鉴别诊断带来了较大的噪声干扰。目前已有多个方法可用于过滤二代测序检出的假阳性变异,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF,但这些方法在过滤假阳性变异的同时,损失了数倍的真变异,严重干扰了下游的遗传疾病诊断和分子功能研究。

为解决上述问题,吕晖团队构建了自适应过滤方法FVC (Filtering for Variant Calls),用于对不同遗传变异分析软件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)检出结果中的假阳性变异进行过滤。

图片1.png

研究结果显示,相较于其它过滤方法,新方法FVC过滤掉了更多的假阳性变异,同时召回了其它过滤方法遗漏的~51-99%真阳性变异,当使用评价指标OFO(Odds of false omission, 损失的真阳性变异个数与过滤掉的假阳性变异个数之比,又名真阳性损失比)进行性能评价时,FVC将真阳性损失比OFO从0.05-1661.28降低至0.02-0.57。为排除潜在的数据泄露和过拟合导致的评估偏差,分别使用留一染色体交叉验证(leave-one-chromosome-out cross-validation)、留一个体交叉验证(leave-one-individual-out cross-validation)和独立测试集进行验证,FVC同样获得了最佳性能。

该工作得到上海交通大学高性能计算中心(HPC)、沈南鹏上海交通大学“医学研究基金”和中国国家重点研发计划(2018YFC0910500)的支持。

论文链接:https://www.nature.com/articles/s42003-022-03397-7

作者:生命科学技术学院供稿单位:生命科学技术学院
内容来源:上海交通大学

来源:上海交通大学

原文链接:https://news.sjtu.edu.cn//jdzh/20221024/175497.html

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

基因组 方法 分析 变异 阳性

推荐资讯