小样本深度学习丨肝癌分期数据案例

科技工作者之家 2019-06-06

来源:中国工程院院刊


1.

深度学习的优越感

1956年人工智能概念被提出。经过60多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的引领下,人工智能发展所处的信息环境和数据基础已经发生了巨大而深刻的变化。

 

在大数据环境下,Hinton等发起的深度学习已经成为大数据智能的关键核心技术,并在智能驾驶、智慧城市、语音识别和信息检索等多个领域取得重大突破。以深度学习为核心的大数据智能方法,再利用大规模已标注样本数据充分训练,可以展现出更加优越的性能。

 2.

小样本深度学习的可能——GAN

然而在许多应用场景中,标注样本获取困难且成本很高。小样本致使经典统计机器学习算法无法获得优良的泛化性能,进而制约了以深度学习为核心的大数据智能方法在此类领域中的应用。

在实践应用中,面临小样本问题的领域远多于具有大数据环境的领域,这严重制约了新一代人工智能的发展。

随着新一代人工智能及大数据智能的快速发展,为了解决标注样本不足的问题,近年来提出的以深度学习为基础的生成对抗网络(Generative Adversarial Network,GAN),这为小样本数据下应用以深度学习为核心的大数据智能方法提供了可能。

GAN是一种强大的生成模型,由Goodfellow等研究者于2014年提出。GAN针对标注样本不足的问题,能够生成与真实样本分布相同的模拟样本,扩大标注样本规模,提升有监督学习模型的性能。

 

GAN包含生成器和判别器,并均为深度神经网络结构。GAN在生成器与判别器相互博弈的过程中学习真实样本的分布。

 3.

GAN的肝癌分期预测

肝细胞癌是一种常见的恶性肿瘤,5年生存率低于15%。肝细胞癌的早期治疗能够有效提升患者的5年生存率,因此,肝细胞癌的早期识别对于该癌症的治疗有重要价值。但是,由于缺乏含有癌症分期信息的样本,相关研究进展缓慢。

为了探索小样本下的有监督学习问题的解决方案,扩大深度学习的适用范围,研究者提出了一种基于GAN和DNN分类器的小样本下的肝癌病人的病理周期分类方法。

20190606160850_2ab026.jpg

☝  小样本多分类方法流程

<<可点击图片放大查看>>

首先将原始样本划分为训练集样本和测试集样本,采用训练集样本分别训练GAN模型,优化GAN模型参数;

之后采用GAN的生成器生成模拟样本并采用GAN的判别器进行过滤;

最后采用过滤后的模拟样本训练DNN(Deep Neural Network,DNN)分类器,并采用测试集样本测试DNN分类器。

实验结果表明深度学习结合生成对抗网络应用于改善癌症分期识别精度取得很好的效果,各项指标均超过了传统方法。这一结果对癌症研究有重要意义。

此研究的设计初衷,并不仅是为了解决肝癌的分期预测问题,更是为了解决小样本下的有监督学习问题。基于深度学习的特性,该方法并不依赖精准的癌症研究领域知识,因此,将本方法在保证有效性的同时,大大降低了该方法拓展到其他应用领域的障碍。


改编来源:

Yufei Liu, Yuan Zhou, Xin Liu, Fang Dong, Chang Wang, Zihong Wang. Wasserstein GAN-Based Small-Sample Augmentation for New-Generation Artificial Intelligence: A Case Study of Cancer-Staging Data in Biology.Engineering,2019,5(1):156-163.


来源:Engineering 中国工程院院刊

原文链接:http://mp.weixin.qq.com/s?__biz=MzA3MTUwNjU3NQ==&mid=2651031038&idx=3&sn=42ab5523d53b3cb597019ad268347aab&chksm=84dbaa1eb3ac2308b954e0685de0f236e84d06f21c3643c158543aee27f1236b7be8fa739982&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

人工智能 大数据 机器学习 深度学习 gan

推荐资讯