精准数据让人工智能更“聪明” 学术资讯

标题：龙猫数据|精准数据让人工智能更“聪明”

2017年网络热词——人工智能，热度不减。2018世界人工智能大会近日在上海举行，来自近40个国家和地区的专家学者、企业家等围绕人工智能技术前沿、产业趋势和热点问题开展对话交流，200多家人工智能领域领军企业参加论坛和展示活动。

什么是人工智能？从1997年IBM深蓝计算机战胜国际象棋大师卡斯帕罗夫，到2016年AlphaGo横扫人类职业围棋选手；从机器学习、算法研究到智能音箱、智慧物流等产品化、产业化，以人类智能相似的方式做出反应的智能机器越来越多的出现在我们面前。

经历一甲子，人工智能已经从争论不定的“概念”，逐渐具象、延伸为愈加丰富的学科，并培育起一批科技产业，被全世界更广大范围内的人群接触、认知。

人工智能营造的产业及市场规模有多大，目前没有确切的说法。但保守预估，2018年中国人工智能市场将达到381亿元，全球人工智能市场规模将达2697亿元；2020年这两个指标将分别达到700亿元、6800亿元。

智能家居、路线导航、物流配送……人类生活中的各种场景及行为正在被AI拆解为一个个需求模块，在重构了生产资料与劳动力之间的关系后，重新嵌入社会、经济的各个环节。

一些业内专家认为，当前AI的发展现状仅相当于“互联网在上世纪90年代初期的阶段”，主要方法论仍是基于大数据、大计算模式，需要海量数据去“喂养”。

也就是说，人工智能并不会像人类那样推断出结论，它要进行不断地试验和错误学习，这得需要大量的数据来教授和培训。人工智能应用的数据越多，获得的结果就越准确。毫无疑问，没有大数据就没有人工智能。

现在，越来越多的AI企业对数据的要求越来越严格，精准、海量的数据是AI企业的“必需品”。而成立于2014年的“龙猫数据”，正是致力于为整个AI领域提供最专业的数据服务。

“有的企业需要对人脸的识别更加精准，在海量数据中，辨别出哪几张照片显示的是同一个人，即使这几张照片显示的是这个人的不同角度。如果我们从网上找来一些图片，或者是一些原始的数据，根本达不到精准的训练目的，也不会满足AI公司提出的各种需求。而数据服务行业，就是有针对性的为AI研发企业提供他们想要的数据。”龙猫数据运营总监张翠玲说道。

APP解决数据收集难题

如何搜集到一手、海量的数据，龙猫数据的独到之处在于线上众包平台：移动端APP以及Web端标注平台。其中，“龙猫数据”APP于去年5月上线运行，用户量已突破600万人，日活在10万人以上，用户可以利用闲暇时间，根据要求进行文字、图像、语音、视频的采集并获得一定奖励和报酬。

龙猫数据Java发开工程师郝军生说：“比如这里有个采集沙滩照片的任务，先查看一下任务下面的说明，再根据说明拍摄、选择、上传。上传后提交审核，审核通过就可以得到一定的现金回报。我们对数据采集用户的限制和要求都比较高，比如声音采集中婴儿的哭声，老人说话的声音，或者某地的方言，基本上都要在10万数量级别的用户中，去寻找符合要求的人。”

并不是每条素材都是符合要求的，龙猫数据有自己的审核团队，通过审核后，至少每5名用户才可以产生一张有效图片，每1000人才可以产生一条合格的语音。

“用户在采集数据时，我们会给予一定的指导。在用户完成采集后，我们会有两道审核机制来把控数据的质量。第一，是全部审核，所有的数据都按规则审核一遍；第二，是一定比例的抽审。这些都由优秀的、能够把控产出质量的审核人员来做。我们还有内部审核机制，实时自审自查。通过多维度、多层次的审核，严格保证数据出厂的质量。”龙猫数据项目运营琚振超告诉我们。

为了激发大家参与数据采集的积极性，迅速找到和自己匹配度高的任务，“龙猫数据”APP还推出“工会”服务功能，对优质用户进行额外奖励。

“用户之间可以创建工会，经过多方评定，选择一个活跃用户做工会长，定期根据工会用户的个人情况选择合适任务，推荐给他们。工会的成员做任务会获得额外增加的报酬，其比例也会随着公会等级的增加而提高。”郝军生说道。

Web端标注平台让数据精准可用

数据采集只是第一步，还远远达不到人工智能训练的目的。龙猫数据推出的Web端标注平台，通过对图像、文本、语音、视频等数据进行采集、评估、归类，最终完成标注。标注过程中可实现对内容进行提取、分类、转写、语义分割、清洗、脱敏、校验等相关任务。

龙猫数据项目运营琚振超说：“对于人工智能数据训练而言，数据采集和标注是相互贯连的两块内容。标注也分为视频、音频、文本、图像几大类，我们还可以做像3D点云这类3D内容的标注，这些都需要有经验的人按照算法特定的需求做出精准标注，然后机器才能进行学习训练。”

以人脸照片素材为例，图上有密密麻麻的点，而每一个点都有其特征含义，如内眼角、外眼角等。工作人员需要把这些特征点在图中标记出来，才算是一份可以用的素材。

通常人脸识别需要的训练素材，少则 160 个点，多则数百个点，通过人工的手段想要正确且完整地标记一整张图是非常困难的。龙猫数据在众包平台的数据采集阶段采用了一种自研的人工智能预处理技术，即当用户上传原始素材至龙猫众包平台后，人工智能会直接在后端开始预处理，提前标记好任务所需要的特征点。当素材进入人工标记阶段时，操作人员只需要轻微地挪动一些不合理的点即可完成任务。

张翠玲告诉记者：“就人脸识别而言，因为算法不一样，有的人工智能公司要求打点是270多个，少一点的则需要200个，所以我们需要向这些公司提供符合他们需求的数据。我们之前做过大概的预计，未来AI行业一年应该有2000亿的规模，数据成本应该占到研发成本的5%到10%吗，市场潜力非常巨大。”

龙猫数据有着自己的打算，要把移动端APP、Web端标注平台做更好的优化，特别是根据自身业务流程调整，将Web端标注平台进行更高效的设计，以更迅捷地处理各种各样的数据，满足客户日益增长的数据需求。

“我们希望能够建立起数据共享生态系统，数据共享平台是我们已经走出的第一步。我们将归纳整理好的各种各样的数据集，分享给有需求的高校或者其他行业企业来用，以此助推人工智能领域的快速发展”琚振超说道。

内容来源：中国科技网

来源：中国科技网

原文链接：http://www.stdaily.com//index/fangtan/2018-09/29/content_717703.shtml

电话：（010）86409582

邮箱：kejie@scimall.org.cn