“船海数据智能应用创新大赛” 选手对话,让“海量数据”跑出“加速度”

陈曦 2022-07-19

星辰大海之上,始终有着人类探索未知领域的梦想;不断进步的技术,又为探索海洋插上了数字化的翅膀。

图片

为了促进现代信息技术和新一代人工智能技术与船舶技术融合发展,深海技术科学太湖实验室(以下简称太湖实验室)联合无锡市委人才工作领导小组办公室、无锡市科学技术局、华为技术有限公司共同主办了首届“船海数据智能应用创新大赛”。

在初赛第二赛道“非结构化数据压缩与处理”中,来自上海海事大学的王星月、中国科学技术大学的莫海歌、清华大学的肖今朝获得了前三名。

       赛题解读非结构化数据传输存储难题

图片

海洋科考、海洋环境探测、深海探索等科学实验都将产生大量的数据,其中超80%均属于非结构化数据(指数据结构不规则或不完整,没有预定义的数据模型,如文本、图片、视频、各类报表等);这些数据获取难度大、携带信息量高,通常需要长期保存,随着数据总量逐年翻倍,导致了存储成本的极大上升;如何根据海洋探测数据设计高效的数据压缩算法就成为亟待解决的难题。

       高分选手破题

       通过“预处理”再校验实现压缩

“这次的整体思路是首先对数据进行预处理,将规律的部分数据放在一起压缩,对于不规律的部分数据尝试用校验的角度去思考。最后采用数据压缩算法进行压缩。”在初赛中获得第一的王星月同学表示,赛事提供的数据中,大多数数据都能够找到一些规律,对于数据最后几列,起初找不到任何规律。在查询资料之后,发现这些不规则的数据与校验有关,则进一步探索,最后试验证实了最后几位确实是校验码。

获得初赛第二名的莫海歌同学的处理方法也比较类似:“因为数据压缩方面的算法已经非常成熟了,但是对于非结构性数据,处理的难点在于前期的分类,所以我的整体思路是把赛事数据分类编码,然后再用熟悉的通用算法进行压缩。”

肖今朝同学的团队同样采取了编码+压缩的思路,“我们尝试该高性能数据系统中的PLAIN,TS_2DIFF,RLE,SPRINTZ,GORILLA,RLBE,RAKE等编码算法与LZ4,SNAPPY,GZIP等压缩算法的不同组合在整数与浮点数数据集上的表现后,根据综合表现决定选择以RLE(with bit-packing)编码+GZIP压缩算法为基础进行改进与创新。最后通过对二值列和BCH码列等关键点的研究,将压缩效果大幅度提高。”

       怎样攻克“难关”?

       科研道路充满荆棘

科研的道路上永远不会一帆风顺,在提交解决方案的过程中,三组参赛选手都或多或少的遇到了一些难题;而通过专业资料检索、选手平台交流,以及赛事主办方专业指引,最终都迎刃而解。

       王星月

       上海海事大学

       “难题来自于数据本身,规律性的数据具有更大化压缩的潜力,但是一开始数据中有一些是没有规律的。”王星月同学在难题面前充分发挥了深耕探索的专业精神:“专业赛事就要求大家都有专业的态度,查了很多资料后终于发现,最后数据是对前面所有列的一个校验,最终实现了更大程度的数据压缩。”

       莫海歌

       中国科学技术大学

       以个人身份参赛的莫海歌同学,遇到难题在思考解决方案的同时,还选择了与选手交流群中志同道合的伙伴讨论,“这次比赛本身也为大家搭建了一个非常好的平台,在选手交流群里面认识了很多朋友,有问题我们会一起讨论,在未来其他赛事中也不排除合作参赛的可能。”

       肖今朝

       清华大学

       肖今朝同学则代表自己的团队对赛事主办方的专业指引给予了肯定:“赛题对于压缩解压后数据正确性要求严格,我们前期在读写方面走了很多弯路,多亏赛事方工作人员帮忙测试解决,才找到了验证正确性的方法,最终解决了程序压缩解压的读写问题。”

       比赛是“起点”更期待“远航”

       太湖实验室创新人才引进

“之前了解过太湖实验室有很多人才引进政策,华为也是很多同学向往的企业。”提及参赛初衷,王星月同学直言:“重视人才、获奖后有助于工作和落户的比赛会更受大家欢迎。”。

       该赛事权威性和专业性

“因为参加过华为软件精英挑战赛,所以会关注华为云官网的各种比赛信息。”莫海歌同学表示,自己的研究方向是通信信号处理,很多师兄师姐都在华为工作,“研究生阶段已经比较少参加学校自己组织的比赛了,会更多考虑赛事的权威性和专业性,为未来就业加分。”

      船海是大国重器 期待更多赛题

对于参赛选手而言,这次比赛仅仅是一个起点,未来“远航”的愿景更值得期待:“船海事业是大国重器,未来希望多参与一些类似的针对大型工业场景下产生的数据相关赛事,包括制造业数字化转型的相关比赛。”肖今朝同学表示,通过比赛,自己对数据压缩有了更广阔的认识,深入学习到很多数据压缩相关的技术,对目前的科研课题更加有兴趣的同时也更下定接下来“学以致用”的决心。

       营造创新生态  带动产业发展

“未来我们将致力于营造船海和数字化结合的创新生态环境、搭建鼓励更多科技人才参与交流的平台,并带动上下游产业链的协同发展。”本次赛事不仅吸引了众多科技人才的参与、带动相关产业发展,太湖实验室也希望以此为起点,营造创新生态环境、孵化更多智能应用项目,进一步促进我国船海探索软硬件的不断升级。

太湖实验室与华为在各自专业领域的“强强联手”,也将推动更多科技研究成果转化为船海中的实际应用,为走向深远海、建设海洋强国的国家战略需求进一步助力。

       来源:深海技术科学太湖实验室