FJoin: 一种基于FPGA 的流连接并行加速器

科技工作者之家 2021-09-01

20210901152113_94bb62.jpg

林力韬, 陈汉华, 金海. FJoin: 一种基于FPGA 的流连接并行加速器. 中国科学: 信息科学, 2021, DOI: 10.1360/SSI-2021-0214     

流连接广泛应用于提取多源流数据之间的关键信息, 是大数据处理的重要支撑技术. 但连接两条大数据流时大规模的连接谓词计算, 使其易成为性能瓶颈. 为提高处理性能, 流连接系统常采用并行和分布式两种方式扩展. 然而, 采用多核并行的流连接系统的扩展性受到CPU 核数限制, 无法应对大规模数据流. 采用分布式扩展的流连接系统由于引入分布式框架运行的开销, 导致硬件处理 效率严重下降. 为实现高效大规模扩展, 本文提出一种利用FPGA 加速器外设向上扩展的流连接系统FJoin. 加速器可进行高并行的流动连接, 载入多个流元组后, 连接窗口中的数据流经一次即可完 成所有连接计算. 对于逻辑容易在FPGA 实现的连接谓词, 通过大量基本连接单元串联构成深度连接流水线, 实现大规模并行. 通过主机CPU和FPGA 设备协同进行连接控制, 将连续的流连接计 算划分为独立的小批量任务, 高效地保证并行化流连接的完整性. 在装备FPGA 加速卡的平台实现 了FJoin, 基于大规模真实数据集的测试结果表明, 对比部署在40个节点集群上的目前最好的分布式流连接系统, 本文提出的流连接加速器FJoin 可在单一FPGA加速卡上将连接计算速度提升16倍, 达到5倍的系统吞吐, 且时延满足实时流处理要求.

20210901152114_a16d2f.jpg

来源:中国科学信息科学

原文链接:http://mp.weixin.qq.com/s?__biz=MzAxNjgwMjA5Ng==&mid=2651152116&idx=1&sn=cd2d5b63c3f9040eae256cbd7d2d574b

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

FPGA 加速器 FJoin 大规模真实数据测试