来源:科技导报
作者:孙家广
孙家广院士
大数据与人工智能生态圈顶层分类
提及大数据,就无法避免提及Apache Hadoop。多年来,Hadoop已经发展到包含整个相关软件生态系统,许多商业大数据解决方案都基于Hadoop,基于Hadoop的产品和服务市场持续增长;
其次,大数据处理引擎的研发,Apache Spark是Hadoop生态的重要组成部分,已经在生产环境中广泛部署,也吸引了大量的项目开发者;
此外,处理和统计数据的编程语言和软件环境,例如开源项目R语言得到数据科学家的广泛应用,许多流行的集成开发环境(IDE),包括Eclipse和Visual Studio,都支持R语言,R已经成为世界上最流行的用于大数据项目的高级语言之一。
例如数据湖(data lake)。许多企业正在建立数据湖(存储来自许多不同的数据源的数据并按原态存储),当企业想要存储数据但尚不确定如何使用数据时,数据湖尤其具有吸引力。物联网(IoT)数据的爆发正在影响数据湖应用的增长。
为适应非结构化数据的存储与高性能需求,以及相对不那么严苛的数据一致性的要求,Mon⁃goDB、Redis、Cassandra、Couchbase 等 NoSQL 数据库流行。随着大数据趋势的增长,NoSQL数据库变得越来越流行。
预测分析是大数据分析的子集,是根据历史数据预测未来事件或行为。通过数据挖掘、建模和机器学习技术,获取对未来趋势的洞察。
在大数据时代,机遇与挑战并存。大数据技术研究者在迎接数据与智能技术带来无限可能的同时,也不得不面对其所蕴藏的风险。随着公民个人和企业组织所有的行为均被数字化,海量数据的实时处理与分析技术更加成熟,大数据在带来奇迹的同时也引入滥用和误用的风险。大数据安全保护技术与数据权责管理成为大数据领域最重要的主题,任何组织都无法回避谁拥有影响未来的数据权的问题。
互联网的早期阶段,数据隐私更多是要保护用户在线行为的隐私,这只占人民日常生活的一小部分,因此得到的关注是非常有限的。随着个人生活和工作的全部活动都通过网络和互联设备来完成,海量数据融合的能力、人脸识别的能力、结果预测的能力、异常分析的能力整合在一起将带来严重的数据隐私风险。
欢迎关注
科普辽宁