大数据应用及其解决方案（三）：大数据解决方案学术资讯

　　3.1. 大数据技术组成

　　大数据技术由四种技术构成，它们包括：

　　3.1.1. 分析技术

　　分析技术意味着对海量数据进行分析以实时得出答案，由于大数据的特殊性，大数据分析技术还处于发展阶段，老技术会日趋完善，新技术会更多出现。大数据分析技术涵盖了以下的的五个方面

　　3.1.1.1. 可视化分析

　　数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。

　　3.1.1.2. 数据挖掘算法

　　图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

　　3.1.1.3. 预测分析能力

　　数据挖掘可以让分析师对数据承载信息更快更好地消化理解，进而提升判断的准确性，而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

　　3.1.1.4. 语义引擎

　　非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

　　3.1.1.5. 数据质量和数据管理

　　数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

　　我们知道大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识，而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先，以Google为首的技术型互联网公司提出了MapReduce的技术框架，利用廉价的PC服务器集群，大规模并发处理批量事务。

　　利用文件系统存放非结构化数据，加上完善的备份和容灾策略，这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群+商业数据库方案相比，不仅没有丢失性能，而且还赢在了可扩展性上。之前，我们在设计一个数据中心解决方案的前期，就要考虑到方案实施后的可扩展性。通常的方法是预估今后一段时期内的业务量和数据量，加入多余的计算单元（CPU）和存储，以备不时只需。

　　这样的方式直接导致了前期一次性投资的巨大，并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。而一旦需要扩容，问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构，也就是具有近似的计算和存储能力。而随着硬件的更新，我们通常加入的新硬件都会强于已有的硬件。这样，旧硬件就成为了系统的瓶颈。为了保证系统性能，我们不得不把旧硬件逐步替换掉，经济成本损失巨大。其次，即使是当前最强的商业并行数据库，其所能管理的数据节点也只是在几十或上百这个数量级，这主要是由于架构上的设计问题，所以其可扩展性必然有限。而MapReduce+GFS框架，不受上述问题的困扰。需要扩容了，只需增加个机柜，加入适当的计算单元和存储，集群系统会自动分配和调度这些资源，丝毫不影响现有系统的运行

　　3.1.2. 存储数据库

　　存储数据库（In-Memory Databases）让信息快速流通，大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说，它可以对某个全国性的连锁店某天的销售记录进行分析，得出某些特征进而根据某种规则及时为消费者提供奖励回馈。

　　但传统的关系型数据库严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来，NoSQL数据存储模型开始风行。NoSQL，也有人理解为Not Only SQL，并不是一种特定的数据存储模型，它是一类非关系型数据库的统称。其特点是：没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库，而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等

　　NoSQL数据库是一种建立在云平台的新型数据处理模式，NoSQL在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘，因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织，类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQL数据库则完全不关心这些，它能处理各种类型的文档。

　　在处理海量数据同时请求时，它也不会有任何问题。比方说，如果有1000万人同时登录某个Zynga游戏，它会将这些数据分布于全世界的服务器并通过它们来进行数据处理，结果与1万人同时在线没什么两样。现今有多种不同类型的NoSQL模式。商业化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;开源免费的模式如CouchDB和Cassandra;还有亚马逊最新推出的NoSQL云服务。

　　3.1.3. 分布式计算技术

　　分布式计算结合了NoSQL与实时分析技术，如果想要同时处理实时分析与NoSQL数据功能，那么你就需要分布式计算技术。分布式技术结合了一系列技术，可以对海量数据进行实时分析。更重要的是，它所使用的硬件非常便宜，因而让这种技术的普及变成可能。SGI的Sunny Sundstrom解释说，通过对那些看起来没什么关联和组织的数据进行分析，我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术，银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。

　　分布式计算技术让不可能变成可能，分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果，比如说某个城市有多少可用停车空间，或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术，要想快速便宜的分析这么大量卫星图片数据将是不可能的。如图五所示：

微信图片_20180830143701.png

　　图五

　　分布式计算技术是Google的核心，也是Yahoo的基础，目前分布式计算技术是基于Google创建的技术，但是却最新由Yahoo所建立。Google总共发表了两篇论文，2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理；另一篇于2003年发表，主要是关于如何在多服务器上存储数据。来自于Yahoo的工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台，以他儿子的玩具大象命名。如图六所示

微信图片_20180830143725.png

　　图六

　　而Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为

　　3.2. 大数据处理过程

　　3.2.1. 采集

　　大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

　　在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

　　3.2.2. 导入/预处理

　　虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

　　导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

　　3.2.3. 统计/分析

　　统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

　　统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

　　3.2.4. 挖掘

　　与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

　　整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理

　　3.3. 大数据处理的核心技术-Hadoop

　　大数据技术涵盖了硬软件多个方面的技术，目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。这一部分主要介绍和分析大数据处理的核心技术——Hadoop。

　　3.3.1. Hadoop的组成

　　大数据不同于传统类型的数据，它可能由TB甚至PB级信息组成，既包括结构化数据，也包括文本、多媒体等非结构化数据。这些数据类型缺乏一致性，使得标准存储技术无法对大数据进行有效存储，而且我们也难以使用传统的服务器和SAN方法来有效地存储和处理庞大的数据量。这些都决定了“大数据”需要不同的处理方法，而Hadoop目前正是广泛应用的大数据处理技术。Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。Hadoop主要组件包含如图七：

微信图片_20180830143756.png

　　图七

　　Hadoop Common：通用模块，

　　支持其他Hadoop模块

　　Ha d o o p Di s t r i b u t e d Fi l eSystem（HDFS）：分布式文件系统，用以提供高流量的应用数据访问

　　Hadoop YARN：支持工作调度和集群资源管理的框架

　　HadoopMapReduce：针对大数据的、灵活的并行数据处理框架

　　其他相关的模块还有：

　　ZooKeeper：高可靠性分布式协调系统

　　Oozie：负责MapReduce作业调度

　　HBase：可扩展的分布式数据库，可以将结构性数据存储为大表

　　Hive：构建在MapRudece之上的数据仓库软件包

　　Pig：架构在Hadoop之上的高级数据处理层

　　在Hadoop框架中，最底层的HDFS存储Hadoop集群中所有存储节点上的文件。HDFS的架构是基于一组特定的节点构建的（如图八），

微信图片_20180830143816.png

　　图八

　　这些节点包括一个NameNode和大量的DataNode。存储在HDFS中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的RAID架构大不相同。块的大小（通常为64MB）和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。NameNode在HDFS内部提供元数据服务，负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将文件映射到DataNode上的复制块上。DataNode通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。H a d o o p M a p R e d u c e 是Google MapReduce的开源实现。MapReduce技术是一种简洁的并行计算模型，它在系统层面解决了扩展性、容错性等问题，通过接受用户编写的Map函数和Reduce函数，自动地在可伸缩的大规模集群上并行执行，从而可以处理和分析大规模的数据[6]。Hadoop提供了大量的接口和抽象类，从而为Hadoop应用程序开发人员提供许多工具，可用于调试和性能度量等。在H a d o o p 应用实例中，一个代表客户机在单个主系统上启动Ma pRe d u c e的应用程序称为JobTracker。类似于NameNode，它是Ha d o o p 集群中唯一负责控制MapReduce应用程序的系统。在应用程序提交之后，将提供包含在HDFS中的输入和输出目录。JobTr a cke r使用文件块信息（物理量和位置）确定如何创建其他TaskTracker从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点，将为特定节点上的每个文件块创建一个唯一的从属任务。每个TaskTracker将状态和完成信息报告给JobTracker。如图显示一个示例集群中的工作分布，如图九：

微信图片_20180830143839.png

　　图九

　　3.3.2. Hadoop的优点：

　　Hadoop能够使用户轻松开发和运行处理大数据的应用程序。它主要有以下几个优点：

　　3.3.2.1. 高可靠性。

　　Hadoop按位存储和处理数据的能力值得人们信赖。

　　3.3.2.2. 高扩展性。

　　Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

　　3.3.2.3. 高效性。

　　Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

　　3.3.2.4. 高容错性。

　　Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，比如C++。

　　3.3.3. Hadoop的不足

　　Hadoop作为一个处理大数据的软件框架，虽然受到众多商业公司的青睐，但是其自身的技术特点也决定了它不能完全解决大数据问题。在当前Hadoop的设计中，所有的metadata操作都要通过集中式的NameNode来进行，NameNode有可能是性能的瓶颈。当前Hadoop单一NameNode、单一Jobtracker的设计严重制约了整个Hadoop可扩展性和可靠性。首先，NameNode和JobTracker是整个系统中明显的单点故障源。再次，单一NameNode的内存容量有限，使得Hadoop集群的节点数量被限制到2000个左右，能支持的文件系统大小被限制在10-50PB，最多能支持的文件数量大约为1.5亿左右。实际上，有用户抱怨其集群的NameNode重启需要数小时，这大大降低了系统的可用性。随着Hadoop被广泛使用，面对各式各样的需求，人们期望Hadoop能提供更多特性，比如完全可读写的文件系统、Snapshot、Mirror等等。这些都是当前版本的Hadoop不支持，但是用户又有强烈需求的。

　　3.3.4. 主要商业性“大数据”处理方案

　　“大数据”被科技企业看作是云计算之后的另一个巨大商机，包括IBM、谷歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。此外，很多初创企业也开始加入到大数据的淘金队伍中。Hadoop是非结构数据库的代表，低成本、高扩展性和灵活性等优势使其成为各种面向大数据处理分析的商业服务方案的首选。Oracle、IBM、Microsoft三大商业数据提供商是Hadoop的主要支持者。很多知名企业都以Hadoop技术为基础提供自己的商业性大数据解决方案。这一部分主要介绍以Hadoop为基础的典型商业性大数据解决方案。

　　3.3.2.5. IBM InfoSphere大数据分析平台

　　I B M于2 0 1 1 年5 月推出的InfoSphere大数据分析平台是一款定位为企业级的大数据分析产品。该产品包括BigInsight s和Streams，二者互补，Biglnsights基于Hadoop，对大规模的静态数据进行分析，它提供多节点的分布式计算，可以随时增加节点，提升数据处理能力。St reams采用内存计算方式分析实时数据。它们将包括HadoopMapReduce在内的开源技术紧密地与IBM系统集成起来。研究Hadoop这样开源技术的人很多，但是IBM这次是真正将其变成了企业级的应用，针对不同的人员增加不同的价值。InfoSphereBigInsight s 1.3的存储和运算框架采用了开源的Ha d o o pMa pRe d u c e，同时针对Ha d o o p 框架进行了改造，采用了IBM特有的通用并行文件系统——GPFS。利用GPFS的目的是为了避免单点故障，保证可用性。BigInsights中还有两个分析产品——Cognos和SPSS，这两个分析产品在传统功能上加强了文本分析的功能，提供了一系列文本分析工具，并使用高级语言进行自定义规则，如文本格式转换等。目前BigInsights提供两种版本，一种是企业版（Enterprise Edition），用于企业级的大数据分析解决方案。另一种是基础版（Basic Edition），去掉了企业版中的大部分功能，用户可以免费下载，主要提供给开发人员和合作伙伴试用。St r e ams 最大的特点就是内存分析，利用多节点PC服务器的内存来处理大批量的数据分析请求。St reams的特点就是“小快灵”，数据是实时流动的，其分析反应速度可以控制在毫秒级别，而BigInsights的分析是批处理，反应速度无法同St reams相比。总体来说，二者的设计架构不同，也用于处理不同的大数据分析需求，并可以形成良好的互补。InfoSphere平台仅仅是IBM大数据解决方案中的一部分。IBM大数据平台包括4大部分：信息整合与治理组件、基于开源Apache Hadoop的框架而实现的Bi g I n s i g h t s 平台、加速器，以及包含可视化与发现、应用程序开发、系统管理的上层应用。通过IBM的解决方案可以看出，解决大数据问题不能仅仅依靠Hadoop。

　　3.3.2.6. Or a c l e Bi g Da t aApplianc

　　Oracle Big Data Appliance准确地说是一款硬件产品，添加了Hadoop装载器、应用适配器以及Or acle新的NoSQL数据库，主要目的是为了将非结构化数据加载到关系型数据库中去，并对软硬件的集成做了一些优化。Oracle BigData机包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHa d o o p 装载器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虚拟机。它能够快速、便捷地与Oracle数据库11g、Oracle Exadata数据库云服务器和Oracle Exalytics商务智能云服务器集成。分析师和统计人员可以运行现有的R应用，并利用R客户端直接处理存储在Oracle数据库11g中的数据，从而极大地提高可扩展性、性能和安全性。

　　3.3.2.7. Mi c r o s o f t S QLServer

　　微软已经发布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社区技术预览版本的连接器。该连接器是双向的，用户可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。微软的SQL Server 2012将并入Hadoop分布式计算平台，微软还将把Hadoop引入Windows Server和Azure（微软的云服务）。

　　3.3.2.8. Sybase IQ

　　Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库，添加了Hadoop的集成，并提供了MapReduce的API。相比于传统的“行式存储”的关系型数据库，Sybase IQ使用了独特的列式存储方式，在进行分析查询时，仅需读取查询所需的列，其垂直分区策略不仅能够支持大量的用户、大规模数据，还可以提交对商业信息的高速访问，其速度可达到传统的关系型数据库的百倍甚至千倍。

　　3.3.5. 其他“大数据”解决方案

　　“大数据”解决方案并非只有Hadoop一种，许多知名企业还提供了其他的解决方案。

　　3.3.2.9. EMC

　　EMC 提供了两种大数据存储方案，即Isilon和Atmos。Isilon能够提供无限的横向扩展能力，Atmos是一款云存储基础架构，在内容服务方面，Atmos是很好的解决方案。在数据分析方面，EMC提供的解决方案、提供的产品是Greenplum，Greenplum有两个产品，第一是GreenplumDatabase，GreenplumDatabase是大规模的并行成立的数据库，它可以管理、存储、分析PB量级的一些结构性数据，它下载的速度非常高，最高可以达到每小时10 T B，速度非常惊人。这是EMC可以提供给企业、政府，用来分析海量的数据。但是Gr e e n p l umDa t a b a s e面对的是结构化数据。很多数据超过9 0 % 是非结构化数据，E M C 有另外一个产品是GreenplumHD，GreenplumHD可以把非结构化的数据或者是半结构化的数据转换成结构化数据，然后让GreenplumDatabase去处理。

　　3.3.2.10. BigQuery

　　BigQu e r y是Go og l e 推出的一项We b服务，用来在云端处理大数据。该服务让开发者可以使用Go o g l e 的架构来运行SQL语句对超级大的数据库进行操作。BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析，从而不必投资建立自己的数据中心。Google曾表示BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据，并且可马上得到分析结果。大数据在云端模型具备很多优势，BigQuery服务无需组织提供或建立数据仓库。而BigQuery在安全性和数据备份服务方面也相当完善。免费帐号可以让用户每月访问高达100GB的数据，用户也可以付费使用额外查询和存储空间。

　　3.3.6. 大数据”与科技文献信息处理

　　“大数据”目前主要指医学、天文、地理、Web日志、多媒体信息等数据，鲜有提及文献信息。事实上，现在的科技文献信息日益凸显出“大数据”的特征，主要表现在以下几个方面：更新周期缩短；数量庞大；文献的类型多样；文献载体数字化；文献语种多样化；文献内容交叉；文献信息密度大。科技文献中所含的信息类型多样，既有结构性数据，也有非结构性文本和公式，如何利用“大数据”技术对文献内容进行分析，挖掘用户访问日志、评价反馈等数据的价值，为用户提供服务成为科技信息服务业急需思考和解决的问题。在科技文献信息处理中，文本分析技术、语义计算技术、数据安全需要与“大数据”解决方案结合起来考虑实施，这样才能更有效地提供知识服务。

　　3.4. 大数据处理技术发展前景

　　随着大数据时代的来临，应用越来越广，其发展前景是很光明的。

　　3.4.1. 大数据复杂度降低

　　大数据技术的落地将会有两个特点：一个是对MapReduce依赖越来越少，另外一个是会把Hadoop技术深入的应用到企业的软件架构中。对于第一个特点，像Cloudera的Impala和微软的PolyBase这样的软件会得到充分发展，他们绕开了MapReduce，直接对存在HDFS中的数据进行处理。对于第二个特点，大规模的使用Hadoop是个必然趋势，渐渐的就会形成行业的标准，进而成为更有价值的软件基础，而不仅是自己内部使用。

　　3.4.2. 大数据细分市场

　　大数据相关技术的发展，将会创造出一些新的细分市场。例如，以数据分析和处理为主的高级数据服务，将出现以数据分析作为服务产品提交的分析即服务（Analyze as a Service）业务；将多种信息整合管理，创造对大数据统一的访问和分析的组件产品；基于社交网络的社交大数据分析；甚至会出现大数据技能的培训市场，教授数据分析课程等。

　　3.4.3. 大数据开源

　　开源软件为大数据市场带来更多机会。与人们的传统理解不同，大数据市场开源软件的盛行不会抑制市场的商业机会，相反开源软件将会给基础架构硬件、应用程序开发工具、应用、服务等各个方面的相关领域带来更多的机会。

　　3.4.4. Hadoop将加速发展

　　做为大数据领域的代表技术，许多企业都把明年的计划聚焦在Hadoop之上。据预测，用户对Hadoop的优化将更注重硬件，同时，对企业友好的Hadoop技术市场将达到前所未有的高峰。从整体上说，不仅是Hadoop本身本会得到迅猛的发展，同时Hadoop在多个数据中心中的配置和无缝集成技术也将成为热门。Hadoop的专业知识正在飞速增长，但是这方面优秀的人才仍然很缺乏。基于SQL的Hadoop工具将会得到持续发展”。

　　3.4.5. 打包的大数据行业分析应用

　　随着大数据逐渐走向各个行业，基于行业的大数据分析应用需求也日益增长。未来几年中针对特定行业和业务流程的分析应用将会以预打包的形式出现，这将为大数据技术供应商打开新的市场。这些分析应用内容还会覆盖很多行业的专业知识，也会吸引大量行业软件开发公司的投入。

　　3.4.6. 大数据分析的革命性方法出现

　　在大数据分析上，将出现革命性的新方法。就像计算机和互联网一样，大数据可能是新一波技术革命。从前的很多算法和基础理论可能会产生理论级别的突破。

　　3.4.7. 大数据与云计算：深度融合

　　大数据处理离不开云计算技术，云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式，大数据则为云计算提供了新的商业价值，大数据技术与云计算技术必有更完美的结合。同样的，云计算、物联网、移动互联网等新兴计算形态，既是产生大数据的地方，也是需要大数据分析方法的领域。

　　3.4.8. 大数据一体机陆续发布

　　自云计算和大数据概念被提出后，针对该市场推出的软硬件一体化设备就层出不穷。在未来几年里，数据仓库一体机、NoSQL 一体机以及其它一些将多种技术结合的一体化设备将进一步快速发展。