大数据与小数据的差异与界分学术资讯

对小数据和大数据之间界分的讨论是最近10年才出现的。在2008年之前，人们很少考虑数据是“小”还是“大”，当时所有的数据都被称为“小数据”。由于成本、资源等因素，以及产生、处理、分析和存储数据的困难，有限数量的高质量数据是通过使用抽样框架精心设计的研究产生的，以确保其代表性。在过去10年左右的时间里，小数据发展成为大数据的条件得到了补充。大数据具有与小数据非常不同的本体论特征。

在过去的几个世纪，学术知识的构建普遍是通过小数据的研究来实现的。也就是说，它是以严格控制的方式产生的数据为基础的研究，采用采样技术，限制它们的范围、时间、大小和种类，并试图捕捉和定义它们的误差、偏差、不确定性及来源水平。因此，小数据的特点是它们的容量一般有限、不连续地收集、种类很少，并且通常是为了回答特定的问题而生成的。相比之下，以信息通信技术（information and communication technologies，ICTs）为主要形式的大数据，其特征是体积大、连续生产、性质多样，尽管它们通常是系统的副产品，而不是用来研究特定现象或过程的。2009年在《科学》上发表的一篇论文使得“计算社会科学”得到提倡。从那时起，通过大数据分析，社会科学取得了显著的进步，大数据为研究人类行为提供了前所未有的机会。大数据的快速增长和影响让一些人开始思考大数据是否会导致小数据的消亡，或者小数据的研究地位是否会因为其规模、时间和相对成本的限制而降低。正如索耶（Sawyer）所指出的，资助机构越来越多地将有限的资金和资源投入数据丰富的领域和大数据分析中，而忽略了小数据，这一趋势仍在继续。本文通过考虑小数据在大数据新时代的价值，以及在新的数据存储和共享基础设施的背景下，如何重新思考小数据在社会科学研究中的应用价值，主要研究了如何越来越多地将小数据汇集、链接和扩展到大数据基础设施中，使它们更像大数据。也就是说，虽然小数据本身并不具有大数据固有的本体论特征，但它可以与大数据结合，并可以使用大数据分析手段进行分析。当然，讨论大数据是为了帮助理解小数据发生的变化。

小数据和大数据的本体论差异

正如基钦（Kitchin）所详细阐述的那样，大数据体积庞大、速度快、类型多样，包罗万象，分辨率精细，具有关系属性和灵活性，具有可扩展性和可伸缩性。“大”这个词有点误导人，因为大数据的特征远不止数量。实际上，一些“小”数据集也可能非常大，比如国家人口普查，也力求详尽，具有很强的分辨率和相关性。然而，普查数据集往往缺乏时效性（通常每10年进行一次）、多样性（通常是涉及30多个结构化的问题），以及灵活性（一旦进行了人口普查并开始进行管理，就几乎不可能对问题进行调整或添加新问题或删除其他问题，而且通常情况下，字段固定且通常是跨序列人口普查，以便进行时间序列分析）。其他小型数据集也由有大数据特征的有限组合组成。例如，定性数据集（如访谈记录）通常规模相对较小（可能有几十个受访者），具有非连续的时间性（一次性访谈或几个月的序列），具有较弱的相关性，虽然它们具有很强的分辨率和灵活性，但它们在多样性（文本记录）方面却是有限的。

相比之下，大数据具有所有这些特征几乎都依赖于它们的形式，主要的特性是速度快和彻底性。大数据快速增长是由于其同时发展了若干关键技术、基础设施、技术和过程，以及它们在日常业务和社会实践及空间中迅速嵌入，比如，固定互联网和移动互联网，就是将计算嵌入各种联网的对象：机器和系统；数据库设计的进展，社交媒体的新形式、在线交互和交易，以及新型的数据分析设计都依赖于日常生活中产生的丰富而非稀缺的数据。实际上，日常生活的实践及我们生活的地方现在都被密集的数据和产生数据的基础设施，以及技术集合所加强、监测和管制。例如，交通和建筑管理系统、监测和警务系统、政府数据库、客户管理和物流链、财务和支付系统、定位和社交媒体。在这些社会技术系统中，许多数据都是通过算法控制的摄像机、传感器、扫描仪、智能手机等数字设备自动生成的，或者是网络交互的副产品（如在线交易记录），或通过社交媒体或众包活动由用户自愿提供。

总的来说，这些系统产生的大量详尽的、动态变化的、索引性的、相互关联的、低成本的由每个数据点汇聚成的数据集是灵活的、可扩展的。2011年，脸书（Facebook）的活跃用户每月花在该网站上的时间超过了93亿小时，到2012年，脸书每月处理25亿条内容、500兆兆字节的数据、27亿“喜欢”的动作，每天上传3亿张照片，都伴随着相关的元数据。这些数据与传统的小数据不同，它们是由一系列快速连续的、带有索引性和关系性的、可伸缩的数据组成的。小数据集在很大程度上是数据沙漠中的数据绿洲，而大数据产生了真正的数据洪流，似乎能够使研究从“数据稀缺到数据丰富；从静态快照到动态展开；从粗糙聚合到高分辨率；从相对简单的假设和模型到更加复杂的模拟和理论”。

然而，大数据的承诺可能会威胁到小数据的地位，因为大数据往往对学术和商业具有更大的价值与效用。这种框架误解了大数据的本质和小数据的价值。大数据可能力求详尽，但与所有数据一样，它们既是一种表征，又是一种样本。其所捕获的数据是由视图/采样帧的字段、使用的技术和平台、生成数据的情境、使用的数据本体，以及隐私、数据保护和安全方面的监管环境所决定的。所有的数据都提供了对世界的看法：从某些角度看，数据都使用特定的工具，而不是全面的、无懈可击的“上帝的视角”。因此，大数据构成了“一系列局部有序、局部化的总体，它们能够从某些方向而不是从所有方向观察”。大数据无疑力求更加详尽，提供动态的、细粒度的洞察力，但它们的承诺永远无法完全兑现。大数据通常捕获容易捕获的——公开表示的数据、人的行动和行为、事物的运动，以及主要任务/输出的副产品（“废气”）的——数据。通过大数据处理问题通常意味着重新利用数据，而这些数据并非旨在揭示对某一特定现象的洞见，同时还伴随着其他类似的问题，例如往往会创建生态谬误。

小数据和大数据的挖掘方法差异

相比之下，小数据的数量和速度可能有限，但它们在科学、国家机构、非政府组织和企业中具有悠久的发展历史，具有既定的研究方法和分析模式，并有产生有意义答案的记录。小数据可以更精确地量身定做，以回答特定的研究问题，并深入探究人们互动以及理解世界的各种不同的、情境相关的、理性的和非理性的方式与过程。小数据可以聚焦于特定的案例，讲述个人的、微妙的和情境相关的故事。因此，小数据试图从狭窄的缝隙中开采“黄金”，而大数据则试图通过露天开采、挖掘和筛选大片土地来开采“黄金”。

有限挖掘和开放挖掘的这两种方法对数据质量、保真度和来源都有影响。由于小数据的样本容量有限，所以保障数据质量的干净、客观和一致，实现数据的真实性——数据的真实性及数据准确和忠实所代表的程度，以及建立数据出处和适合使用的来源文档等是非常重要的。应限制抽样和方法偏差，以及确保数据在分析或共享之前尽可能地严格和准确。相反，有些人认为大数据研究不需要相同的数据质量标准、准确性和数据来源，因为数据集的详尽特性消除了抽样偏差，而不仅仅是补偿了数据中的任何错误、空白或不一致、保真度的不足。这种观点的论据是“采样误差越小，人们就越能接受测量误差和容错”。迈尔-舍恩伯格（Mayer-Schöenberger）和库克耶（Cukier）就认为，“更多的东西胜过更好的东西”。当然，这假定大数据的所有使用都将容忍不可避免的结果，而实际上许多大数据应用都需要精度，或者至少需要具有可测量误差参数的数据。

小数据和大数据的效用差异

我们应该看到，大数据研究本身也存在一系列的局限性。随着数据挖掘和人工智能的发展，预测技术已经相对成熟，甚至走向了广泛的应用。在过去的几年中，基于大数据的案例比比皆是，但其结果却喜忧参半。这些失败的大数据项目背后是对大数据寄予了过高的期望，反而忽视了对明确问题倾向的小数据的重视。而且，尽管大数据到处存在，但真正对个人有价值、对决策有意义的数据往往并不容易得到，而我们所知的大多数数据都是“垃圾”多于“价值”，这些数据往往是“有数据，无信息”。大数据为人们提供了许多人与人之间交互的数据和信息，但真正的大数据并不是排名和信息的发布，而是从数据中理性地找出内在的逻辑关系，并将这些逻辑关系应用于实践。如果不找到事物发展的规律的话，人们的决策往往会与期望相距甚远。迈尔-舍恩伯格就曾认为：由大数据带来对人的重新认识，不是在阿波罗神庙，而是在小世界网络中去认识你自己。从根本上来说，成就大数据的恰恰是无数努力造就小数据的人。大数据天生有一些弱点，具体如下。

首先，大数据本身具有“骄傲性”。所谓的“骄傲的大数据”，即人们认为大数据什么都能做，而小数据没有用。事实上，大数据的采集远远不如小数据那样“干净”。同时，所有大数据的应用都离不开算法，对大数据应用来说，“唯一不变的就是永恒变化的算法”。在运用大数据开展社会科学研究时，我们发现人的行为本身也会随着大数据技术的发展而变化。因此，仅仅基于大数据之间的相关关系，而忽视内在的逻辑关联，对预测来讲是远远不够的。为此，就需要用大数据去捕获规律，用小数据去匹配场景，从而实现精准预测和智能决策。徐英瑾教授就曾认为：“大数据信息处理机制存在两大弊端：经济成本太高；伦理与政治成本不可承受。正确的解决思路就是放弃对于‘大数据’的迷恋，转而思考如何建立能够在‘小数据’环境下从事临机处理的自动信息处理机制。”并且他还特别主张大数据和人工智能决策中应该遵循“有限理性”和“节俭性理性”原则。朱松纯也提出了“小数据、大任务”范式。

其次，大数据集产生脏的、有缺陷的、有偏差的数据或低保真度的数据，因此将产生削弱有效性的分析和结论。从生产方法来看，大数据会受到所有这些问题的影响。数据可能由于仪器错误或由于抽样人口而造成偏差，或者数据可能通过虚假账户或黑客手段被欺骗或伪造。至于是否忠诚、社交媒体上的帖子在多大程度上真正代表了人们的观点，以及人们应该如何对待他们的信仰也存在疑问，正如曼诺维奇（Manovich）所警告的：“人们的帖子、推文、上传的照片、评论和其他类型的在线参与都不是它们自己的透明窗口；相反，它们往往是被精心策划和系统管理的。”

最后，现实生活中人们对小数据和大数据都有访问权限的问题。由学术机构、公共机构、非政府组织制作的小数据，在收费或许可下可以获得。除了卫星图像、国家安全和治安等少数外，类似公共机构的数据和学术数据倾向于越来越开放。而大数据主要由私营部门提供，访问通常被限制在付费墙和专有许可的后面，以确保竞争优势和通过销售或许可来利用收入。的确，只有少数的实体分享了海量数据，而移动互联网运营商、应用程序开发人员、社交媒体提供商、金融机构、零售连锁店、监测和安全公司等没有义务通过他们的操作来自由分享其收集的数据。在某些情况下，可以通过应用程序编程接口向研究人员或公众提供有限的数据。例如，推特用户允许少数公司访问它的“消防水带”（数据流），用于商业目的的付费使用，但是研究人员被限制在“花园软管”（10%的公众推文）、“鸡尾酒”（1%的公众推文）或不同的内容子集（“白名单”账户）中，所有情况下都不包括私人和受保护的推特。人们担忧的是，私人拥有和商业销售的大数据所能提供的洞见，将仅限于商业领域，或者可能只向一群享有特权的学术研究人员开放，他们的发现无法被复制或验证。

鉴于大数据的这些局限性和小数据的优势，小数据将继续成为研究领域的重要组成部分。然而，这样的数据将越来越多地承受压力。利用新的归档技术和数字数据比例增大的基础设施，结合其他小型和大型数据，更多的价值和洞察力可以从中提取并通过大数据分析得以应用。