愚人节恶作剧帮助辨别“假新闻” 学术资讯

图片1.png

近日，英国兰开斯特大学自然语言处理方面的学术专家比较了书面愚人节恶作剧和假新闻中使用的语言，发现幽默的愚人节恶作剧（媒体每年4月1日发布的恶搞文章）和恶意的假新闻在写作结构上存在相似之处，研究愚人节恶作剧新闻可以为发现“假新闻”提供线索。相关论文将于4月份在拉罗谢尔举行的第20届国际计算语言学和智能文本处理会议上发表。

研究人员收集了来自370多个网站的500多篇愚人节文章，并对这些文章进行了长达14年的研究。

“四月愚人节恶作剧非常有用，因为它们为我们提供了一个可核查的欺骗性信息，给我们一个机会来了解当作者将一个虚构故事伪装成真实报道时所使用的语言技巧，”通讯作者、兰开斯特大学的Edward Dearden说。“通过观察愚人节当天人们使用的语言，并将其与假新闻进行比较，我们就能更好地了解那些制造假消息的人使用的语言。”

研究人员将愚人节恶作剧文本与同一时期（但未于4月1日发表）的真实新闻文章进行比较，发现了文体上的差异。他们主要关注文本的具体特征，如使用细节的数量、模糊性、写作风格的正式性和语言的复杂性。然后，将愚人节的新闻故事与之前另一组研究人员编制的“假新闻”数据集进行比较。

结果发现，尽管并非愚人节恶作剧的所有特征都对检测假新闻有用，但这两种恶作剧中有许多类似的特征：愚人节恶作剧和假新闻往往比真实新闻包含更少的复杂语言、更容易阅读和并倾向使用较长的句子。

在愚人节恶作剧和假新闻中，诸如姓名、地点、日期和时间等重要新闻信息的使用频率较低。然而，假新闻中出现的专有名词，如著名政治家“特朗普”或“希拉里”的名字，要比真正的新闻文章或愚人节玩笑中出现的次数多。第一人称代词，如“我们”，也是愚人节和假新闻的一个显著特征。这与传统的测谎思维相悖，传统思维认为说谎者较少使用第一人称代词。

研究人员发现，与真实的新闻相比，愚人节恶作剧的新闻故事：通常长度较短，倾向于使用更独特的词汇和长句，更容易阅读，一般指将来模糊的事件，并且包含对现在的更多引用，而对过去的事情不太感兴趣。使用的专有名词较少，第一人称代词较多。

而假新闻与真实新闻相比：长度较短，倾向于使用简单的语言，更容易阅读，标点符号使用较少，包含更多的专有名词，通常不太正式——使用更多的名，而非姓，包含更多的脏话和拼写错误。很少使用日期，第一人称代词也较多。

研究人员还创建了一个机器学习“分类器”来识别一篇文章是愚人节恶作剧、假新闻还是真实的新闻故事。该分类器识别愚人节文章的准确率达到75%，识别假新闻的准确率达到72%。当分类器接受愚人节恶作剧的训练后再去识别假新闻时，准确率超过了65%。

该论文的合著者Alistair Baron博士说：“在判断一篇文章是否为骗局时，研究文本中的细节和复杂性至关重要。尽管有很多不同之处，但我们的研究结果表明，愚人节恶作剧和假新闻有一些相似之处，主要包括结构的复杂性。

“我们的研究结果表明，不同形式的虚假信息之间存在某些共同特征，探索这些相似之处可能为未来研究欺骗性新闻故事提供重要的洞见。”

科界原创

编译：花花

审稿：三水

责编：张梦

原文链接：https://www.sciencedaily.com/releases/2019/03/190329130206.htm