《Learning Reporting Dynamics during Breaking News for Rumour Detection in Social Media》笔记

Rumour Detection And PHEME Dataset

Introduction

  • 近年来,利用社交媒体来关注新闻已经变得很普遍。像Twitter这样的知名平台越来越多地被人们用来了解最新的新闻发展,以及被新闻记者用来收集新闻。然而,如恐怖袭击或暴乱的突发新闻在社交媒体上的传播速度不可避免地造成许多在新闻报道的早期阶段发布的信息是未经核实的。
  • 谣言检测系统用于警告用户文章的未验证状态,告知用户这篇文章以后可能被证明是假的。这可以有助于限制传播虚假信息的传播,从而减少对个人、社区和社会的危害。
  • 科学文献中关于谣言检测的研究很少,(Zhao et al., 2015) 是其中一篇解决该问题的著作。他们引入了一种寻找询问推文的方法,即寻找那些质疑原帖子可信性的推文,以确定原帖子是否是谣言。如果一条推文与手动管理的正则表达式中的一个匹配,那么它就被认为是一个询问推文。这种方法存在局限性:它依赖于人工定期修改正则表达式列表,因为这些正则表达式可能不适用于新的数据集;它假设询问推文出现,但并不是所有的谣言都一定会引发查询,这可能导致低召回率;它没有考虑到相关环境,我们可以利用环境来了解该信息是如何产生的。
  • 论文定义谣言检测任务的目标为识别尚未被验证的信息片段,并从非谣言中区分它们。主要贡献有:
    • 描述了一种用于收集和注释Twitter数据集的新方法,该数据集包含各种各样的谣言和非谣言。我们的方法是一种自底向上的方法,通过与突发新闻报道相关的推特时间轴来注释谣言。
    • 基于CRF来学习突发新闻的动态信息,这使我们能够利用上下文学习背景知识以分类谣言信息,这一过程仅根据推文的内容来判断是否是谣言。
    • 研究了CRF作为序列分类器在五个突发新闻的推特数据集上的检测谣言性能,将CRF的性能与其他分类器比较。实验表明,CRF有实质性的改善。

Definition of Rumour

  • 谣言的定义:circulating story of questionable veracity, which is apparently credible but hard to verify, and produces sufficient skepticism and/or anxiety so as to motivate finding out the actual truth.

Dataset

  • 论文通过模拟用户跟踪与突发新闻相关的报告的场景来收集数据,其中包括谣言和非谣言。我们的数据收集方法从Twitter流API中收集可能会引发谣言发起与传播的新闻事件相关的tweet,一旦记者告知有新闻价值的事件发生,就跟踪与该事件相关的主要标签和关键字来收集数据,随后记者通过查看关于突发新闻tweet的时间轴,将每条tweet进行注释,标志谣言或非谣言。标注采用的系统如下

  • 数据集的五个事件:

    • Ferguson unrest: citizens of Ferguson in Michigan, USA, protested after the fatal shooting of an 18-year-old African American, Michael Brown, by a white police officer on August 9, 2014.
    • Ottawa shooting: shootings occurred on Ottawas Parliament Hill in Canada, resulting in the death of a Canadian soldier on October 22, 2014.
    • Sydney siege: a gunman held hostage ten customers and eight employees of a Lindt chocolate caf located at Martin Place in Sydney, Australia, on December 15, 2014.
    • Charlie Hebdo shooting: two brothers forced their way into the offices of the French satirical weekly newspaper Charlie Hebdo in Paris, killing 11 people and wounding 11 more, on January 7, 2015.
    • Germanwings plane crash: a passenger plane from Barcelona to Dsseldorf crashed in the French Alps on March 24, 2015, killing all passengers and crew. The plane was ultimately found to have been deliberately crashed by the co-pilot of the plane.
  • 考虑到数据集的大小,通过挑选引发大量转发的推文进行采样,转发阈值根据结果数据集的大小选择。对于样本子集中的每一条推文,同样收集所有回复它们的推文,对话收集脚本可在https://github.com/azubiaga/phemetwitter-conversation-collection上获得。使用回复推文有两个目的:在人工注释工作,回复推文可以为判断谣言与否提供帮助;而我们需要采用(Zhao et al., 2015) 询问推文的方法来作为实验的baseline。

  • 各数据集的具体谣言与非谣言数目如Table 1。

    谣言数目随时间轴的变化(分为10段)如下图,

    可以看到并没有明显的规律性。

Rumour Detection Task

  • 该任务以推文的演进时间线$T_L=\{t_1,t_2,\dots,t_{|TL|}\}$作为输入,分类器通过分配标签$Y=\{R,NR\}$来确定这些tweet是谣言还是非谣言,因此任务变成二分类问题。