NLP大牛挑战社交媒体难题:如何在“信息污染”的世界中生存?

毫不夸张的说,生活在信息时代的我们,已经无法想象没有互联 的生活。各式各样的信息充斥在 络上,每秒都有无数新信息冒出,我们需要做的只是简单的动动手指,利用搜索引擎搜索关键词。这些信息,无论是真实的还是虚假的,有用的还是无用的,我们每个人都难以避免与它们接触。

在 2019 EmTech China“全球新兴科技峰会”上,宾夕法尼亚大学的计算机和信息科学系教授 Dan Roth 在演讲的最开始就呼吁,“互联 上的信息污染问题与我们每个人息息相关,每个人都有权利关心。”

Roth 教授列举几条实际发生的事情,比如 2016 年的美国大选,Facebook 和推特上就曾涌现了很多假账号和假资讯,有些信息已经达到了以假乱真的程度,一度误导了很多美国 民,最后官方帐号不得不站出来辟谣,社交媒体平台也出台了相关措施。

事实上,在世界范围内都存在谣言大肆传播的情况。欧美 民常用的 Facebook,WhatsApp 和推特,中国 民常用的微博和微信,都是虚假信息滋生的地方。互联 和社交媒体的本质是传播信息,由于假信息通常以爆料和颠覆常识为噱头,更容易抓人眼球,因此它们的传播速度很快,尤其容易涉及医疗、教育、科学和公共政策等领域。

“所以我们需要开发一个计算框架,帮助人们在这样的信息污染世界中生存,”Roth 教授强调。人工智能和自然语言处理技术(AI & NLP)就可以成为这样的工具,帮助人们找到、收集和整理真实可靠的信息,分辨资讯的真伪。

自然语言处理技术可以分析语句,理解它们背后的深层次含义。Roth 教授表示,借助机器学习的力量,可以更好地从原始文本中提取信息,分析语句和语段之间的关联,让计算机像人类一样理解语言背后蕴藏的意义。

这听起来简单,实现起来却十分困难。因为人类自然而然地就可以理解语言的模糊性,结合语境、上下文和文化背景,就可以分析出语句的深层含义,但对于计算机来说,它习惯于明确的指示,并不具备理解语言模糊性的能力,需要研究人员付出很大的努力去实现和完善。

Roth 教授最新的研究就着重于整合和完善自然语言处理过程,主要从了解信息源和理解证据入手。

首先,自然语言处理系统必须知道如何找到可靠信息源,即去哪里证实手里有的信息?在找到信息源之后,系统还需要知道如何看待信息源的背后目的和含义,即它持有什么样的视角(perspective)?

Roth 教授解释说,一千个人眼中就有一千个哈姆雷特,每个人看待故事的角度不同,因此系统在收集信息时,也需要具备辨别视角的能力,注意审视不同的条件和情况,不能以偏概全,防止被一些带有偏见和误导性的信息左右。

这就要求系统去寻找证据(evidence),来分类和支持不同的信息,证明哪些信息更可靠,更有价值,更有意义。这样系统就可以更好地理解语言究竟要表达什么意思,背后有什么意图。

在 Roth 及其团队的研究中,他们进行了一项实验—识别有关《一周偶像》信息。实验中使用的原文提到了节目主持人是 1983 年出生的,但系统找到了多种可靠证据证明,他们是 1978 年出生的。这说明原文出现了事实性错误,于是系统将其标识为“虚假信息”。

Roth 解释说,“整个语言识别系统就像是 络一样,对于不同的资讯或主张信息(claim),会找到很多不同的信息源(source),为了验证这些信息源,系统会收集不同的证据(evidence)。”

这种逻辑模式模拟了人类的批判性思维,即利用证据分析信息源的可靠程度,理解它们背后的内容和意义。只有这样才能从根本上杜绝错误信息的大规模传播,帮助人们获得可信的信息,并且真正理解它们,实现价值的最大化。

“我相信,在每个人都开始关注这件事情后,整个人类社会都将会收获巨大。”

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2019年1月13日
下一篇 2019年1月13日

相关推荐