财新传媒 财新传媒

阅读:0
听报道
概述
 
语言有亲密度吗?如何量化并测量语言亲密度?性别、社交距离和匿名性又是如何影响人际交流的?密歇根大学的研究者希望使用自然语言处理和数据科学技术来回答这些问题。相关工作“Quantifying Intimacy in Language”已发表于自然语言处理旗舰会议EMNLP 2020。本文为科普性质,技术细节及已开源的数据、模型请见文末项目主页。
插画 @橘且
 
让陌生人相爱的36个问题
 
1997年,美国心理学家阿瑟·亚伦(Arthur Aron)等人发表了一项研究,他们发现彼此询问一些特别亲密的问题,可以快速增强两个陌生人之间的亲密度。
这一研究在被纽约时报报道后,也在中文互联网上被广泛转载,并被宣传为快速让心上人爱上你的良方。
 
然而当人们在现实生活中面对心上人的时候,却会对这些问题大失所望,因为就像知乎上最高赞的评论所言,这些在实验室中效果良好的问题,在真实的生活中却很难找到合适的场景或契机。
 
这些问题究竟有什么奥秘?他们同其他稀松平常的诸如“吃了没”这样的寒暄有什么区别?又究竟有哪些因素最终影响着人们在日常生活中的语言表达呢,本文将通过作者在EMNLP 2020上的一项最新研究,试图从语言亲密度和社会约束的角度来回答这些问题。
 
我们的研究
 
就像是人和人之间的关系一样,我们在人际交流中所使用的语言也具有亲密度 (intimacy) 的属性。语言亲密度受到了广泛的社会和个体因素的约束,而违反这样的约束则往往会造成尴尬,或者带来更严重的后果。中国有一句古话叫做“交浅而言深者,愚也”, 意思是说与交情浅的人深谈,是人际交往之中的大忌,这反映了社会文化中关系远近对于语言亲密度的约束。
 
在这一研究中,作者提出了一套量化语言亲密度的数据标注方法和一个用于测量语言亲密度的NLP模型,并使用八千万 Reddit, Twitter, 书籍和电影对话数据研究了性别、社交距离和匿名性对于人际交流中语言亲密度的影响。
语言亲密度 ( Intimacy in language )
 
亲密度这一概念来源于社会心理学,主要被用来描述人和人之间关系 (e.g. 朋友) 或者互动 (e.g. 亲吻) 的亲密程度。在这里作者将这一概念沿用到了语言中,用来描述人际交流中所使用语言的亲密程度,比如 “我今天心情真的好差” 比 “吃了吗” 一般来说具有更高的语言亲密度,因为它涉及到了更个体化的情绪表达;而 “你最糟糕的童年回忆是什么” 则比 “你觉得新的苹果手机怎么样” 要更加亲密,因为它过于私密和个人化。
 
那么我们是否能够量化语言亲密度呢,答案是肯定的。作者主要使用Best-Worst-Scaling这一方法来标注人们在对话中所使用问题的亲密度,并最终得到了2397条标注有亲密度 (分值在-1到1之间) 的文本数据,具体细节请见论文。
测量语言亲密度
 
使用NLP模型测量语言亲密度是一个回归任务,简单来说就是对输入的文本,本文的模型可以自动地得出一个介于-1和1之间的亲密度分值。作者在标注好的亲密度数据上微调 (fine-tune)了 RoBERTa模型,最终在基于Reddit上的测试集上得到了0.87的相关系数 (Pearson's),说明我们可以使用微调过的语言模型来准确地测量语言中的亲密度。使用这一模型,作者测量了来自Reddit, Twitter, 书籍和电影的八千万条对话数据的亲密度。
主题分析
 
有哪些话题更亲密呢?如下图所示,涉及到家庭、亲密关系等个人化的内容往往会比生活常识性的话题更加亲密,但同时值得注意的是,一个话题的亲密度往往有很大的跨度,这也说明了仅仅使用主题是无法准确地测量语言的亲密度的。
性别 (Gender)
 
作者对来自Reddit, Twitter, 书籍和电影中的对话数据进行了分析,如下图所示,我们发现:在Twitter和Reddit这两个非常有代表性的社交媒体上,男性同男性之间的语言亲密度均低于其他性别之间的对话。这说明虽然社交媒体往往可以赋予人们更大的交流自由,关于男性气质(masculinity)的规训仍然普遍存在于线上的人际互动中。对于书籍和电影来说,其对话并不来源于真实的个体,而存在于作家的想象,本文的分析进一步证明了广泛存在的对于性别和语言亲密度的社会期待,即男性需要保持一种不露声色的威严形象,而谈论情感性和个人性的话题则往往被认为是不够man的。
 
(考虑到社会心理学中已有的关于gender norm的研究,我们这里仅讨论了二元性别,针对非二元性别的情况我们会在以后的研究中进行讨论)
那么是否这样的规训仅仅存在于男性之中呢?答案是否定的。作者进一步分析了作家性别同书籍中人物对话亲密度之间的关系,如下图所示,尽管女性作家同男性作家相比倾向于使用具有更高亲密度的语言,其作品中男性同男性之间的对话始终具有最低的语言亲密度,这说明对于男性气质的社会规训也同样被女性所接受。
社交距离 (Social distance)
 
语言亲密度天然受到社交距离的影响,因为社会心理学中的亲密度本身就是社交距离的一个反映,而一般来说,更接近的社交距离往往伴随着更加亲密的交流方式和内容。然而,就像电影爱在黎明破晓前(Before Sunrise)所呈现的那样,两个在火车上的陌生人却可能向彼此分享最为私密的一些信息,心理学家把这种现象叫做火车上的陌生人 (Strangers-on-a-train)。
 
那么这两种截然不同的社会期待是否会存在于线上社交中呢?为了回答这一问题,我们使用了 Twitter 数据计算了用户在社交网络上的距离,并分析了其互动的语言亲密度,结果正如我们所预料的那样,最亲密的互动发生在关系最近和关系最远的用户对之间。当两个用户之间的距离从0变为1时,也就是从直接好友变成存在一个共同好友的时候,他们往往仍然处于同一个社交圈子中,因而其语言亲密度随着社交距离的增加而显著下降,而对于社交距离大于3 (他们通过三个或更多好友相连)的用户来说,随着他们之间的关系越来越陌生,他们受到了越来越少的社交关系对于语言的限制,这使得他们可以不受限制地讨论更加私密的内容。我们的研究在线上环境中同时验证了两个经典的关于社交距离如何影响人际交流的假说。
匿名性 (Anonymity)
 
前面两个实验讨论了性别和社交距离对于人际交流的规训,那么是否存在一种场景可以使得人们暂时摆脱这样的规训呢?答案是肯定的。在Reddit上,人们可以使用带有throwaway或者anonymous的用户名来给自己建立一个匿名的身份。而正如下图所示,使用匿名身份的用户会比其他类别的用户提出更加私密的问题。我们同样分析了那些不带有任何个人身份信息的账号 (Depersonalized), 结果表明尽管这些账号具有同样的匿名性,用户并不会使用他们来提出更加亲密的问题,这再一次表明,对于人际交流的社会约束仍然存在于Reddit这样一个相对匿名的社区,而想要去除这些约束的最好办法是使用一个匿名的身份。
失效的陌生人36问
 
回到最开始的问题,为什么在实验室中效果良好的问题,在现实中却不适用呢?因为人们的语言亲密度受到社会关系的约束,而想要询问这些超出关系亲密度的问题则需要特定的场合或者契机。人们可以坦然的在实验室,或者在特定的场合中使用这样的问题,是因为这些特定的环境暂时去除了社会关系对于人们的语言亲密度的约束。
 
结论
 
总而言之,同关系一样,人际交流中所使用的语言同样具有亲密度这一属性,并受到诸多社会因素的影响。我们的研究首次提出了语言亲密度 (Intimacy in Language) 这一概念,并验证了使用NLP模型来测量语言亲密度的可行性,继而分析了性别、社交距离和匿名性对于人际交流的影响。作为自然语言处理(NLP)和社会心理学的结合,我们的模型不但可以支撑社会科学的研究,同时还可以支持对话机器人等NLP任务,并且已经被应用于密歇根大学今年Amazon Alexa Prize的参赛模型Audrey中。
 
文献
 
Pei, Jiaxin and David Jurgens. “Quantifying Intimacy in Language.” In Proceedings of EMNLP 2020.
 
 
1. 受篇幅限制,本文省略了许多技术细节,详情请见论文: https://www.aclweb.org/anthology/2020.emnlp-main.428.pdf
 
2. 数据,模型及Python软件包均已公开,请见项目网站: https://blablablab.si.umich.edu/projects/intimacy/
 
3. 感谢本文编辑及插画小张
 
4: 欢迎社科或者nlp的研究者合作,有意向请公众号留言或联系pedropei@umich.edu
话题:



0

推荐

严肃的人口学八卦

严肃的人口学八卦

345篇文章 2小时前更新

以人口学的视角看世界,传播有趣的人口学。

文章