EMNLP2023 | 计算语言揭秘认知扭曲：SCIR推出C2D2中文数据集

2023-11-03 14:11

论文：C2D2 Dataset: A Resource for Analyzing Cognitive Distortions and Its Impact on Mental Health
作者：王毕陈，赵妍妍，秦兵
链接：https://github.com/bcwangavailable/C2D2-Cognitive-Distortion
出处：哈工大SCIR
->辅导界的小米带你冲刺ACL2024

1. 背景

在过去，研究者主要关注情绪健康，深度研究情绪如何对我们的日常生活和整体幸福感产生深远影响。然而，随着时间的流逝，我们开始认识到，就如同一棵树在倒塌之前，其内部可能已被蛀虫严重损害，尽管这并不从外部明显可见。为了真正实现心理健康，我们必须更多地关注内在的思维模式，而不仅是表面的情绪。

认知心理学向我们展示，认知扭曲往往是众多心理健康问题的根源，它使人们对世界有了一种不真实的认知。心理学家已经识别出许多常见的思维偏差，即“认知扭曲”，它们可能在我们描述自身或周围环境时出现。这些扭曲不仅仅是逻辑上的失误，而是在我们感知外部世界时的无意识偏见。更重要的是，这些认知扭曲往往与人类普遍价值观发生冲突。例如，如果一个人持有“我必须被所有人喜欢”这样的认知扭曲，这与人类普遍的价值观念，即“每个人都有被尊重和理解的权利”，是相悖的。通过研究和纠正这些认知扭曲，我们不仅可以促进心理健康，还可以更加深入地理解和珍视人类价值观。

图1:认知扭曲对个人的影响。认知扭曲在这个强化循环中不断强化，导致抑郁、创伤后应激障碍和焦虑等精神障碍的发展。

2.认知扭曲类别

心理学家已经确定了个人思想中经常表现出的各种类别的认知扭曲。我们采取贝克最初提出的7种认知扭曲理论，每种认知扭曲的定义和例子如下：

可以看出认知扭曲本身虽然往往和负面情绪相关，但其更多是强调不合理的负面情绪，这些负面情绪的形成和加强都和认知扭曲相关。认知扭曲更是不合理的负面情绪的放大器和加重者。尽管以往的研究更多关注负面情绪，但我们的C2D2数据集旨在关注和研究这些认知扭曲。

3. C2D2数据集

C2D2是第一个面向公众开放的中文认知扭曲数据集，我们的数据注释任务涵盖了七种典型的认知扭曲，志愿者根据给定的情景撰写可能的认知扭曲思维。每个场景会提供给志愿者，他们需要根据场景描述产生符合指定认知扭曲类型的思维。不同类型的认知扭曲并不严格独立出现，但为了简化注释过程，我们将其视为单标签任务。志愿者的目标是生成代表一种认知扭曲的实例。在多个认知扭曲同时出现的情况下，我们要求志愿者选择占主导地位的认知扭曲。

图2: 数据集构建过程，由专家与志愿者联合培训完成。包括志愿者招募，数据标注，专家评审等过程。

通过我们严苛的数据标注过程，我们在专家验证后，保留了7500条包含了认知扭曲思维的文本，围绕着300个不同的负面事件与情景。数据集统计结果如下所示。

4.实际应用

C2D2数据集不仅为研究者提供了宝贵的资源，还为心理健康领域的专家提供了实际的应用方法。例如，心理医生可以使用我们的模型来分析病人的日记或社交媒体帖子，以便更好地了解他们的思维模式和可能的认知扭曲。

此外，C2D2也是一个宝贵的学术研究工具。与心理学传统的小样本分析相比，现在我们可以通过基于C2D2构建的模型直接从大量用户生成的文本中进行用户认知扭曲计算分析，得到更具普遍性和可靠性的结论。

图3：抑郁症患者与正常用户社交媒体发言中的认知扭曲对比，抑郁症患者的社交媒体发言反应了更多认知扭曲。

5. 仓库链接

C2D2中文认知扭曲数据集详情请见论文《C2D2 Dataset: A Resource for Analyzing Cognitive Distortions and Its Impact on Mental Health》，该论文已被EMNLP-2023收录为Findings 论文。
C2D2中文认知扭曲数据集下载请见https://github.com/bcwangavailable/C2D2-Cognitive-Distortion。
数据集研发人员：
王毕陈 ([email protected])，邓鹏飞
指导教师：赵妍妍，秦兵

6. 总结

认知扭曲在我们的日常生活中无处不在，它们可能对我们的心理健康和生活质量产生深远的影响。通过C2D2数据集，我们为研究者和心理健康专家提供了一个强大的工具，帮助他们更好地理解和应对这些扭曲。我们希望这个数据集能够促进心理学与计算科学结合发展，为更多的人带来帮助。

本期责任编辑：赵妍妍

本期编辑：杨昕

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章