别以及基于情感和情绪的计算文本特征化

Latest collection of data for analysis and insights.
Post Reply
Bappy11
Posts: 351
Joined: Sun Dec 22, 2024 6:03 am

别以及基于情感和情绪的计算文本特征化

Post by Bappy11 »

本文探讨了计算文学研究中的情感和情绪分析。遵循刘的观点[1] ,我们将情绪定义为观点背后的积极或 消极感受。有时,情绪分析被解释为观点挖掘的同义词,但严格来说,观点挖掘是一种利用情绪分析并将极性评级置于主题、方面和目标情境中的应用。虽然情绪分析主要是面向文本的,但也存在多模态方法。[2]

[ 2 ]情绪分析一词的另一种解释 是,它是研究领域的更广泛描述,它考虑将情感计算应用于文本分析。从这个意义上讲,它还包括区分主观或客观陈述,[3]以及最近的情绪分析领域。定义情绪的概念是一项具有挑战性的任务。正如谢勒所说,“定义情绪是一个众所周知的问题”。[4] 事实上,处理情绪的不同方法论和概念方法导致了不同的定义。然而,大多数情绪理论家都认为情绪涉及一组表达、行为、生理和现象学特征。[5]从这个角度来看,情绪可以定义为“一种综合的感觉状态,包括生理变化、运动准备、对行动的认知以及从对自我或情况的评估中产生的内在体验”。[6]

[ 3 ]与情绪类似,情绪也可以通过计算进行分析。然而,情绪分析的目标是识别情绪,而不是情绪,这使得它成为一项更困难的任务,因为某些情绪类别之间的差异比积极情绪和消极情绪之间的差异更微妙。

[ 4 ]尽管情绪和情感分析是不同的任务,但我们对文献的回顾表明, 菲律宾电报数据 这两个术语的使用并不总是一致的。有些情况下,研究人员只分析文本的积极和消极方面,但将他们的分析称为情绪分析。同样,有些情况下,研究人员研究包括情绪在内的一组主观感受,但称之为情绪分析。因此,为了避免混淆,在本次调查中,我们交替使用情绪分析和情绪分析这两个术语。在大多数情况下,我们遵循我们讨论的论文作者使用的术语(即,如果他们将情绪称为情绪,我们也这样做)。但是,我们这次调查的重点是情绪分析,我们不包括大多数关注二元极性的工作。

[ 5 ]最后,我们讨论计算文学研究背景下的情感分析。Da 将计算文学研究定义为在文本挖掘中发现的模式的统计表示,该模式与现有的文学、文学史和文本创作知识相吻合。[7]计算​​文学研究与远距离阅读[8]和数字文学研究[9] 的概念密切相关,它们都指在计算机上运行文本分析以产生定量结果的实践。在本次调查中,我们交替使用所有这些术语,当我们将数字人文学科称为一个领域时,我们指的是那些以文本为主要研究对象的研究人员群体。

1.1 本次调查的范围
[ 6 ]本调查概述了旨在理解或分析文学中情感的工作。我们纳入了使用计算方法回答文学研究领域具体研究问题的研究。我们只考虑经过同行评审质量评估的英文出版物(少数例外除外)。如果这些语料库没有用于进一步的研究以限制本调查的范围(尽管此类工作显然是相关且重要的),我们将排除语料库创建和注释工作,如果相关论文不旨在回答研究问题,我们将排除软件开发工作。同样,如果正在进行的研究工作报告没有对研究问题做出新的理解,我们也会排除它们。我们的文献研究始于ACL 选集的计算语言学领域,并得到了引用此类论文或被其引用的其他研究的补充。我们排除了来自当地数字人文会议的论文。

[ 7 ]本调查的目的是概述应用于文本的情绪和情感分析的最新方法。本调查针对的是那些希望了解文本(主要是文学文本)情绪和情感分析领域现有研究的研究人员。我们不涵盖数字人文领域中不以文本为重点的情绪分析应用。我们也不会深入概述数字人文研究领域之外的计算环境中情绪分析的所有可能应用。

1.2 情感分析与数字人文
[ 8 ]应用情感分析的方法通常可以分为(第 1 节)基于词典的方法、(第 2 章)基于特征的机器学习的方法和(第 3 节)基于表示学习/深度学习的方法。应用统计学习(第 2.3 节)来建立以文本为输入、输出预测的模型的方法在大多数情况下(在该领域)依赖于监督方法——学习算法使用带注释的数据,并需要输出一个模型,该模型可以尽可能好地对看不见的数据进行此类预测。这些方法有优势:学习者可以利用文本单元之间的(长距离)依赖关系,学习语义含义和要学习的概念之间的关联,并利用单词之间的语义相似性;即使是那些在训练数据中没有见过的单词。这是有代价的——需要注释数据。计算语言学和数字人文学科领域在这方面的情况有很大不同。

[ 9 ]计算语言学的重点是开发解决特定任务的方法——分析语法、表示语义或开发性能良好的分类方法,例如用于情感分类。因此,存在大量与语料库无关的自然语言处理研究。事实上,一种方法通常会在一组不同的资源上进行评估,以证明其通用性,即使为未来的研究提供了一个新的语料库,也会将其与现有资源进行比较。这有一个好处:资源通常由领域专家构建,然后用于进一步分析;多样性可能有限,但通常足以用于模型开发。

[ 10 ]在数字人文学科中,这种情况大不相同。目标通常不是开发能够对整个领域做出预测的计算模型(这在计算语言学中当然也没有实现,但有时这被称为目标)。相反,研究对象(特定文本、体裁、作者等)更为重要。这带来了挑战:注释者通常需要成为特定领域的专家,针对特定的研究对象。
Post Reply