在第一个实验中

Latest collection of data for analysis and insights.
Post Reply
Bappy11
Posts: 351
Joined: Sun Dec 22, 2024 6:03 am

在第一个实验中

Post by Bappy11 »

[ 13 ]相反,单词组合如 »honor« 和 »poder« (荣誉,权力;0.58)、»amores« 和 »agravios« (爱,不忠,复数形式;0.69)、»gracia« 和 »corte« (恩典,法庭;0.63) 或 »gracia« 和 »culpa« (恩典,内疚;0.60) 显示出较低的余弦相似度值。0.5 以下的余弦相似度值仅显示上下文中发展较弱的共性;这可以从以下词组看出:»amar« 和 »honra«(爱,名誉)、»muere« 和 »sepulcro«(他/她/它死去,坟墓)、»muerte« 和 »engaño«(死亡,欺骗)、»mueran« 和 »suerte«(他们可能会死去,命运)、»amores« 和 »honra«(爱,名誉)以及 »mentira« 和 »gracia«(谎言,恩典)。首先,很明显,卡尔德隆作品中的中心主题(“Amor, honor y poder” [26] - 爱、荣誉和权力)不一定必须相互关联。这可以归因于这样一个事实:喜剧和悲剧可以通过这些术语的不同组合来区分。可以预料的是,»honor« 和 »poder« 的组合更适合悲剧,而 »amar« 和 »honra« 的组合更适合喜剧,但并非适合所有作品。我们稍后会回到这一点。

3.2 实验1我们利用已知(或:已标记)的悲剧和喜剧来评估我们的文档聚类,如下所述,本着聚类纯度[27]分析的精神:我们将每个聚类分配给大多数已知从属关系的文档所属的类 。然后,我们考虑此聚类中已知的其他文档类,并计算纯度,即这些类与多数类之间的一致程度,作为衡量聚类成功与否的标准。我们的设置还有一个额外的方面,即我们的数据集包含“真实”类别未知的文档。由于纯度仅考虑已知类别的文档,因此对于主要或全部由此类文档组成的聚类,该度量很难解释。对于 阿曼电报数据 此类聚类(我们称之为未确定的),我们避免详细讨论纯度。在完成上述预处理步骤后,我们探索了以下四种方法:1)通过删除文本中出现频率和出现的单词来减少矩阵,根据相对频率计算距离矩阵,使用基于欧氏距离的 Ward.D2 算法[28]进行聚类。2)通过删除只在少数文档中出现的稀疏词来减少矩阵,根据相对频率计算距离矩阵,使用基于欧氏距离的 Ward.D2 距离算法进行聚类。3)对每部戏剧进行词性标注,提取动词、名词和形容词,计算文档之间的余弦相似度值,计算距离矩阵,使用 Ward.D2 距离算法进行聚类。4)计算 tf-idf 统计数据,计算文档之间的余弦相似度值,计算距离矩阵,使用 Ward.D2 距离算法进行聚类。我们讨论了每种方法的结果。

[ 15 ]第一种方法代表了一种保守的方法:只包括频率 > 120 且出现在至少一半文档中的 1,094 个词。文档词矩阵仅填充了频率;没有进行降维。通过使用 Ward.D2 距离算法进行聚类来进行分组。图 1显示了生成的树状图。回想一下,在构成树状图叶节点的文档中,一些被称为喜剧 (CXX),一些被称为悲剧 (TXX),但大多数文档的状态未知 (»Test«)。
Post Reply