2.3 研究目标
[ 9 ]由于西班牙语世界以外缺乏足够多的戏剧作品,使用单词或文档嵌入对流派进行分类仍然相对较新。[22]因此,我们研究的目标是探索各种方法及其组合,并比较结果。我们将比较四种方法,它们都遵循相同的一般未观察到的方案:1)词汇的预过滤;2)计算文档嵌入,如果适用,则进行降维;3)嵌入聚类;4)可视化和评估。我们的语料库为我们提供了极好的基础,因为大约四分之一的戏剧的类别是已知的,但其余戏剧的类别却未知。通过这种方式,我们可以同时审查过程的质量(基于已知类别)并获得尚未分类的戏剧的发现。我们发现这种类型的方法比较很重要,因为众所周知,未观察到的分布方法的发现在很大程度上取决于过程的参数化。[23]
2.4 实际应用
[ 10 ]所有分析均采用统计软件 R 完成。文本的预处理主要使用 R 包 quanteda,因为它还可以排除西班牙语停用词、标点符号和数字,以及转换准备好的文本语料库以便在其他包中处理。正如在探索过程中发现的那样,quanteda 包中仅保留了少量(即 308 个)西班牙语停用词。一项探索表明,从矩阵中排除功能词不会导致明显不同的结果,因此手动大大扩展了停 阿曼电报数据 用词列表。[24]此外,对所采用的不同方法的分析,特别是 tf-idf 统计数据,表明分组结果受到文本中人物、地点和国家名称的负面影响,包括它们的形容词形式,因为这些语音元素往往反映单个作品的特性,而不是刻板的流派特征。这些专有名词同样——主要是通过剧中人物列表—— 被汇编并从文本中删除;因此,除了 quanteda 包中包含的 308 个停用词之外,要从语料库中排除的术语数量也增加到了 800 多个。通常,先计算每部戏剧中单词的频率,然后再对每个文档的频率进行归一化。这一过程在生成用于分组的距离和相似度矩阵时进行。当使用余弦相似度计算文档之间的相似度时,可以省略这一点,因为它们相对于向量长度保持不变。在整个分析过程中,我们始终对单词的屈折形式或变位形式进行处理;没有对这些词进行词形还原或词干提取。这样,可能有助于对文学体裁进行分类(以及关于风格、作者信号或历时位置性)的语言信息就得以保留。
3.结果
3.1 实验 0
[ 11 ]在第一次探索中,我们将一种成熟的方法 Skip-gram [25]应用于文本主体,以评估词向量是否可以告诉我们一些关于文本的有趣信息,以及 112 部戏剧主体中哪些词对表现出最多的相似性。我们将矩阵缩减为具有最高对数似然性的 1,000 个词,并计算所有向量对之间的余弦相似度。余弦相似度,或更准确地说,两个向量之间角度的余弦,是一种广泛使用的相似度度量,它决定了两个向量在高维空间中“指向”同一方向的程度。余弦值介于 0 和 1 之间,高余弦值表示两个词出现在相似的上下文中。
[ 12 ]余弦相似度值非常高(超过 0.75)的词组包括 »cielo« 和 »muerte«(天堂、死亡)、»esperanza« 和 »desdichas«(希望、绝望)、»poder« 和 »temor«(力量、恐惧)、»poder« 和 »gusto«(力量、品味)、»honor« 和 »alma«(荣誉、灵魂)或 »alma« 和 »muerte«(灵魂、死亡)。余弦相似度值最高的词组之一为 0.96,表明 »honor« 和 »muerte«(荣誉和死亡)可以确定为贯穿整部作品的主要主题。事实上,这些初步结果非常清晰,通过使用 Skip-gram 算法,可以识别出卡尔德隆喜剧中的中心 主题,即使它们涉及社会习俗(荣誉)和个性(品味、灵魂、恐惧、社会或实际死亡)的交集。