由于这是一个基于极小的训练数据

Access ready-to-use Telemarketing Data to expand outreach, generate quality leads, and maximize your marketing ROI.
Post Reply
Bappy11
Posts: 348
Joined: Sun Dec 22, 2024 6:02 am

由于这是一个基于极小的训练数据

Post by Bappy11 »

3.2 超越文本表面的切分:多词表达
[ 14 ]在分析工作流程中,分割可以采取不同的形式和作用。除了作为语料库预处理的一部分之外,分词还在词汇多词表达(MWA)的识别和提取启发式方法中发挥着重要作用。在本节中,我们将以语料库中词汇多词表达的识别和提取为例,这里使用搭配,展示该过程基于哪些切分,以及这些切分如何影响提取结果。此类 MWA 的挑战在于它们没有固定的、可识别的表面形状,即它们不遵循固定的模式,而是由连续的、不间断的单词序列组成,例如: B. 表语形容词和名词的搭配(如金发)也是不连续的MWA,如。 B.名词短语中表语动词与名词的搭配(如:committing a crime – someone commits horrible crimes)。

[ 15 ]分割决策基于尽可能描述的特征,以识别语言表面上需要分割的单元。通常,相应的决策标准记录在分割和注释指南中,并且在自动化程序的情况下,在相应的分割算法中实现。这需要在分割的准确性和可靠性、对要检查的语言单位的最详尽的识别以及实施或应用要求之间取得平衡。这意味着在某些情况下,并非所有从语言学角度感兴趣的单元都能以手动或自动应用的分割指令的形式以所需的可靠性实现。这里有许多因素至关重要,需要系统地解决。第一级涉及以分割指南的形式对特征进行明确的描述。在下一个级别,这些必须要么由人工分割者尽可能地手动理解,从而在分割过程中遵循,要么以规则的形式在自动化过程中实现。对于手动应用分词技术,基本前提是对需要分词的语言单元的属性有深刻的理解,即了解它们在数据中的离散标识。作为基本组成部分,该过程包括对可在数据表面识别离散分割单元的特征的描述。这种对切分单元及其语言表面特征的建模对于切分的算法实现是基础。识别表面上的分割特征的相对简单性是该方法的最大优点和缺点,因为它是可靠地建模分割决策的最佳方法,该决策可以根据表面结构特征尽可能明确地做出,例如B.使用正则表达式。使用这些方法可以轻松建模的分割包括基于空格和标点符号的单词边界以及符合规则的句子。

[ 16 ]以这种方式执行切分的语料库,例如词级标记和句子标记,构成了通过自动词性标注等方法进行语言分类的基础。词性标注与单词和句子级别的标记化紧密相关,并且依赖于标记化的质量,因此这两个过程通常在一个工作流程中链接在一起。例如,常见的词性标注器(如 斯坦福对数线性词性标注器[23]和TreeTagger [24])在工作流中实现了自己的标记化过程,该过程先于词性标注。因此,标记化涉及预处理步骤,这些步骤是自动注释过程(例如词性标记)的先决条件和基础。目前大部分的词性标注器都自带了分词实现,因为词性标注的建模需要特定的分词,而好的分词对词性标注的质量也有着决定性的影响。

[ 17 ]然而,作为语言分析基础的句段在分析过程中也是以其他方式构成的,即当所要研究的语言现象基于标记元素时,但也在语言组织的进一步层次上以结构形式构成。例如,搭配和其他由两个或多个连续或不连续的词汇单位组成的复杂词汇组。以下示例说明了这一点:

多词表达 例子
支持动词结构,例如B.演讲,洗澡 总理在 ... 之际发表了此次演讲。总理在 ... 之际发表的
演讲。
可分离动词,例如B.相遇,绑定到 检查中,医生发现了新的症状。
搭配,例如B、犯罪 该团伙多年来犯罪行为严重。这个
犯罪团伙已连续犯下多年罪行。
表 2:词汇多词表达的示例。

[ 18 ]词汇多词表达在短语学上是语言库中相对固定的组合。其中一些是谚语,相对不变(“一鸟在手胜过屋顶上的鸽子”),但大多数——就像这里讨论的例子——在语言系统框架内更加灵活。它们经常结合在一起出现,JR Firth 用名言»通过单词的同伴可以了解一个单词« [25]来描述这种结合。这种结合在过去的几十年里引发了许多研究方法,特别是自从语言学中引入数字数据和方法以来,目的是从语料库中提取相关的、可重复的词汇多词表达结果集。这通常是在统计程序的基础上完成的,例如关联测量,其中最常用的是对数似然比、t分数、Dice系数和相互信息分数(MI)。 [26]词汇多词表达除了具有词汇层面上两个或两个以上成分相对既定的共现性之外,在常规语法框架内,还表现出一定的结构排列灵活性,即可以根据上下文的变化而变化,按照语法规则进行改变和重新排列(见表2的搭配示例)。此外,搭配往往在一定程度上具有语义透明性,即搭配的含义可以完全或部分地从其成分的个体含义中推导出来。

[ 19 ]下面,以 Firthian 意义上的搭配提取[27]为例,即词汇单位的习惯性共现(即作为词组合的重复共现),以及扩展到包括句法关系的定义,我们将讨论标记化和句子分割意义上的切分对使用统计关联度量从语料库中提取搭配的影响,以及相对于搜索空间的参数变化(这也代表了一种切分形式)如何影响识别搭配的结果集。这个例子表明,在前计算时代使用数字方法和统计关联测量已经形成的定义的操作化是基于分割决策的,并且可以在此基础上在数字世界中得到加强和进一步发展。

[ 20 ]斯蒂芬·埃弗特 (Stefan Evert) 把搭配现象称为“附带现象” [28],因为在经典弗斯意义上,搭配最初是其成分习惯性共现的结果,而根据弗斯的说法,人们还将这种习惯性共现归因于某些词语之间的相互期望(“某些词语之间的相互期望” [29])。这些习惯性共现、相互预期的词汇成分形成相对固定但语法灵活的重复单位,这些单位是熟练的母语人士在语言使用中掌握的。这些单位在语义上大多相对透明,但也可以基于既定的共现而承载额外的含义。无论如何,搭配是如此确立,以至于它们被视为语言使用中的单位,并因此具有功能。违反既定词组使用可能会被理解,但也可能被认为是违反惯例。

[ 21 ]在语料库中识别搭配的核心挑战之一是,一方面,它们代表两个或多个成分的相对完善的、重复的组合,但是,这些成分首先如上所述,会在语法框架内发生相对顺序和形式形成的排列变化(例如,commit a crime和crimes are commit),而且与 n-gram 相比,搭配的成分不一定连续地排列在一起。此外,在该现象的大多数定义中,共现都是在句子边界内定义的,要么在短语内(例如,名词短语blonde hair),要么跨短语边界在句子成分之间(例如,谓语动词与名词搭配作为宾语位置的名词短语的中心词,X commits a crime)。因此,搭配的识别基于词汇级别的标记化,即对所研究语料库的词素的识别,并以句子标记化为外部边界进行限制。在大多数定义中,搭配不会超出句子边界,[30]尽管成分当然可以在下面的句子中再次被使用。一方面,与许多分析一样,标记化是识别真实语言语料库中的搭配的基本前提。另一方面,由于搭配的成分不一定连续地相互衔接,因此无法根据语料库中的标记化来可靠地识别对象。因此,必须通过统计方法在定义的上下文(或窗口)内确定搭配,因为搭配最初在语言表面上看起来是不相连的单位,并且不了解语言的参与者无法立即识别。

[ 22 ]语料库数据的范围和质量,尤其是作为语言预处理一部分的分割,对于搭配的识别至关重要,因为正确识别的标记和句子边界会影响参数的符合性、成分的识别,从而也影响搭配的识别。特别是在非常大的语料库中,由于数据量巨大,其预处理无法也不会手动保证质量,数字化的伪影、不相连的字符等经常残留,这使预处理变得复杂,从而也对搭配提取的质量产生负面影响。例如,上文提到的Sabine Bartsch 和 Stefan Evert [31]的研究表明,与将大型语料库作为搭配研究的中心基础的定量假设相反,在提取搭配时,语料库规模的标准必须始终与语料库质量相权衡,并且规模较小但预处理非常干净的语料库可以比非常大的语料库提供更好的提取结果,因为非常大的语料库可能由于规模较大而包含不太干净的数据。

[ 23 ]此外,搭配提取除了预处理过程中执行的标记化之外,还使用了第二级分割 ,这限制了搭配成分预计出现的搜索空间,并通过减少数据中的噪音使其易于统计,从而提高了识别相关搭配的可靠性。这里执行的分割是启发式的;它对潜在的搜索空间进行建模和限制,而不是直接选择所寻找的现象。它通过限制搜索空间来接近所寻求的现象,而不是直接解决搭配候选。大量研究表明,限制搜索空间的参数既影响已识别的搭配候选集(召回率),也影响在测试中可被识别为实际搭配的实际相关搭配候选的数量(准确率)。最后,精确度和召回率之间的关系根据可以以一定置信度(非技术意义)识别的结果集的大小提供了有关提取质量的信息。

[ 24 ]Evert 和 Bartsch [32]测试的搜索空间的参数设置除了包括已建立的基于字的搜索窗口[33] 3:3、5:5 和 10:10 字作为左右上下文之外,还包括句子边界,即完整句子作为界定上下文。此外,z。遵循 Bartsch (2004) 提出的定义并超越 Firth 的定义,搭配候选词是根据成分之间的直接句法关系提取的。[34]这反过来又需要在识别句法单位和关系的意义上进一步分割和注释。除此以外,可以系统地评估不同参数设置对搜索空间的影响。另一方面,可以证明,通过使用不同的语言参数,如词形还原、词汇语法词分类和语法依赖性,可以影响搭配提取的结果,并可以改变和改进结果集。

[ 25 ]这个例子表明,作为语言预处理的一部分,切分决策能够使词汇单位成为搭配的组成部分,从而影响语言分析的质量。另一方面,在语料库数据中选择有限搜索空间的分割是识别搭配候选的语言和统计程序的基本组成部分。例如,基于基于词的搜索窗口(3-5 个词作为搜索词的左右上下文)或语法定义的片段,例如直接句法关系中的句子或成分,使用共现重要性的统计测量来确定搭配候选。

3.3 启发式文本实践分析
[ 26 ]多词单位的讨论已经表明,语言片段只能从功能上进行定义:属于一起的事物在交流中发挥着作用。多词单位虽然在功能上与句子相关,但句子的统一性是由语言实践所构成的。在分析这些时,动作解释、范畴包含和结构分割的相互作用至关重要。下面将在创建标签集来分析启发式文本实践时使用分割问题来解释这意味着什么。我们所说的“启发式文本实践”是指在制度固定的惯例中产生新知识并与现有知识相联系的制定程序,例如B.›强调研究主题的相关性‹、›定义术语‹或›论证性地支持某个陈述‹。我们感兴趣的是,这些公式化程序在不同科学学科的论文中是如何使用的,它们在文本中的什么地方使用,它们如何相互结合,它们具有什么文本功能,以及我们可以从所有这些中学到什么关于各自学科的认识论实践的知识。该研究方法已在一项初步研究中得到详细证实。[35]本研究使用溯因程序开发了一个标签集,并对来自达姆施塔特工业大学 13 个院系的 65 篇论文引言组成的试点语料库进行了手动和协作注释。出现的总体文本实践是相关性标记、目标设定和论文制定的说明程序以及断言的定义和支持的实践。每个类别都有子类别(见图1)。[36]

图 1:HeuTex 分类注释方案。 [Bender / Müller 2020,第 23 页]
图 1:HeuTex 分类注释方案。 [ Bender / Müller 2020,第 23 页]
[ 27 ]与语言学中的所有语用研究一样,这是一个 x-as-y 过程:由于制定程序在实际中无法有意义地观察到(至少在大规模上无法观察到),因此其目的是确定进行特定文本实践的文本片段。现在,例如,论证的实践可以——取决于论证的定义——用一个单词、一个句子或一系列书籍来进行。然而,如果临时确定每一种语言实践所针对的文本片段,就无法对各个片段进行相互比较;至少无法进行定量评估。因此,我们一般给单位›句子‹分配注释类别。这也是语言语用学的基本范畴:语言动作一般都是用句子来完成的。另一方面,由于文本实践(在论证中可以清楚看到)通常超越句子的界限,因此分析必须考虑连续、离散的启发式文本实践的“区域”。

[ 28 ]指定分割的语言单位也很重要,原因如下:该项目旨在自动对启发式文本实践进行分类。我们在一项试点研究中使用了深度学习架构,更准确地说是循环神经网络(RNN),根据标签集进行分类,取得了有希望的结果(见图 1 )。 [37]我们发现我们的模型在所有注释级别上都表现得相当出色,实现了高达 93%(0 级)的准确度值。 0 级是分类的基本级别,1 级和 2 级分别是子类别。我们还发现,各个级别的准确率和召回率分数之间都保持了良好的平衡,其中 0 级的差异最大,召回率比准确率分数高出 8 个百分点 ,这表明此处的模型在查找数据集中每个标签的所有相关实例方面(略微)比对实例做出正确的标签预测要好。为了解释这些结果,必须考虑多数基线(即数据集内最常见的实例集)。我们在所有三个级别都超出了大多数人的基线,其中第 2 级别的改进最为显著(见表3)。集(2,689 个句子)的复杂分类任务,因此标签集和分割实践已被证明是稳健的。

0 级 1级 2 级
麻木的。标签数量 5 11 2
准确性 0.8302 0.7548 0.9292
F1 0.8071 0.7546 0.9291
精确 0.7661 0.7541 0.9309
记起 0.8537 0.7549 0.9295
多数基线 0.7164(相关性标记) 0.6219(对象描述) 0.6023
(定向)
表3:不同层次的RNN分类结果。 [来自: Becker 等人。 2020 ]

[ 29 ]现在人们可能会认为句子分割是预处理的机械步骤,没有进一步的语义含义。然而,这里将使用两个案例来证明分割决策对分类分配有直接的影响,因为它限制了解释学访问的深度,进而决定了分类。我们的切分基本上是句法自主的句子(句子),因为从句在功能上分配给矩阵句子,因此不代表独立的文本动作。例如,如果将以下子句作为分类决策 (a) 的一个片段,并且如 尼日利亚电报数据 果进行平面分类,即不包括上下文知识,那么就要对断言言语行为(在我们的方案中是通过事实描述的相关性标记)进行分类。然而,如果该句段是“句子”意义上的句子 (在本例中是复合句),则会产生论点(b)。

1)她的人生故事对于她那个时代的资产阶级女性来说绝对不是一个典范[38]
b)她的人生故事对于她那个时代的资产阶级女性来说绝不是一个典范,她们仍然被定义为家庭主妇和母亲。[39]
[ 30 ]在示例 (c) 和 (d) 中可以发现略有不同的情况。如果孤立地考虑句子(c)而不考虑上下文知识,那么它将被解释为道义上的模态命题,并在语用上被归类为指导性言语行为,具体来说是作为行动的建议。然而,如果考虑到直接的文本上下文(d),从语言学的角度来说:共同语境,那么根据我们的分类方案,启发式文本实践会产生客观的结果。
Post Reply