Page 1 of 1

子标量化类型自然语言示例

Posted: Thu Feb 06, 2025 7:11 am
by Bappy11
3.1 标签设置及应用规则
[ 25 ]标签集使用标签GI(Generalizing Interpretation ,泛化解释)来记录一段话是否表达了泛化,并使用各种子标签来记录存在哪种类型的语义量化(通用、存在或模糊)(见表1)。一个段落至少由一个、也可能由几个连续的小句组成。因为小句是可注释的最小单位,所以我们将在小句级别引用注释。从子句层面进行的注释可以在从语言角度可用的注释与对标记器实现有用的表面特征的集中之间实现平衡。通过这种方式,量化陈述可以在其广泛的范围内被捕获,同时以时间高效的方式进行注释。

全部 普遍量化 所有人,总是,所有人
大多 多数量化 大多地, 常常地
存在 存在量化 有x,就存在y
分割 模糊量化 有时、部分、通常、经常等等。
裸 以上都不是 + 转换量化 通用 NP(例如gold、lions)
负面 以上之一 + 否定 不存在棕色的黄金。
表 1:标签集 MONACO。 [Gödeke 等人。根据Barth 等人的说法, 2022 年2021 ]
[ 26 ]标签集的结构如下:子标签ALL、MOST、EXIST对应形式逻辑中 巴基斯坦电报数据 的量词,可以用一系列词素在句子表面表达出来。[20]子标签 ALL 通常由诸如always、every 、 every等词素组成:
(17)让我们想象一下石灰,[它对所有酸都有很强的倾向,有一种强烈的团结愿望] GI ALL![21]

子标签 MOSTLY 包含诸如 mainly或mainly 之类的词素,它们指的是指定数量的一半以上:
(18)[...]; [但它们大多是我们对自己或他人的行为所导致的快乐和不快乐后果的无意识记忆] GI MOSTLY。[22]

子标签 EXIST 包含指代某一类个体的存在的概括段落,并用give 和exist等存在谓词标记。 [23]
(19)[但这样的事情还存在,肯定会有这样的事情,或者至少还会再有] GI存在。[24]

子标签 DIV 捕获所有模糊量词,尤其是由副词触发的量化,例如有时、经常、偶尔、很少。它们与其他自然语言量词的不同之处在于它们的真实条件无法被精确描述。
(20)[我们优秀的上级通常让我读她写给学生家长和上级的关于学生的观察的信件] GI DIV。[25]
(21)“这与我们的朋友船长有关,”爱德华回答。 “您知道,他和其他很多人一样,无辜地被置于这样的境地。” [ 26]

此外,标签集可以使用子标签 BARE 捕获非明显的量化。例如,这可以用于一般主语或一般宾语的情况,即当在句子表面上无法识别量化时。
(22)[乡下人有正确的知识] GI BARE; [但他们的信息很混乱] GI BARE [而且不诚实] GI NEG。 [城里和学院的学生们头脑清楚、秩序井然,但对事情缺乏直接的洞察力] GI BARE。[27]
(23)[男人更多地考虑个人,考虑现在] GI BARE ; [28]

子标签 NEG 包括所有广义和否定语句,无论句法结构如何。句法结构可能很有趣,因为否定的不同句法位置伴随着否定的不同范围。因此,句法决定了句子中究竟否定什么;量词、限制词或范围(的部分)。由于这些信息结构区别与概括语句的自动识别无关,因此每个包含否定的概括语句都用子标签 NEG 进行注释。在这种情况下,NEG 会覆盖所有可能的其他注释。
(24)[根本不存在不容争辩的真理] GI NEG [29]

此外,注释过程还涉及多重注释和歧义情况的一些规则。在同一篇文章中,可能会出现以不同方式进行概括的情况。在下面的例子中,对争吵和争论的概括既随着时间的推移(总是)进行了概括,也存在着概括。由于这里有相互竞争的泛化类型,因此必须分配两个子标签。
(25)[[总是有争吵和打斗] GI ALL ] GI EXIST [30]

这里的一个重要例外是子标签 BARE。仅当无法分配其他子标签时,才会授予 BARE:
(26)[教皇平等地爱他的臣民] GI BARE。 (虚构例子)

然而,在 (27) 中,对教皇 (教皇) 和所有臣民都进行了概括。因此这里只设置了 ALL。
(27)[教宗平等地爱着他的所有臣民] GI ALL [31]

如果同一篇文章中有两个概括,并且都用相同的标签进行注释,则它们不会被注释两次。在以下例子中,每一位教皇和他的所有臣民都属于“全部”类别:
(28)[每一位圣父都平等地爱着他的所有臣民] GI ALL(虚构的例子)

除了子标签之外,标签集还提供了将段落标记为歧义的可能性。如果在像 (9) 这样的例子里,不清楚该陈述是一般性的还是具体的,则可以设置此子标签。

[ 27 ]正如开头所提到的,小句级别的标注实践使得自然语言中所有形式的量化都可以纳入其中,同时可以加快标注过程。然而,所提出的方法在本质上也不同于现有的通用性和量化研究中的注释实践,这在第 2.2 节中进行了解释。最重要的区别是,注释者不需要接受语言学训练,例如区分限制词、范围和量词。为了说明不同的方法,这里给出了一个基于 Friedrich 等人的注释方案的歌德的《选择性亲和力》中的例子。并对我们的概念进行了比较分析。[32] Friedrich 等人的方案。 (2016) 特别适合比较,因为它也主要在句子层面进行直观注释,从而捕捉到不同形式的通用性,即通用 NPs 和习惯性话语。
(29)[意识不是一种足够的武器,事实上,有时对于使用它的人来说,它还是一种危险的武器]通用句子。[33]