如何在谷歌电子表格中查找单词是名词、动词还是形容词(词性)



嗨,我正在尝试使用 Google 表格导入词典网站并让它输出我拥有的单词列表是否是形容词、动词、名词等。

我有数千个单词要做这件事,这就是我尝试自动化它的原因。

我在网上找到了一些使用googlesheets导入html函数的公式,然后采用xpath来获取动词,形容词,名词

我认为这些网站已经改变了,现在我一直没有成功尝试在任何字典网站上找到 xpath。

这是我的谷歌文档的链接:https://docs.google.com/spreadsheets/d/16G882tK8rnU7S22PwSk8BoTXm3EWHOJpH7177Bs39eo/edit?usp=sharing

如果有人能够找到能够输出动词形容词和名词的字典的 xpath,那就太神奇了

请不要这样做。

在任务中识别词性并非易事。 (请参阅维基百科关于词性标记的条目,了解所涉及的内容的概述。 在字典中查找单词对于英语来说是一种非常粗糙的方法,其中单个正字"单词"可以根据上下文表示不同的词性。

对于您的数据集,CanInfoTech上描述的方法严重不足。 下面说明了这三个在线词典将如何标记电子表格中的前几个条目:

Word    dictionary.com    Merriam-Webster   lexico.com
a       noun              noun              determiner
woman   noun              noun              noun
and     conjunction       conjunction       conjunction
two     noun              adjective         cardinal number
kids    noun              noun              noun
a       noun              noun              determiner
girl    noun              noun              noun
and     conjunction       conjunction       conjunction
a       noun              noun              determiner
boy     noun              noun              noun
the     definite article  definite article  determiner
boy     noun              noun              noun
is      verb              abbreviation      abbreviation
trying  adjective         adjective         adjective
to      preposition       preposition       preposition
reach   verb              verb              verb
the     definite article  definite article  determiner
cookie  noun              noun              noun
jar     noun              noun              noun

如您所见,许多问题已经很明显:

  1. 行列式"a"被 dictionary.com 和Merriam-Webster错误地标记为名词,因为这两个来源碰巧首先列出了名词形式(即字母"A"的名称(。 由于"a"非常普遍,这将给你一个巨大的名词误报率。
  2. 同样,"is"被Merriam-Webster和 lexico.com 错误地标记为缩写,因为"IS"缩写恰好在这些网站上列在第一位。 这将为您提供许多动词的误报。
  3. "尝试"被所有三个来源错误地标记为形容词。 当然,"尝试"也是一个形容词,但在这种情况下,它是动词"尝试"的一种形式,你会希望它被标记为这样。 (我假设你没有将搜索限制在有限动词上。

没有自动POS标签系统是完美的,但是这个系统非常糟糕,以至于会使您的研究结果毫无价值。

请改用真正的POS标记器。

正如@telion指出的那样,有很多免费资源可以在文本上进行很好的POS标记。 R和Python有很多选择。 您将无法在Google表格中执行此操作,但是无论如何,编程语言都会为您提供更大的定量分析灵活性。

@telion的评论解决了您的问题。

替换引号字符(单引号和双引号(,如@telion所述。 此外,正如您所怀疑的那样,dictionary.com 确实发生了变化;可以检查示例定义页,以确定要在其公式中使用的新的正确类。 最后,您需要从句子末尾的单词中删除最后句点。

最新更新