使用 Google 搜索字词列表,以便为特定类别构建词袋



我很难理解构建词袋的过程。这将是一个多类分类监督机器学习问题,其中网页或一段文本被分配给多个预定义类别中的一个类别。现在,在为特定类别(例如,"数学")构建单词袋时,我熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行TF-IDF)以获取"数学"类别的词袋。

问题:我正在考虑的另一种方法是在谷歌中搜索"与数学相关的术语列表"之类的东西来构建我的词袋。我想问一下这种方法可以吗?

另一个问题:在这个问题的上下文中,词袋和语料库的意思是同一件事吗?

提前谢谢你!

这不是单词袋。词袋是描述表示给定文档的特定方式的术语。也就是说,文档(段落,句子,网页)表示为形式的映射

word: how many times this word is present in a document

例如,"John 喜欢猫和喜欢狗"将表示为:{john: 1, likes: 2, cats: 1, and: 1, dogs: 1}。 这种表示可以很容易地输入到典型的ML方法中(特别是如果假设总词汇量是有限的,所以我们最终得到数字向量)。

请注意,这不是关于"为类别创建一袋单词"。类别,在典型的监督学习中由多个文档组成,每个文档都独立地表示为一袋单词。

特别是,这使您向谷歌询问与类别相关的单词的最终建议无效 - 这不是典型的ML方法的工作方式。你得到很多文档,将它们表示为单词袋(或其他东西),然后执行统计分析(构建模型)以找出区分类别的最佳规则集。这些规则通常不会简单地"如果存在单词X,则与Y有关"。

相关内容

  • 没有找到相关文章

最新更新