比较python nlp中的集合



我正在尝试使用在线教程自学python和自然语言处理

http://www.nltk.org/book/ch01.html#sec-自动自然语言理解

在每一节的结尾,他们都会给出练习题,在第一节中,除了一个,我已经完成了所有的练习题。这一次真的难倒了我。

在nltk中,有一个名为set()的函数,它给出了一个列表中所有vocab的集合,其中删除了所有重复的单词。

我们一直在使用集合来存储词汇。尝试以下Python表达式:set(sent3)<设置(文本1)。尝试使用不同的参数来设置()。它做什么?你能想出一个实际的应用程序吗?

我一直在为set运行一些不同参数的代码,但在输出中看不到模式。有人知道是什么把一个集合归类为大于另一个集合吗?为什么这可能很重要?

谢谢!

对于集合,<用于测试集合a是否是集合B的适当子集。例如,

In [147]: set('ab') < set('abc') 
Out[147]: True

因为CCD_ 2是CCD_。相反,

In [149]: set('abc') < set('abc') 
Out[149]: False

因为CCD_ 4不是其自身的适当子集。

此操作员记录在此处。

这不是子集的测试。我做了以下修改。

sent3 + ['manoj']
text1.count('manoj')  # returns 0
set(sent3) < set(text1)  # returns True but it is not a subset

最新更新