比较python nlp中的集合

我正在尝试使用在线教程自学python和自然语言处理

http://www.nltk.org/book/ch01.html#sec-自动自然语言理解

在每一节的结尾，他们都会给出练习题，在第一节中，除了一个，我已经完成了所有的练习题。这一次真的难倒了我。

在nltk中，有一个名为set（）的函数，它给出了一个列表中所有vocab的集合，其中删除了所有重复的单词。

我们一直在使用集合来存储词汇。尝试以下Python表达式：set（sent3）<设置（文本1）。尝试使用不同的参数来设置（）。它做什么？你能想出一个实际的应用程序吗？

我一直在为set运行一些不同参数的代码，但在输出中看不到模式。有人知道是什么把一个集合归类为大于另一个集合吗？为什么这可能很重要？

谢谢！

对于集合，<用于测试集合a是否是集合B的适当子集。例如，

In [147]: set('ab') < set('abc') 
Out[147]: True

因为CCD_ 2是CCD_。相反，

In [149]: set('abc') < set('abc') 
Out[149]: False

因为CCD_ 4不是其自身的适当子集。

此操作员记录在此处。

这不是子集的测试。我做了以下修改。

sent3 + ['manoj']
text1.count('manoj')  # returns 0
set(sent3) < set(text1)  # returns True but it is not a subset

相关内容