是否有一种方法来执行自定义的TFIDF句子否定?



我使用TFIDF来计算文章之间的相似度,但我有一个问题,它认为这两个句子是相似的:

I am against this project
I am for this project

我该如何改进我的方法来考虑这个句子的否定呢?

有一次我不得不遇到这个问题。通常使用tf-idf很难解决这个问题,而是需要更复杂的NLP模型,即BERT,来发现句子在语义上是相似还是相反。但是,如果您的用例与示例类似,则可以执行以下操作。

我假设你的文章/文件/句子都这么简单。所以通常你会遇到两种相反意思的句子。一种是用n't/not标记,另一种是用相反的词。使用nltk库,你可以找到如果有词是相反的意思(反义词)在两个句子。这样你就可以很容易地决定了。

我添加了msayef的注释。你也可以考虑使用否定副词。

最新更新