我有一堆与数值性能值相关的句子。
我想做两件事:
- 基于新句子预测绩效
- 找出哪些单词与高分具有最高相关性
从句子中提取功能的最佳方法是什么?有人可以建议我一种最适合上述模型的车型吗?
谢谢!查尔斯
ps:下线文本输入将与其他数值特征相结合以预测性能。
编辑:文本样本:
巴里是一个很棒的主人!他的位置非常好,巴里非常 善良帮助人。我会推荐他给我所有的朋友 前往阿姆斯特丹短途旅行!他的位置 公寓非常方便,可以通过电车轻松进入。只是 乘坐短暂的电车或几分钟的步行或骑自行车,我们是 家。感谢Barry如此美好的时光!祝你好运 再次感谢!
文本的所有数据分析的基本前提,以将句子转换为固定维空间中的向量,并使用您喜欢的方法进行回归。这可以通过几种方式完成:
单词袋
这是"传统"完成此任务的方法。如果您还可以用nltk来完成单词,这可能会更好。
。深度学习
神经网络最近解决了许多任务。文本分析是其中之一。您可以查看https://github.com/ryankiros/skip-thoughts,或找到将句子转换为向量的RNN。但是,很难解释这些模型,因此发现哪些单词与高分相关。