Scikit-learn与文本和数字数据的混合



我以CSV的形式提供我的数据,格式如下(这是一个示例行,几万行之一)

FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16

每个文本字符串都类似于这种字符串;数字字符串也是如此。

我正在寻找一种基于与文本相关性预测数字的方法。

在scikit-learn中有什么方法可以做到这一点吗?

最好的办法是在字符串上生成一些聚合函数,并将其用作预测剩余值的特征。简单聚合函数的示例可以是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、每对字母之间的转换次数等。

这是我在没有特定领域背景知识的情况下能想到的最好的。

相关内容

  • 没有找到相关文章

最新更新