小贝子编程

Scikit-learn与文本和数字数据的混合

我以CSV的形式提供我的数据，格式如下（这是一个示例行，几万行之一）

FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16

每个文本字符串都类似于这种字符串;数字字符串也是如此。

我正在寻找一种基于与文本相关性预测数字的方法。

在scikit-learn中有什么方法可以做到这一点吗？

最好的办法是在字符串上生成一些聚合函数，并将其用作预测剩余值的特征。简单聚合函数的示例可以是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、每对字母之间的转换次数等。

这是我在没有特定领域背景知识的情况下能想到的最好的。

相关内容