我以CSV的形式提供我的数据,格式如下(这是一个示例行,几万行之一)
FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16
每个文本字符串都类似于这种字符串;数字字符串也是如此。
我正在寻找一种基于与文本相关性预测数字的方法。
在scikit-learn中有什么方法可以做到这一点吗?
最好的办法是在字符串上生成一些聚合函数,并将其用作预测剩余值的特征。简单聚合函数的示例可以是每个字母的出现次数、长度、第一个字母、最后一个字母、最常见的字母、每对字母之间的转换次数等。
这是我在没有特定领域背景知识的情况下能想到的最好的。