Python中的机器学习:scikit-learn / Pybrain



我阅读了一些教程和介绍,但我不确定我是否掌握了窍门,最重要的是,我不确定我是否完全理解ML与NN。

假设我想指导一个程序(如scikit-learn),以便它有一些语言词典作为其输入集。例如,我有一个大型意大利语单词字典,我可以将其输入为数组数组(数组的每个项目都是一个单词,每个单词都是一个 ascii 值数组,每个字符对应一个):

[
    [112, 105, 122, 122, 97], // pizza
    [109, 097, 109, 109, 97], // mamma
    ...
]  

是否有可能/什么是最好的库/如何做到这一点:

  1. 给定一个单词,让程序推断它是否可能是一个意大利语单词,以便"mafia"被识别为一个潜在的实际意大利语单词,但"Eichhörnchen"不是(它比普通的意大利语世界长,它包含像"rnch"这样的序列,这些序列在初始集中找不到,它包含"ö",这是一个意大利语中不使用的字符)
  2. 根据初始集生成其他(可能的)意大利语单词。例如,"potomo"不是一个实际的意大利语单词,但根据意大利语正字法,它可能是

我认为可以使用朴素贝叶斯分类和KNN。朴素贝叶斯分类被证明可以过滤垃圾邮件,但在此之前你需要一个同义词库。

最新更新