Python中的机器学习:scikit-learn / Pybrain

我阅读了一些教程和介绍，但我不确定我是否掌握了窍门，最重要的是，我不确定我是否完全理解ML与NN。

假设我想指导一个程序（如scikit-learn），以便它有一些语言词典作为其输入集。例如，我有一个大型意大利语单词字典，我可以将其输入为数组数组（数组的每个项目都是一个单词，每个单词都是一个 ascii 值数组，每个字符对应一个）：

[
    [112, 105, 122, 122, 97], // pizza
    [109, 097, 109, 109, 97], // mamma
    ...
]

是否有可能/什么是最好的库/如何做到这一点：

给定一个单词，让程序推断它是否可能是一个意大利语单词，以便"mafia"被识别为一个潜在的实际意大利语单词，但"Eichhörnchen"不是（它比普通的意大利语世界长，它包含像"rnch"这样的序列，这些序列在初始集中找不到，它包含"ö"，这是一个意大利语中不使用的字符）
根据初始集生成其他（可能的）意大利语单词。例如，"potomo"不是一个实际的意大利语单词，但根据意大利语正字法，它可能是

我认为可以使用朴素贝叶斯分类和KNN。朴素贝叶斯分类被证明可以过滤垃圾邮件，但在此之前你需要一个同义词库。

相关内容