是否有关于mecab(日语单词解析器)算法的描述

是否有描述mecab算法的文档？

或者有人可以给出一个简单的一段或一页描述？

我发现很难理解现有代码以及数据库所包含的内容。

我需要此功能在我的免费网站和电话应用程序中用于教学语言(www.jtlanguage.com(。我还想将其概括为其他语言，并利用我已经实施的共轭检测机制，并且我也需要它，而没有许可证保证。因此，我想创建自己的实现(C＃(。

我已经有一个源自dist的字典数据库。还需要什么？使用频率数据库？

谢谢。

一些想法太长以至于无法评论的想法。

§哪些许可证负担？MeCab是双重许可的，包括BSD，因此您可以获得尽其所能。

§也有一个名为kuromoji的Mecab的Java重写，已获得Apache许可，也非常商业友好。

§MeCab实现了一种机器学习技术，称为有条件的随机字段，用于形态学解析(将自由文本分离为词素(和词性标记(标记这些词素(日语文本。它能够将各种词典用作训练数据，您已经看到了iPadic，Unidic等。这些词典是词素和言论部分的汇编，并且是许多人类年度语言研究的作品。链接的纸是由Mecab的作者。

的作者。

§其他人已将其他强大的机器学习算法应用于日本解析的问题。

kytea可以将支持向量机和逻辑回归用于同一问题。C ，Apache许可，并且论文在那里阅读。
Rakuten MA在JavaScript中，也可以自由许可(Apache再次(，并带有常规的词典和一个轻量级的词典，用于受限的应用程序，但它不会让您阅读汉字。您可以找到描述那里算法的学术论文。

§给出了上述内容，我认为您可以看到，像erdict和jmdict这样的简单词典不足以进行这些形态解析器所做的先进分析。对于其他易于使用的语言(即带有空格的语言(，这些算法可能是过度的。

如果您需要这些库的力量，那么您最好编写一个运行其中一个系统的微服务(我写了一个静止的前端，称为clj-kuromoji-jmdictfurigana，而不是试图在C＃中重新制作它们(。

虽然注意到它出现C＃绑定到Mecab的存在：请参阅此答案。

在几个小型项目中，我只是向MeCab求出，然后阅读并解析其输出。我的打字稿示例使用node.js。

§，但也许您不需要完全的形态解析和言论的一部分标签？您是否曾经使用过Rikaichamp，这是使用JMDICT和其他低重量公共可用资源的Firefox附加组件来在网站文本上贴上光泽？(也存在一个镀铬版。(它使用了一个简单得多的Deinflector，坦率地说，与Mecab等人相比，它非常糟糕。但通常可以完成工作。

§您对词典的结构有一个疑问(您称它们为"数据库"(。kimtaro(jisho.org的作者(关于如何将自定义词汇添加到iPadic的注释至少可以澄清iPadic的工作原理：https：//gist.github.com/kimtaro/kimtaro/ab1378770ad4a385b2d79。其他更现代的词典(我倾向于使用Unidic(使用不同的格式，这就是为什么MeCab的输出因您使用的字典而有所不同。

相关内容

最新更新

热门标签：