是否有关于mecab(日语单词解析器)算法的描述



是否有描述mecab算法的文档?

或者有人可以给出一个简单的一段或一页描述?

我发现很难理解现有代码以及数据库所包含的内容。

我需要此功能在我的免费网站和电话应用程序中用于教学语言(www.jtlanguage.com(。我还想将其概括为其他语言,并利用我已经实施的共轭检测机制,并且我也需要它,而没有许可证保证。因此,我想创建自己的实现(C#(。

我已经有一个源自dist的字典数据库。还需要什么?使用频率数据库?

谢谢。

一些想法太长以至于无法评论的想法。

§哪些许可证负担?MeCab是双重许可的,包括BSD,因此您可以获得尽其所能。

§也有一个名为kuromoji的Mecab的Java重写,已获得Apache许可,也非常商业友好。

§MeCab实现了一种机器学习技术,称为有条件的随机字段,用于形态学解析(将自由文本分离为词素(和词性标记(标记这些词素(日语文本。它能够将各种词典用作训练数据,您已经看到了iPadic,Unidic等。这些词典是词素和言论部分的汇编,并且是许多人类年度语言研究的作品。链接的纸是由Mecab的作者。

的作者。

§其他人已将其他强大的机器学习算法应用于日本解析的问题。

  • kytea可以将支持向量机和逻辑回归用于同一问题。C ,Apache许可,并且论文在那里阅读。
  • Rakuten MA在JavaScript中,也可以自由许可(Apache再次(,并带有常规的词典和一个轻量级的词典,用于受限的应用程序,但它不会让您阅读汉字。您可以找到描述那里算法的学术论文。

§给出了上述内容,我认为您可以看到,像erdict和jmdict这样的简单词典不足以进行这些形态解析器所做的先进分析。对于其他易于使用的语言(即带有空格的语言(,这些算法可能是过度的。

如果您需要这些库的力量,那么您最好编写一个运行其中一个系统的微服务(我写了一个静止的前端,称为clj-kuromoji-jmdictfurigana,而不是试图在C#中重新制作它们(。

虽然注意到它出现C#绑定到Mecab的存在:请参阅此答案。

在几个小型项目中,我只是向MeCab求出,然后阅读并解析其输出。我的打字稿示例使用node.js。

§,但也许您不需要完全的形态解析和言论的一部分标签?您是否曾经使用过Rikaichamp,这是使用JMDICT和其他低重量公共可用资源的Firefox附加组件来在网站文本上贴上光泽?(也存在一个镀铬版。(它使用了一个简单得多的Deinflector,坦率地说,与Mecab等人相比,它非常糟糕。但通常可以完成工作。

§您对词典的结构有一个疑问(您称它们为"数据库"(。kimtaro(jisho.org的作者(关于如何将自定义词汇添加到iPadic的注释至少可以澄清iPadic的工作原理:https://gist.github.com/kimtaro/kimtaro/ab1378770ad4a385b2d79。其他更现代的词典(我倾向于使用Unidic(使用不同的格式,这就是为什么MeCab的输出因您使用的字典而有所不同。

最新更新