使用木槌和最大熵进行分类



我想在Eclipse中使用mallet对docs(wsdl文件)进行预处理。我想生成特征向量并使用木槌和最大熵执行分类。我是使用木槌的新手,谁能在这方面指导我。

谢谢

如果您指的是 Web 服务描述语言,我不知道为这些文档设计的任何特定工作流程或包。我怀疑您可能希望创建一组功能,将文本(来自 Web 服务描述)和更多"分类"功能(如 URL 或 URL 模式)组合在一起。

我解决这个问题的方法是创建一个单独的包,用于读取 WSDL 文件并以 Mallet 期望的格式写出文件。此适配器可以用您最熟悉的任何语言编写。它将读取所有文件,为每个文件获取解析的XML树,提取文本和某些其他功能,并以Mallet首选的制表符分隔,每行一个文档格式输出文件。

最新更新