如何使用机器学习提取公司债券信息



我正在进行一个项目,需要从非结构化电子邮件中提取公司债券信息。经过大量研究,我发现机器学习可以用于信息提取。我尝试了Opennlp NER(命名实体识别器),但我不确定我是否为这个问题选择了正确的库,因为我得到了结果,但没有达到标准。

有人能给我推荐任何库或算法吗?这意味着我如何从中解析和提取数据。我计划探索Naïve Bayes或N-gram或支持向量机,但不确定,这对我是否有帮助。请提出建议。

例如:

[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm-->这里我想提取"ABC 2.5 19"

示例2:

XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2-->这里我想提取"XYZ 6.5 15"

在Perl中,您可以使用Marpa::R2——一个通用的BNF解析器。

这个要点从你的例子中提取信息。

希望这能有所帮助。

最新更新