语言操纵工具

1有一个想解决的问题，想知道工具和方法。这项任务并不容易，但是我需要清理PDF电子书，并准备好将文本进行演讲，以便我可以做mp3。这是一个加载的问题，但我想从某个地方开始。现在的主要问题是如何从本电子书中删除书籍参考。当然，策略会根据格式而有所不同，但是在此特定的电子书上，参考文献可能看起来像这样：

" LoRem胡萝卜开发人员，Consectetur本科开发人员，但我会痛苦和痛苦很棒。很高兴避免薯条的痛苦，再也没有。除了渴望做的百叶窗之外，他们有错，服务抛弃了零食的灵魂。"(5(

和同一页面底部的参考：

(5(Lorem非常胡萝卜，增强了本科开发人员，但在工作中进行eimod和痛苦的疼痛。

底部的引用似乎是文本其余部分的字体大小。也许1可以利用它来为我带来优势。1使用了正则表达式，但在大多数情况下，它并没有为整个工作切割芥末。1需要几种工具，1知道iText，pdfiner，但1尚未完全学到这些工具。1'我不太在寻找文本提取器，我可以已经做到了吗？1'正在寻找更复杂的东西，甚至是语言处理，谁知道？

您需要从NLTK开始，这是斯坦福大学的自然语言任务。1找到了这个命名实体提取的基本教程，听起来您正在尝试做。

http://www.nltk.org/

http://www.nltk.org/howto/relextract.html

还有其他几种处理实体提取的蜜蜂，以下是Quora问题的列表：https://www.quora.com/what-eext-the-best-entity-traction-etraction-ectraction-entity-traction-aptraction-api--service

相关内容

最新更新

热门标签：