语言操纵工具



1有一个想解决的问题,想知道工具和方法。这项任务并不容易,但是我需要清理PDF电子书,并准备好将文本进行演讲,以便我可以做mp3。这是一个加载的问题,但我想从某个地方开始。现在的主要问题是如何从本电子书中删除书籍参考。当然,策略会根据格式而有所不同,但是在此特定的电子书上,参考文献可能看起来像这样:

" LoRem胡萝卜开发人员,Consectetur本科开发人员,但我会痛苦和痛苦很棒。很高兴避免薯条的痛苦,再也没有。除了渴望做的百叶窗之外,他们有错,服务抛弃了零食的灵魂。"(5(

和同一页面底部的参考:

(5(Lorem非常胡萝卜,增强了本科开发人员,但在工作中进行eimod和痛苦的疼痛。

底部的引用似乎是文本其余部分的字体大小。也许1可以利用它来为我带来优势。1使用了正则表达式,但在大多数情况下,它并没有为整个工作切割芥末。1需要几种工具,1知道iText,pdfiner,但1尚未完全学到这些工具。1'我不太在寻找文本提取器,我可以已经做到了吗?1'正在寻找更复杂的东西,甚至是语言处理,谁知道?

您需要从NLTK开始,这是斯坦福大学的自然语言任务。1找到了这个命名实体提取的基本教程,听起来您正在尝试做。

http://www.nltk.org/

http://www.nltk.org/howto/relextract.html

还有其他几种处理实体提取的蜜蜂,以下是Quora问题的列表:https://www.quora.com/what-eext-the-best-entity-traction-etraction-ectraction-entity-traction-aptraction-api--service

最新更新