HTML中的句子边界检测



我需要检测HTML中的句子边界。有很多句子边界检测软件(我使用的是java.text.BreakIterator),但所有软件都假设为纯文本。HTML比这更丰富,并且包含了一些关于句子中断的线索。

例如,<p>, <ul>/<li>, <td>和其他标签标记了句子边界,或者至少表明一个句子可能不会跨越它们。CCD_ 2和其他一些标签可能出现在一个句子中。

除了普通的NLP之外,有人知道有什么软件可以利用HTML标记来确定句子边界吗?

我实现的解决方案是1。在除内联标记(<i><b><span>等)之外的所有html标记上将文档拆分为单独的块,2。从每个块中剥离内联标签,3。使用传统方法在每个块中查找句子。

最新更新