使用xmlstarlet提取HTML



我正试图从bash shell脚本中提取HTML文档的特定部分,并且一直在使用xmlstarlet sel,但我无法让它返回实际的HTML,而不仅仅是HTML标记中的文本值。

我正在尝试以下命令行:

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html

但它只提供文本,没有任何HTML/XML标记。为了获得信息,我正在尝试将这些数据导出为它所来自的mediawiki实例之外的HTML格式。

如果xmlstarlet是错误的工具,那么对于其他工具的任何建议也将不胜感激!

-v表示--value-of,它是标签的内容。您应该使用-c--copy-of来获取标签本身。

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -c "." wiki.html

或者只是

xmlstarlet sel -t -c "//div[@id='mw-content-text']" wiki.html

相关内容

  • 没有找到相关文章

最新更新