如何仅从轨道中的pdf文件中提取突出显示数据



我想从 pdf 中取出所有突出显示的文本 轨道 有没有人知道我无法弄清楚。示例数据

您可以使用pdf-reader gem(example/text.rb示例很简单,对我有用(: https://github.com/yob/pdf-reader

或者命令行实用程序pdftotext。

# Extract all text from a single PDF
require 'rubygems'
require 'pdf/reader'
filename = File.expand_path(File.dirname(__FILE__)) + "/../spec/data/cairo-unicode.pdf"
PDF::Reader.open(filename) do |reader|
reader.pages.each do |page|
puts page.text
end
end

这是使用上述 gem 进行的基本文本提取。这应该会让你有一个良好的开端。您可以从文档中获取所有文本,然后根据收到的数据找出如何抓取这些特定部分。

最新更新