我想从 pdf 中取出所有突出显示的文本 轨道 有没有人知道我无法弄清楚。示例数据
您可以使用pdf-reader gem(example/text.rb示例很简单,对我有用(: https://github.com/yob/pdf-reader
或者命令行实用程序pdftotext。
# Extract all text from a single PDF
require 'rubygems'
require 'pdf/reader'
filename = File.expand_path(File.dirname(__FILE__)) + "/../spec/data/cairo-unicode.pdf"
PDF::Reader.open(filename) do |reader|
reader.pages.each do |page|
puts page.text
end
end
这是使用上述 gem 进行的基本文本提取。这应该会让你有一个良好的开端。您可以从文档中获取所有文本,然后根据收到的数据找出如何抓取这些特定部分。