显示行断裂为PDF中的` n`使用pdf.js中的文本转换



我使用了本教程中的代码http://ourcodeworld.com/articles/arread/405/how-to-conter-convert-pdf-pdf-to-te-text-text-text-xtrex-text-text-trom--from--pdf-with-javaScript以设置PDF转换为文本。

在此站点上全部浏览了https://mozilla.github.io/pdf.js/,以了解有关如何格式化转换的一些提示,但找不到任何东西。我只是想知道使用pdf.js解析文本时,是否有人知道如何显示线路断裂为n

预先感谢。

在pdf中,没有使用控制chars(例如' n' - pdf中的glyphs(使用精确坐标来控制布局。使用文本y坐标(可以从变换矩阵中提取(来检测线路更改。

var url = "https://cdn.mozilla.net/pdfjs/tracemonkey.pdf";
var pageNumber = 2;
// Load document
PDFJS.getDocument(url).then(function (doc) {
  // Get a page
  return doc.getPage(pageNumber);
}).then(function (pdfPage) {
  // Get page text content
  return pdfPage.getTextContent();
}).then(function (textContent) {
  var p = null;
  var lastY = -1;
  textContent.items.forEach(function (i) {
    // Tracking Y-coord and if changed create new p-tag
    if (lastY != i.transform[5]) {
      p = document.createElement("p");
      document.body.appendChild(p);
      lastY = i.transform[5];
    }
    p.textContent += i.str;
  });
});
<script src="https://npmcdn.com/pdfjs-dist/build/pdf.js"></script>

相关内容

  • 没有找到相关文章

最新更新