我需要使用Python (NLP应用程序)从pdf中提取文本,并希望从每页的文本中省略前5行。我试着在网上找,但找不到任何实质性的东西。我使用下面的代码来读取页面上的所有文本。是否有一个提取后的步骤,可以从所有页面中删除前几行,或者可以在提取阶段本身做一些事情?
fileReader = PyPDF2.PdfFileReader(file)
s=""
for i in range(2, fileReader.numPages):
s+=fileReader.getPage(i).extractText()
用"n"然后切片以删除前5行:
import pdfplumber
pdf = pdfplumber.open("CS.pdf")
for page in pdf.pages:
text = page.extract_text()
for line in text.split("n")[5:]:
print(line)