Geschrieben am: 12.11.2019 um 22:11 Uhr Zuletzt editiert am: 12.11.2019 um 22:20 Uhr
Hi zusammen,
heute habe ich den Abend damit verbracht, Python zu installieren und mit PyPDF2 Text einer PDF auszulesen. Mein eigener Ansatz mittels Python Buch hat nicht funktioniert, also habe ich jegliche Skripte probiert, die online zu finden waren. Aber ich erhalte immer daselbe Bild. Wenn ich den konvertierten Text durch pdfPage.extractText() mit print in der Konsole ausgeben möchte, werden nur Blanks gedruckt. Ich arbeite gerade unter Windows 7 und führe den Code mit
'''
Created on Aug 10, 2018
@author: zhaosong
This example tell you how to extract text content from a pdf file.
'''
import PyPDF2
import textract
# This function will extract and return the pdf file text content.
def extractPdfText(filePath=''):
# Open the pdf file in read binary mode.
fileObject = open(filePath, 'rb')
# Create a pdf reader .
pdfFileReader = PyPDF2.PdfFileReader(fileObject)
# Get total pdf page number.
totalPageNumber = pdfFileReader.numPages
# Print pdf total page number.
#print('This pdf file contains totally ' + str(totalPageNumber) + ' pages.')
currentPageNumber = 0
text = ''
# Loop in all the pdf pages.
while(currentPageNumber < totalPageNumber ):
# Get the specified pdf page object.
pdfPage = pdfFileReader.getPage(currentPageNumber)
# Get pdf page text.
text = text + pdfPage.extractText()
# Process next page.
currentPageNumber += 1
if(text == ''):
# If can not extract text then use ocr lib to extract the scanned pdf file.
text = textract.process(filePath, method='tesseract', encoding='utf-8')
Ich geh mal davon aus, dass du geeignete Pfade (nicht den aus dem Beispiel) angegeben und eine korrekte Einrückung hast
Hast du dir mal die Variablenwerte an den verschiedenen Stellen ausgeben lassen, um herauszufinden, ob die Seitenzahl richtig ermittelt wird und ob es jetzt mit tesseract oder PyPDF2 arbeitet?
Ich hab Deinen Code interessehalber mal unter Linux ausgeführt und erhalte zumindest einen Output. Natürlich vollkommen unformatiert und nur teilweise richtig, aber es sind Worte zu erkennen.
Falls das Problem noch aktuell ist, könntest Du wie hier bereits vorgeschlagen mal schauen ob er die Seiten überhaupt richtig durch läuft. Ich kenne die verwendeten Pakete nicht so wirklich aber ich könnte mir vorstellen, dass er blank Output wirft, wenn er die PDF nicht findet oder so. Ich mag nicht unterstellen, dass du vergessen hast, die test.pdf dort zu platzieren, aber vllt geht mit dem Mount was schief.
Das sieht alles so aus als wäre das nur zu Demonstrationszwecken. Arbeiten mit PDF in Programm ist meistens ein ziemlicher Krampf. Was hast Du denn letztendlich vor?
Geschrieben am: 14.10.2021 um 22:14 Uhr Zuletzt editiert am: 14.10.2021 um 22:15 Uhr
It is a very informative post about the Read Python PDF text and you are good to share this detail with us here so that we can do what we want. When I was in need to split pdf for free 2pdf help me to do it easily and there are a lot of people who do not now that we can use the tools to edit PDF files according to ur requirements.