Text-Extraktion aus PDF-Dokumenten

Lösung mit iText:

String path = "lala.pdf";
PdfReader pdfReader = new PdfReader( path );

for ( int page = 1; page <= pdfReader.getNumberOfPages(); page++ )
{
String textFromPage = PdfTextExtractor.getTextFromPage( pdfReader, page );
}

Lösung mit PDFBox:

String path = "lala.pdf";
PDDocument pdfDocument = PDDocument.load( path );
String textFromPage = new PDFTextStripper().getText( pdfDocument );
pdfDocument.close();

Das Ergebnis unterscheidet sich deutlich, die PDFBox gibt bessere Ergebnisse.

Java Blog für Programmierer

Weblog von Christian Ullenboom und der Java-Bande

Ähnliche Beiträge

Schreibe einen Kommentar