Hinweis: Das Forum wurde in das neue Self-Service Portal umgezogen. Wir freuen uns auf weitere Diskussionen in dem neuen MAXQDA Forum.

Das Erstellen und Bearbeiten von Beiträgen ist in diesem Forum nicht mehr möglich.

07 Jun 2021, 14:57

Hallo zusammen,

Sehr geehrte Damen und Herren,

in einer Studie möchten wir viele unterschiedliche Arten von Dokumenten untersuchen. Um Worthäufigkeiten und Wortzusammenhänge untersuchen zu können, müssen wir die Dokumente, die alle als PDF vorliegen, in eine Txt-Datei umwandeln (Zeilenumbrüche werden im PDF nicht erkannt von Maxqda).

Ein großes Problem, das bei der Umwandlung entsteht, ist, dass einige Seiten des PDF nicht in txt konvertiert werden und/oder Spalten nicht also solche erkannt werden. Häufig werden bei mehrspaltig gesetzten Seiten in der pdf-Datei die Zeilen in der txt-Datei horizontal über alle Spalten ausgelesen.

Bei etwa 400 zu analysierenden Dokumenten wäre das manule Ändern ein riesen Aufwand. Gibt es Menschen hier, die damit Erfahrungen gemacht haben und eventuell helfen könnten? Das Programm Abbyy Finereader wurde uns bereits empfohlen, bringt aber andere Probleme wie der Falscherkennen von Buchstaben mitsich.

Viele Grüße

Simon

Version: MAXQDA 2020
System: Windows 10

07 Jun 2021, 21:40

Nach meinen Erfahrungen kann das Umwandeln von PDF in Text recht tricky sein.

Auf dem Mac funktioniert es mit dem Systemprogramm Automator, auf Windows und Mac habe ich die stapelweise Extraktion schon mit R (pdftools, tesseract) und Python (PyPDF, textract') gemacht.

Dabei sind jeweils unterschiedliche Programmierbibliotheken erforderlich für echte „Text“-PDFs und für „Bild“-PDFs, die vor der Textextraktion eine Texterkennung (OCR) benötigen. Texte korrekt aus komplex formatierten PDFs zu extrahieren ist nicht einfach, vor allem weil PDF-Dateien lm Unterschied zu HTML-Dateien keine semantischen Informationen enthalten (was ist eine Überschrift, eine Spalte usw., was ist die inhaltliche Reihenfolge der Textblöcke).

Nähere Informationen:

https://medium.com/@manthan.shah1994/my-experience-extracting-pdfs-text-using-r-and-python-50e3ba6ce5ad

https://slcladal.github.io/convertpdf2txt.html

Eine weitere Methode ist hier beschrieben:

https://kenbenoit.net/how-to-batch-convert-pdf-files-to-text/

Hinweis: Das Forum wurde in das neue Self-Service Portal umgezogen. Wir freuen uns auf weitere Diskussionen in dem neuen MAXQDA Forum.

Das Erstellen und Bearbeiten von Beiträgen ist in diesem Forum nicht mehr möglich.

Vorbereiten/konvertieren von Dokumenten

Vorbereiten/konvertieren von Dokumenten

Re: Vorbereiten/konvertieren von Dokumenten

Hinweis: Das Forum wurde in das neue Self-Service Portal umgezogen. Wir freuen uns auf weitere Diskussionen in dem neuen MAXQDA Forum. Das Erstellen und Bearbeiten von Beiträgen ist in diesem Forum nicht mehr möglich.

Vorbereiten/konvertieren von Dokumenten

Vorbereiten/konvertieren von Dokumenten

Re: Vorbereiten/konvertieren von Dokumenten

Hinweis: Das Forum wurde in das neue Self-Service Portal umgezogen. Wir freuen uns auf weitere Diskussionen in dem neuen MAXQDA Forum.

Das Erstellen und Bearbeiten von Beiträgen ist in diesem Forum nicht mehr möglich.