Neues Tool: PDF WordInspector

Ein Freund hat mich vor einiger Zeit gebeten für ihn (und seine Kollegen) ein kleines Programm zu schreiben. Das Tool den Text aus PDF Dateien nehmen und dort nach bestimmten Wörtern suchen. Die Teffer sollen dann als Ergebnis aufgelistet werden. Hmm. Nichts einfach als das, oder?

Das schwierigste daran ist noch an den Text der PDF Dateien zu kommen. Dafür gibt’s aber die freie Bibliothek iTextSharp. Damit kann man PDF Dateien offnen und es gibt auch die Möglichkeit den Text aus der PDF Datei zu lesen. Damit man nun nach Wörtern suchen kann, muss der Text in einzelne Wörter zerlegt werden. Zu meiner Überraschung gibt’s dafür einen relativ einfachen regulären Ausdruck.

1
2
string pageContent = "Der Text aus der PDF";
Regex.Matches(pageContent, @"\w{1,}");

Ich weiß nicht ob noch jemand etwas mit dem Tool anfangen kann, aber ich stell’s euch mal zur Verfügung.

PDF Word Inspector

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert