PDF OCR Erkennung

GGK · 14. Juli 2017 um 08:50

Hallo,

ich suche eine möglichst OpenSource API mit der ich aus einem eingescannten PDF Dokument ein OCR PDF machen kann.
Hat jemand damit Erfahrung bzw. kenn jemand eine solche API (mit Tess4j kann ich leider keine PDF erstellen sondern nur die OCR Erkennung nutzen).

Danke GGK

inv_zim · 14. Juli 2017 um 11:01

Hi,

da kann man nach guten, günstigen und unterstützten API für die Texterkennung sehr, sehr lange suchen, was ich auch schon getan habe. Am Ende kam ich immer wieder bei Tesseract an. Das PDF habe ich aber nicht nachträglich damit durchsuchbar gemacht, sondern lediglich den Text extrahiert. Mit Tesseract (und Freunden) sollte es nach diesem Tool aber auch möglich sein:

http://www.tobias-elze.de/pdfsandwich/

Das scheint ein Shellscript für Linux zu sein, welches mit Tesseract ein PDF durchsuchbar macht. Da kann man sich am Code bestimmt etwas abgucken.

Viele Grüße
Tim

GGK · 14. Juli 2017 um 12:17

Danke dir…ich werde mir das mal anschauen.

GGK