ich suche eine möglichst OpenSource API mit der ich aus einem eingescannten PDF Dokument ein OCR PDF machen kann.
Hat jemand damit Erfahrung bzw. kenn jemand eine solche API (mit Tess4j kann ich leider keine PDF erstellen sondern nur die OCR Erkennung nutzen).
da kann man nach guten, günstigen und unterstützten API für die Texterkennung sehr, sehr lange suchen, was ich auch schon getan habe. Am Ende kam ich immer wieder bei Tesseract an. Das PDF habe ich aber nicht nachträglich damit durchsuchbar gemacht, sondern lediglich den Text extrahiert. Mit Tesseract (und Freunden) sollte es nach diesem Tool aber auch möglich sein: