von oggi » 09.01.2010, 18:57
Die PDF-Scans (bitmaps) können beim Scannen aus neueren Acrobat-Versionen heraus sofort einen nachgeschalteten OCR-Prozeß durchlaufen. Die dabei erkannten Texte (mit allen Erkennungsfehlern) bettet Acrobat als indizierbaren unsichtbaren Text ins PDF ein.
Auch die OCR-Software Abby Finereader kann man sehr erfolgreich auf PDF-dateien loslassen, um die erkannten Texte PdfBox-gerecht einzubetten.
Abby erzeugt/rastert offensichtlich auch aus beliebigen Postscript- bzw. PDF-Vektorzeichnungen zunächst eine (Hintergrund-)Bitmap und legt obendrüber einen Textlayer mit unsichtbar attributiertem Text (soweit erkannt). Diesen Text kann man dann sogar (z.B. im Acrobat-Reader) mit dem Textauswahlwerkzeug fassen und ins Clipboard kopieren und PdfBox oder andere Textextrahierer "sehen" ihn nun auch.
Auf diese (etwas umständliche, aber automatiserbare) Weise konnte ich z.B. den reinen Vektortext (Polylines) in AutoCAD-Zeichnungen indizierbar machen.