Was kann PdfBoxPreparator tun?

Verbesserungsvorschläge, Fragen oder Probleme zu regain

Moderatoren: itebob, thtesche

Was kann PdfBoxPreparator tun?

Beitragvon dpicella » 06.12.2009, 16:18

Ich habe PDF-Dateien, die ich indizieren möchten. Sie enthalten gescannte Bilder.

Kann PdfBoxPreparator Index der Titel, Schlagwort, Autor und andere Metadaten-Abschnitte in diesen PDF-Dateien?

Danke!
dpicella
 

Re: Was kann PdfBoxPreparator tun?

Beitragvon thtesche » 13.12.2009, 15:36

Derzeit wird nur Text (aus dem PDF) extrahiert, keine Metadaten und auch keine Child-Infos.
thtesche
Senior Member
 
Beiträge: 253
Registriert: 18.11.2007, 15:12
Wohnort: Panketal

Re: Was kann PdfBoxPreparator tun?

Beitragvon schisshaas » 14.12.2009, 11:10

Ganau das bräuchte ich auch damit ich nicht immer ne zusätzliche getippte Seite an die Gescannten PDFs hängen muss und auch für Bilder wärs geil
schisshaas
Newbie
 
Beiträge: 9
Registriert: 13.10.2009, 06:58

Re: Was kann PdfBoxPreparator tun?

Beitragvon oggi » 09.01.2010, 18:57

Die PDF-Scans (bitmaps) können beim Scannen aus neueren Acrobat-Versionen heraus sofort einen nachgeschalteten OCR-Prozeß durchlaufen. Die dabei erkannten Texte (mit allen Erkennungsfehlern) bettet Acrobat als indizierbaren unsichtbaren Text ins PDF ein.

Auch die OCR-Software Abby Finereader kann man sehr erfolgreich auf PDF-dateien loslassen, um die erkannten Texte PdfBox-gerecht einzubetten.
Abby erzeugt/rastert offensichtlich auch aus beliebigen Postscript- bzw. PDF-Vektorzeichnungen zunächst eine (Hintergrund-)Bitmap und legt obendrüber einen Textlayer mit unsichtbar attributiertem Text (soweit erkannt). Diesen Text kann man dann sogar (z.B. im Acrobat-Reader) mit dem Textauswahlwerkzeug fassen und ins Clipboard kopieren und PdfBox oder andere Textextrahierer "sehen" ihn nun auch.
Auf diese (etwas umständliche, aber automatiserbare) Weise konnte ich z.B. den reinen Vektortext (Polylines) in AutoCAD-Zeichnungen indizierbar machen.
oggi
Newbie
 
Beiträge: 17
Registriert: 22.02.2006, 21:05

Re: Was kann PdfBoxPreparator tun?

Beitragvon schisshaas » 11.01.2010, 06:52

Guter ansatz als workaround ich probier das auch mal :wink:
Dann fehlt ja blos noch was für Bilder :roll:
schisshaas
Newbie
 
Beiträge: 9
Registriert: 13.10.2009, 06:58


Zurück zu regain

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron