Endlosschleife beim Crawlen

Verbesserungsvorschläge, Fragen oder Probleme zu regain

Moderatoren: itebob, thtesche

Endlosschleife beim Crawlen

Beitragvon weigi » 09.12.2009, 14:20

Hallo, ich erhalte beim Crawlen eine Endlosschleife mit dieser Fehlermeldung:
Invalid dictionary, found:? but expected:''
Das scheint mir auf ein Problem mit der PDFBox zu deuten. Kann man das irgendwie umgehen?
weigi
 

Re: Endlosschleife beim Crawlen

Beitragvon Christoph » 25.01.2010, 16:45

Hallo,

ich habe exakt dasselbe Problem, hier die Ausgabe vom Crawler:
file://d%3A//Themen_Projekte/Versorgung ... orgung.pdf
16:32:37: Bad Dictionary Declaration org.apache.pdfbox.io.PushBackInputStream@aa780b
16:32:37: Invalid dictionary, found:? but expected:''
16:32:37: Invalid dictionary, found:? but expected:''
16:32:37: Invalid dictionary, found:? but expected:''
16:32:37: Invalid dictionary, found:? but expected:''
Und so weiter ..

Ist hier schon eine Lösung gefunden??

Vielen Dank im Voraus!

Christoph
Christoph
 

Re: Endlosschleife beim Crawlen

Beitragvon thtesche » 03.02.2010, 17:43

Benutzt Ihr die Version 1.6.8?
thtesche
Senior Member
 
Beiträge: 253
Registriert: 18.11.2007, 15:12
Wohnort: Panketal

Re: Endlosschleife beim Crawlen

Beitragvon Christoph » 24.02.2010, 17:29

Hallo,
ich benutze die 1.6.6. Mittlerweile weiss ich, dass das Problem am PDFBoxpreparator liegt und der von apache.pdfbox abgeleitet ist.
Das PDF, welches den Endlosloop verursacht, ist etwa 4mb groß. Lässt sich auch nicht in Foxitreader und Acrobat Reader öffnen, beide sagen, die Datei ist beschädigt.
Nun kann es ja vorkommen, das soeine Datei auftaucht, aber die sollte den Crawler natürlich nicht abschießen.
Ich habe das Problem umgangen, indem ich einem Hinweis im Forum zu einer anderen Sache folgend die xdoc2txt.exe als PDF-Preparator nutze. Der hat keine Probleme mit der Datei.
Ist in 1.6.8 eine neue Version der apache.pdfbox integriert?

Danike und Gruß

Christoph
Christoph
 

Re: Endlosschleife beim Crawlen

Beitragvon weigi » 11.03.2010, 07:15

Ich nutze noch die Version 1.6.4
weigi
 

Re: Endlosschleife beim Crawlen

Beitragvon weigi » 11.03.2010, 08:53

Also ich habe jetzt die Version 1.6.8- das Problem besteht immer noch genau so. Es wird ein Verzeichnis mit PDF- Dateien gecrawlt und bei einer beginnt dann diese Schleife. Ich kann alle Dateien ohne Probleme öffnen und ansehen.
weigi
 


Zurück zu regain

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron