Und schon wieder die Umlaute

Verbesserungsvorschläge, Fragen oder Probleme zu regain

Moderatoren: itebob, thtesche

Und schon wieder die Umlaute

Beitragvon akreienbring » 04.12.2009, 16:25

:shock:

Dieses Thema taucht immer mal wieder und vielleicht kriegen wir gemeinsam einen Haken daran.

1. Ich crawle mit Regain HTML Dateien. In denen stehen deutsche Umlaute. Der AnalyserType in der CrawlerConfiguration.xml steht brav auf 'german'.

2. Ich suche nach beliebigen Begriffen -> OOPS: Im Suchergebnis sind die Umlaute durch kryptische Zeichen ersetzt worden :?:

3. Ich spiele mit den Encoding Einstellungen im Browser, im HTML META TAG -> Hilft nicht! :shock:

4. Ich schaue mit LUKE in den Index: AHA. Schon hier stehen die Umlaute garnicht mehr drin! :idea:

5. Ich mach mal ein Beispiel: In der HTML Datei (Encoding laut Metatag: UTF-8) steht
Standardmäßig
. Die Suche nach 'Standardmäßig" ergibt aber keinen Treffer! Im Index steht
Standardmäßig
. Die Suche nach Standardmäßig bringt demzufolge auch die Treffer.

6. Ich frag mich was ich machen muß, damit im Index die deutschen Umlaute korrekt aufgenommen werden.

Und jetzt seid ihr dran :)

André
akreienbring
Newbie
 
Beiträge: 15
Registriert: 26.11.2006, 13:32

Re: Und schon wieder die Umlaute

Beitragvon akreienbring » 05.12.2009, 13:40

Ok, ich habe die Antwort in einem anderen Thread gefunden.

Wenn man regain so startet:

Code: Alles auswählen
java -Dfile.encoding=UTF-8 -jar regain.jar


wird der Index correct aufgebaut.

Jetzt frag ich mich natürlich, wenn man das so global festlegt, wie werden dann Dateien, die in unterschiedlichen encodings vorliegen indexiert? :roll:

André
akreienbring
Newbie
 
Beiträge: 15
Registriert: 26.11.2006, 13:32

Re: Und schon wieder die Umlaute

Beitragvon Tumur » 06.12.2009, 09:59

Hallo akreienbring,

Vielen dank erstmal für das Tipp, es hat funktioniert.

Aber wie baue ich ausführbare regain.exe mit diesem DOS - Befehl.

soviel ich weiß JSMOOTH ist derjenige, der die Klassenbibliotheken ins EXE - File umwandelt.

Ich habe nirrgendwo in Java-Klassen so ein Befehl geschrieben war.

Wenn ich das hinkriege, dann regain ist in unserer sprache schon fertig.

akreienbring hat geschrieben:Ok, ich habe die Antwort in einem anderen Thread gefunden.

Wenn man regain so startet:

Code: Alles auswählen
java -Dfile.encoding=UTF-8 -jar regain.jar


wird der Index correct aufgebaut.

Jetzt frag ich mich natürlich, wenn man das so global festlegt, wie werden dann Dateien, die in unterschiedlichen encodings vorliegen indexiert? :roll:

André
Tumur
 

Re: Und schon wieder die Umlaute

Beitragvon akreienbring » 06.12.2009, 13:39

Sorry,

dabei kann ich dir nicht helfen. Ich habe noch keine JAVA Klassen + Bibliotheken usw. in eine ausführbare Windows Datei umgewandelt.

Ich persönlich start das ganze auf Windows mit einem DOS Batch, bzw. auf Linux mit einem Shell Script.

A.
akreienbring
Newbie
 
Beiträge: 15
Registriert: 26.11.2006, 13:32

Re: Und schon wieder die Umlaute

Beitragvon thtesche » 13.12.2009, 15:35

Ich bin von von JSmooth auf launch4j umgestiegen. Schaue dir mal im build.xml das target public an.
Tom
thtesche
Senior Member
 
Beiträge: 253
Registriert: 18.11.2007, 15:12
Wohnort: Panketal


Zurück zu regain

Wer ist online?

Mitglieder in diesem Forum: rosamartin und 1 Gast

cron