Dieses Thema taucht immer mal wieder und vielleicht kriegen wir gemeinsam einen Haken daran.
1. Ich crawle mit Regain HTML Dateien. In denen stehen deutsche Umlaute. Der AnalyserType in der CrawlerConfiguration.xml steht brav auf 'german'.
2. Ich suche nach beliebigen Begriffen -> OOPS: Im Suchergebnis sind die Umlaute durch kryptische Zeichen ersetzt worden
3. Ich spiele mit den Encoding Einstellungen im Browser, im HTML META TAG -> Hilft nicht!
4. Ich schaue mit LUKE in den Index: AHA. Schon hier stehen die Umlaute garnicht mehr drin!
5. Ich mach mal ein Beispiel: In der HTML Datei (Encoding laut Metatag: UTF-8) steht
. Die Suche nach 'Standardmäßig" ergibt aber keinen Treffer! Im Index stehtStandardmäßig
. Die Suche nach Standardmäßig bringt demzufolge auch die Treffer.Standardmäßig
6. Ich frag mich was ich machen muß, damit im Index die deutschen Umlaute korrekt aufgenommen werden.
Und jetzt seid ihr dran
André
