Wir speichern die Archivdatenbanken auf einem MS SQL Server und nutzen auch dessen Volltextkataloge für die Suche. Eines stört aber dabei: Der Unterstrich wird nicht als Trennzeichen interpretiert. Kann man das ändern?
Ab SQL Server 2016 brauchen Sie diesen Artikel nicht mehr zu beachten. Die neue Version 2016 trennt auch bei deutscher Spracheinstellung am Unterstrich.
Beispiel
Wenn der Text „Dokumenten-Management“ in einem Dokument enthalten ist, dann wird dieses bei einer Volltextsuche nach „Management“ gefunden. Ist allerdings nur „Dokumenten_Management“ (mit Unter- statt Bindestrich) im Text enthalten, dann wird es bei der Suche nach „Management“ nicht gefunden.
Hintergrund
Die MS SQL Volltextindexierung speichert bei „Dokumenten-Management“ folgende Wörter für die spätere Suche:
- Dokumenten
- Management
- Dokumentenmanagement
Bei „Dokumenten_Management“ aber nur
- Dokumenten_Management
Man kann dies übrigens auch mit einem SQL-Befehl überprüfen:
select display_term from sys.dm_fts_parser('"Der_zu-überprüfende Text"', 1031, 0, 0)
Leider kann man nicht einfach ein gewünschtes Zeichen, wie den Unterstrich, als zusätzliches Trennzeichen definieren.
Language for Word Breaker
Der SQL-Server nutzt sprachspezifische Funktionen für die Worttrennung. Der Unterstrich ist in den westlichen Sprachen kein Trennzeichen. Es gibt aber einige asiatische Sprachen, bei denen Wörter am Unterstrich getrennt werden – so als wäre es ein Leerzeichen.
Die Spracheinstellung kann mit dem Management Studio vorgenommen werden:
Den Knoten der gewünschten Datenbank öffnen, Speicher, Volltextkataloge und Doppelklick auf den Katalog. Auf der Seite Tabellen sind die zu indexierenden Spalten aufgeführt. Dort kann die Sprache für die Worttrennung gewählt werden. „1028 – Chinesisch“ trennt beispielsweise am Unterstrich.
Allerdings wird dann auch der Bindestrich als einfache Worttrennung betrachtet. Entgegen dem o. g. Beispiel werden aus „Dokumenten-Management“ dann nur noch die beiden Einzelwörter indexiert.
Sie müssen hier abwägen, ob Sie zugunsten der Unterstrich-Trennung auf die ansonsten sinnvollen Worttrennungen und -Zusammenfassungen verzichten können.
Weitere Informationen
Microsoft: Auswählen einer Sprache beim Erstellen eines Volltextindex
Office Manager: Volltextsuche des MS SQL-Servers verwenden
Eigenen Kommentar schreiben oder eine Rückfrage stellen