DMS Datenraum

Hotline Blog: Office Manager DMS

Dokumentenmanagement und digitale Archivierung

Jul
29
2015

Volltextsuche des MS SQL Servers soll am Unterstrich trennen

Kategorie: Suchen
Support-Recherche: MS SQL Server, Volltextsuche


Wir speichern die Archivdatenbanken auf einem MS SQL Server und nutzen auch dessen Volltextkataloge für die Suche. Eines stört aber dabei: Der Unterstrich wird nicht als Trennzeichen interpretiert. Kann man das ändern?

Ab SQL Server 2016 brauchen Sie diesen Artikel nicht mehr zu beachten. Die neue Version 2016 trennt auch bei deutscher Spracheinstellung am Unterstrich.

Beispiel

Wenn der Text „Dokumenten-Management“ in einem Dokument enthalten ist, dann wird dieses bei einer Volltextsuche nach „Management“ gefunden. Ist allerdings nur „Dokumenten_Management“ (mit Unter- statt Bindestrich) im Text enthalten, dann wird es bei der Suche nach „Management“ nicht gefunden.

Hintergrund

Die MS SQL Volltextindexierung speichert bei „Dokumenten-Management“ folgende Wörter für die spätere Suche:

  1. Dokumenten
  2. Management
  3. Dokumentenmanagement

Bei „Dokumenten_Management“ aber nur

  1. Dokumenten_Management

Man kann dies übrigens auch mit einem SQL-Befehl überprüfen:

select display_term from sys.dm_fts_parser('"Der_zu-überprüfende Text"', 1031, 0, 0)

Leider kann man nicht einfach ein gewünschtes Zeichen, wie den Unterstrich, als zusätzliches Trennzeichen definieren.

Language for Word Breaker

Der SQL-Server nutzt sprachspezifische Funktionen für die Worttrennung. Der Unterstrich ist in den westlichen Sprachen kein Trennzeichen. Es gibt aber einige asiatische Sprachen, bei denen Wörter am Unterstrich getrennt werden – so als wäre es ein Leerzeichen.

Die Spracheinstellung kann mit dem Management Studio vorgenommen werden:

Den Knoten der gewünschten Datenbank öffnen, Speicher, Volltextkataloge und Doppelklick auf den Katalog. Auf der Seite Tabellen sind die zu indexierenden Spalten aufgeführt. Dort kann die Sprache für die Worttrennung gewählt werden. „1028 – Chinesisch“ trennt beispielsweise am Unterstrich.

Allerdings wird dann auch der Bindestrich als einfache Worttrennung betrachtet. Entgegen dem o. g. Beispiel werden aus „Dokumenten-Management“ dann nur noch die beiden Einzelwörter indexiert.

Sie müssen hier abwägen, ob Sie zugunsten der Unterstrich-Trennung auf die ansonsten sinnvollen Worttrennungen und -Zusammenfassungen verzichten können.

Weitere Informationen

Microsoft: Auswählen einer Sprache beim Erstellen eines Volltextindex

Office Manager: Volltextsuche des MS SQL-Servers verwenden




Noch keine Kommentare

Eigenen Kommentar schreiben oder eine Rückfrage stellen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können folgende HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>