DMS Datenraum

Hotline Blog: Office Manager DMS

Dokumentenmanagement und digitale Archivierung

Jan
21
2011

OCR-Texterkennung und Volltextindex überprüfen


Der heutige Freitag war eher ruhig. Eine telefonische Frage ist aber nennenswert.

Es ging um die Digitalisierung von AGB, die auf den Rückseiten der Rechnungen in kleiner Schrift und hellem Grau gedruckt sind. Gescannt wurde nicht über TWAIN/WIA, sondern mit einem Netzwerk-Multifunktionsgerät, das die eingelesenen Seiten selbsttätig in ein PDF-Dokument schreibt. Der Office Manager importiert diese PDF, startet die Texterkennung und indexiert den Inhalt für die Suche.

Bei Tests hatte sich gezeigt, dass manche AGB für die OCR-Software viel zu hell erfasst waren und keine Wörter erkannt wurden. Der Scan war auch auf dem Bildschirm nur schwer zu lesen.

Neben den Einstellungen des Scanners (Schwellwert für schwarz/weiß oder alternativ in Graustufen scannen) ging es vor allem um eine Kontrollfunktion für die OCR-Erkennung:

Die indexierten Wörter einzelner Dokumente können über den Menübefehl Info Volltextindex im Administratormenü abgefragt werden. Alternativ kann im Office Manager ab Version 10.0 auch eine Tabellenspalte mit der Indexinfo eingeblendet werden:

Dies bietet eine schnelle Kontrolle. Über die Sortierung werden Dokumente mit wenigen Wörtern überprüft. Die entsprechende Spalte können Sie mit dem Befehl Datei | Datenbank | Anpassen | Felder definieren erstellen. Siehe hierzu auch im FAQ-Artikel.




Noch keine Kommentare

Eigenen Kommentar schreiben oder eine Rückfrage stellen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können folgende HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>