DMS Datenraum

Hotline Blog: Office Manager DMS

Dokumentenmanagement und digitale Archivierung

Aug
01
2011

Welche OCR-Texterkennung soll ich nehmen?

Kategorie: OCR-Texterkennung   |  1 Kommentar
Support-Recherche: Einstellungen, Thema OCR


Ich verwende den Office Manager vor allem für die Archivierung von Papierdokumenten. Reicht die mitgelieferte OCR-Software ‚Tesseract‘ aus oder soll ich eine kommerzielle Lösung hinzukaufen?

Tesseract ist eine Open Source-Software, die im Office Manager-Installationspaket enthalten ist und somit immer zur Verfügung steht. Die Erkennungsergebnisse sind i.d.R. gut, aber stark von der Scan-Qualität abhängig. Flecken oder Raster hinter dem Text führen zu schlechten Ergebnissen. Bei Verwendung als reine Zeichenerkennung ohne Wörterbuch und Training kommt es beispielsweise zu klassischen Verwechselungen zwischen 0 und O, i und l.

Wenn Sie viel scannen und die Volltextsuche im Archivierungsprogramm verwenden, dann sollten Sie den Kauf einer kommerziellen OCR-Software in Betracht ziehen. Im Office Manager können Sie unter anderem folgende Programme verwenden:

  • Nuance OmniPage
  • ABBYY FineReader for ScanSnap
  • ABBYY FineReader Corporate mit HotFolder-Funktion
  • ReadIRIS mit überwachtem Ordner
  • Transym OCR
  • MODI (nur im 32 Bit Office Manager)

Falls Sie einen Fujitsu ScanSnap für die Archivierung verwenden, dann installieren Sie bitte auch den beiliegenden ABBYY FineReader und aktivieren Sie diesen im Office Manager. Wenn Sie noch keine passende OCR haben, dann empfehlen wir den Kauf von OmniPage. Es muss auch nicht unbedingt die neueste Version sein, wir haben OmniPage ab 16.0 mit dem Office Manager getestet.

Siehe auch
Test von OCR-Programmen für die Archivierung
OCR-Einstellungen im Office Manager
Tesseract Diskussionsforum




Ein Kommentar

Eigenen Kommentar schreiben oder eine Rückfrage stellen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können folgende HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>