DMS Datenraum

Hotline Blog: Office Manager DMS

Dokumentenmanagement und digitale Archivierung

Mrz
23
2011

OCR-Sicherungskopien deaktivieren


Bei den gescannten Dokumenten gibt es neben der PDF-Datei immer auch eine *.~pdf. Wie kommt das und kann ich die Dateien löschen?

Warum Sicherungskopien erstellt werden

Als flexible Archivierungssoftware unterstützt der Office Manager verschiedene OCR-Texterkennungsprogramme, beispielsweise OmniPage, FineReader und Tesseract. Diese Programme bieten individuelle Optionen, die vom Anwender auch falsch oder für die Archivierung ungeeignet eingestellt werden können:

Zum Beispiel kann die OCR ein Text-Dokument erstellen und das gescannte Abbild dabei verwerfen. Für die Archivierung muss das Bild aber erhalten bleiben, der erkannte Text dient nur der Volltextrecherche im Dokumentenarchiv. Die beste Option ist hierfür ein PDF-Dokument mit „Text unter dem Seitenbild“.

OCR-Programme bieten die Möglichkeit, leere Seiten automatisch zu löschen. Es besteht dabei die Gefahr, dass eine fast leere Seite, die z.B. nur ein einzelnes Zeichen beinhaltet, entfernt wird.

Die .~pdf-Kopien dienen der Datensicherheit. Sie können auf diese zurückgreifen, falls OCR mit ungeeigneten Einstellungen ausgeführt wurde. Wenn Sie mit der Archivierung neu beginnen oder auf eine andere Texterkennungssoftware umgestiegen sind, sollten die Dateien erst einmal erhalten bleiben.

Sicherungen löschen

Sobald Sie Erfahrungen gesammelt und die von der OCR erstellten Dateien geprüft haben, können Sie die Dateien mit der Endung .~pdf löschen.

OCR-Sicherungskopien deaktivieren

Wenn Sie die Sicherungen nicht benötigen, dann können Sie -bzw. Ihr Administrator- die Sicherungsfunktion deaktivieren. Hierzu wird folgender Eintrag in der Konfigurationsdatei admin.ini hinterlegt:

[FullTextIndex]
OcrCreateBackup=0

Wir empfehlen aber, diese Option nicht zu deaktivieren. Sie bietet eine zusätzliche Datensicherung.




Noch keine Kommentare

Eigenen Kommentar schreiben oder eine Rückfrage stellen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können folgende HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>