Alle Storys
Folgen
Keine Story von Archivista GmbH mehr verpassen.

Archivista GmbH

ArchivistaBox 2008/IX: Weltweit erste OpenSource-Texterkennung mit durchsuchbaren PDF-Dateien

Pfaffhausen (ots)

Die Schweizer OpenSource-Firma Archivista
veröffentlicht mit der ArchivistaBox 2008/IX die weltweit erste
OpenSource-Texterkennung, welche durchsuchbare PDF-Dateien erstellen
kann.
Gängige Texterkennungsprogramme (OCR) laufen derzeit fast
ausschliesslich unter Windows und sind ab Preisen von ca. 100 Euro an
aufwärts käuflich zu erwerben. Geht es darum Tausende oder Millionen
von Seiten zu verarbeiten, so fallen kostspielige Volumenlizenzen an,
d.h. bezahlt wird pro erkannte Seite.
Die ArchivistaBox ist ein webbasiertes DMS-System
(Dokumenten-Management), das auf jedem handelsüblichen Rechner
installiert werden kann. Je nach Hardware können dabei Seitenvolumen
von einigen Tausend Seiten bis in den Millionenbereich pro Tag
verarbeitet werden.
Das neue Release 2008/IX beinhaltet die weltweit erste
OpenSource-Texterkennung, welche direkt aus gescannten Seiten
durchsuchbare PDF-Dateien erstellen kann. Dabei stehen mehr als 20
Sprachen zur Verfügung. Die Erkennungsqualität ist mit kommerziellen
OCR-Programmen gut und gerne vergleichbar (>99 Prozent).
Mit der ArchivistaBox erstellte PDF-Dateien werden direkt in einer
Archivista-Datenbank abgelegt und automatisch beschlagwortet, d.h. es
kann über den gesamten Dokumentenbestand recherchiert werden. Einmal
erfasste Dokumente sind jederzeit mit einem Webbrowser abrufbar.
Sensitive Daten können verschlüsselt zur Verfügung gestellt werden.
Bei Bedarf erstellt die ArchivistaBox fertige DVD-Publikationen
(selbsttragende Archive).
Die Quellen der ArchivistaBox liegen zu 100 Prozent in der
GPLv2-Lizenz vor. Für die Texterkennung stehen Tesseract (inkl.
Frakturerkennung) und der Linux-Port von Cuneiform (BSD-Lizenz) zur
Verfügung. Die durchsuchbaren PDF-Dateien werden mit dem
Hilfsprogramm hocr2pdf erstellt (siehe www.exactcode.de) .
Die aktuelle ArchivistaBox 2008/IX wird am 24. September 2008 auf
der MediaMit in Kaiserslauten (KaMUX-Stand) sowie am 24./25.
September 2008 auf der OpenExpo in Winterthur (Archivista-Stand)
präsentiert. Die ca. 700 MByte grosse Installations-CD steht unter
www.archivista.ch oder https://sourceforge.net/projects/archivista/
zum Download bereit.

Kontakt:

Urs Pfister
Archivista GmbH
Tel.: +41/44/254'54'00
E-Mail: webmaster@archivista.ch