Eine der bekanntesten Anwendungen dafür ist Wikidata, die Wissensdatenbank der Online-Enzyklopädie Wikipedia, in der zig Millionen Fakten mittlerweile gespeichert sind. Wer beispielsweise wissen will, wie viele Bundesligaspieler, die in Berlin geboren wurden, mit ägyptischen Frauen verheiratet sind, wird hier bestimmt fündig. Sicher – ein sehr außergewöhnliches Beispiel, das aber die Bedeutung des Themas deutlich macht. Ziel ist es, aus strukturierten Daten über Algorithmen (Ontologien) neue Zusammenhänge/Erkenntnisse zu gewinnen. Hier kommt dann auch künstliche Intelligenz (KI) ins Spiel, über die man dann komplexe Abfragen formulieren kann (siehe dazu das „Glossar“).
Ein weiteres wichtiges Thema in diesem Zusammenhang: Die mit einer Struktur versehenen, gespeicherten Daten müssen überprüft werden – was heute ganz oft nicht gemacht wird. Dabei gibt es mit dem XML-Schema beispielsweise eine bewährte Methode, um die Korrektheit und Vollständigkeit einer XML-Datei zu garantieren. Fehler, die durch nicht geprüfte Daten entstehen, können sehr gravierend sein.
Daher ist eine konsequente Datenprüfung unerlässlich. Last but not least gilt es, die Daten auch ineinander zu überführen, und zwar über Regeln. Auch dafür existieren heute viele Möglichkeiten, eine der bekanntesten ist sicher die Programmiersprache XSLT (siehe auch das „Glossar“). Aber es gibt auch andere Regelwerke.
Statt Content zu vernichten...
Wer also den Automatisierungsgrad von Abläufen in der Kundenkommunikation im Sinne der nächsten Stufe der Digitalisierung weiter erhöhen will, muss für strukturierte, konsistente und zentral verfügbare Daten sorgen. Für das Dokumenten- und Output-Management bedeutet das, den Content von Dokumenten von Beginn an möglichst komplett zu erhalten statt ihn zu vernichten – wie beispielsweise häufig im elektronischen Posteingang von Unternehmen zu beobachten ist.
Das Problem hier: Noch immer werden in vielen Unternehmen eingehende E-Mails „vertifft“, also in ein Bildformat umgewandelt, um anschließend mittels OCR-Technologie Teile des Dokumenteninhalts wieder interpretierbar zu machen. Das ist „tiefstes Dokumenten-Mittelalter“. Es verschleißt unnötig Ressourcen, vor allem, wenn man bedenkt, dass heutzutage E-Mail-Anhänge recht komplexe Dokumente mit zig Seiten sein können.
Vor allem aber kommt dieser Medienbruch einem „Daten-Gau“ gleich: Da werden elektronische Dokumente (E-Mails), die an sich von IT-Systemen gelesen und verarbeitet werden könnten, erst einmal in TIFF-, PNG oder JPG-Dateien umgewandelt. Aus Content entstehen also „Pixelwolken“. Mit anderen Worten: Der eigentliche Inhalt wird erst verschlüsselt (Rasterbilder) und dann wieder mittels Optical Character Recognition (OCR) mühsam „lesbar“ gemacht. Das geht mit dem Verlust von semantischen Strukturinformationen einher, die aber für eine spätere Wiederverwendung notwendig sind.
Wie schön wäre es doch, wenn man E-Mail-Anhänge gleich welchen Typs beispielsweise sofort nach Eingang in strukturierte PDF konvertieren könnte? Damit wäre die Grundlage für eine langfristige, revisionssichere Archivierung gelegt; schließlich ist die Umwandlung von PDF nach PDF/A nur ein kleiner Schritt.
...lieber erhalten als Grundlage für weitere Automatisierung
Dazu folgendes Beispiel: Ein führender deutscher Versicherungskonzern bekommt über ein zentrales elektronisches Postfach täglich zig Tausende E-Mails, sowohl von Endkunden als auch von ex- und internen Vertriebspartnern. Sofort nach Empfang werden vom System automatisch die folgenden Prozesse „angestoßen“:
- Konvertierung der eigentlichen E-Mail („Body“) nach PDF/A
- Individuelle Konvertierung des E-Mail-Anhangs (z. B. verschiedene Office-Formate, Bilddateien wie TIFF, JPG etc.) nach PDF/A
- Zusammenführung des E-Mail-Body mit den entsprechenden Anhängen und Generierung einer einzelnen PDF/A-Datei pro Geschäftsvorgang
- Gleichzeitig werden aus der Datei alle wichtigen Informationen ausgelesen (extrahiert) und zentral für nachgelagerte Prozesse vorgehalten (z. B.
- Generierung von Antwortschreiben auf KI-Basis, fallabschließende Sachbearbeitung, Archivierung)
Alles läuft automatisiert und ohne Medienbruch. Der Sachbearbeiter bekommt das Dokument in einem standardisierten Format, ohne dass er sich um die Aufbereitung (klassifizieren, lesbar machen) kümmern muss.