Metadaten erstellen und auslesen
bei Digitalisierung und Verarbeitungsprozessen
XMP: Meister aller Daten
Die Digitalisierung in der Dokumentenverarbeitung schreitet voran: Unternehmen verschicken, empfangen und verarbeiten immer mehr Rechnungen, Schadensmeldungen, Verträge, Kündigungsbestätigungen und andere Schriftstücke elektronisch. Inputmanagement und Outputmanagement wachsen infolgedessen immer mehr zusammen. Dabei geht es vor allem darum, möglichst viele Prozesse zu automatisieren. Grundlage dafür sind Metadaten, also Informationen über ein Dokument (Art/Typ, Ausstellungsdatum, Absender, Bezug zu anderen Vorgängen). Metadaten sind an sich nichts Neues, man arbeitet inzwischen ganz selbstverständlich mit ihnen. Typisches Szenario im Input-Management: Man scannt Dokumente, liest ihren Inhalt per OCR (Optical Character Recognition) aus und speichert sie in der Regel in einem Archiv oder DMS. Gleichzeitig müssen mittels Barcodes, Regeln und Heuristiken die entsprechenden Metadaten ermittelt und aufbewahrt werden, um die betreffenden Dokumente korrekt zuordnen, kategorisieren und jederzeit wieder abrufen zu können. Vieles läuft anschließend noch durch eine manuelle Kontrolle, was natürlich sehr aufwändig ist.
Papier versus XML
So existieren heute letztlich zwei Grundvarianten des Dokumentenaustausches: klassisch in Papierform und rein elektronisch in einem XML- oder Edifact-Format, wo es per se ja keine entsprechende Papier-Repräsentation gibt. Aktuelle Entwicklungen wie ZUGFeRD vereinen beide Extreme in einem Format, was letztlich das Optimum darstellt. Aber da, wo man quasi als „Abfallprodukt“ aus dem klassischen Druckdatenstrom heraus einzelne PDF-Dateien generiert und an den Empfänger übermittelt, entsteht eine Lücke, wo trotz elektronischen Transfers in der Regel zu wenig Metadaten zur Verfügung stehen, um ein Dokument automatisiert verarbeiten zu können. Ergo: Wie lässt sich also der nichtstandardisierte Dokumentenaustausch stärker automatisieren?
XMP: Brücke zwischen physischem und elektronischem Austausch
An dieser Stelle kommt XMP ins Spiel (siehe auch Dossier). Ein XMP-Paket ist letztlich eine XML-Datei und definiert Richtlinien für die Einbettung der Metadaten nicht nur in PDF-Dokumente – was sicher der häufigste Anwendungsfall sein dürfte -, sondern auch für PostScript-, JPG-, PNG-, TIFF-, HTML- und AFP-Dateien. Ein großer Vorteil von XMP-Paketen: Sie enthalten einen eindeutigen Marker und sind, wo möglich, immer im Klartext abgelegt, damit auch eine Anwendung, die das spezifische Datenformat nicht versteht, die XMP-Metadaten extrahieren kann. Doch sollte man bei sensiblen Informationen wegen der Klartextform Vorsicht walten lassen.
XMP definiert einen Satz von Kerneigenschaften, die universell verwendet werden können (Titel, Erzeuger, Thema, Datum, eindeutiger Identifikator, Sprache, Beschreibung). Dafür greift XMP auf bereits vorhandene Methoden und Standards zur Beschreibung von Metadaten (Ontologien) wie Dublin Core, IPTC und Exif zurück (siehe Dossier). Darüber hinaus lassen sich mit XMP individuelle Merkmale definieren, zum Beispiel Kunden- und Policennummer, Gültigkeit eines Dokuments, Fälligkeit einer Rechnung oder Name/Version einer Dokumentvorlage.
Das Bewusstsein für XMP fehlt noch
Anwendung findet XMP derzeit vor allem im Bereich PDF/A. Der ISO-Standard enthält ja an sich schon einige Empfehlungen für die Definition und Hinterlegung von Metadaten. So macht er beispielsweise das XMP-Paket für PDF/A-Dokumente obligatorisch und rät, einen eindeutigen Identifikator zu benutzen. Desweiteren wird empfohlen, Herkunftsinformationen durch die gesamte Dokumentenverarbeitung hindurch mitzuführen, vor allem, wenn Konversionen vorgenommen werden. Alle individuellen Eigenschaften müssen bei PDF/A-Dateien über ein eingebettetes Schema beschrieben werden. Genau das könnte ein Grund sein, warum in der Praxis XMP und die ausgiebige Verwendung von Metadaten immer noch vernachlässigt werden. Dabei ist dieser Schritt weniger kompliziert, als es den Anschein hat.
Neu ist das Thema an sich nicht, schließlich denkt man nicht erst seit heute darüber nach, wie sich die Dokumentenverarbeitung Stück für Stück automatisieren lässt. Neu ist aber die Brisanz, die aus der zunehmenden Verschmelzung von Eingangs- und Ausgangsverarbeitung als Folge des elektronischen Austausches resultiert: Bisher ging es im Output-Management meistens nur darum, die eigenen Dokumente effizient und zuverlässig zu produzieren und zu verschicken. Inzwischen muss man sich aber auch auf der Ausgangsseite Gedanken darüber machen, welche Daten dem Empfänger die Verarbeitung des Dokuments vereinfachen können. Wichtig dabei: Jeder Medienbruch zieht einen Verlust an Informationen nach sich, die im Nachgang mühsam wiederhergestellt werden müssen.
Qualität der Daten ist entscheidend
Der Einsatz der richtigen Daten spart Zeit und damit Kosten – wenn auch nicht in erster Linie beim Output-Management selbst, sondern eher im Unternehmensarchiv und natürlich beim Empfänger. Langfristig gesehen fördert er aber das Bewusstsein für Metadaten überhaupt, was letztlich dem eigenen Input-Management zugutekommt. Fakt ist: Ein minimales Set an sinnvollen Informationen kann die elektronische Verarbeitung schon erheblich vereinfachen. Vor diesem Hintergrund ist XMP sicher ein wichtiger Schritt auf dem Weg zur hundertprozentigen Automatisierung auf der Eingangs- wie auf der Ausgangsseite. Natürlich ließen sich auch ohne XMP Metadaten in Dokumenten hinterlegen, allerdings nur eingeschränkt und in einer für die Verarbeitung nicht sehr hohen Qualität. Für PDF-Dokumente jedenfalls gibt es derzeit keine sinnvolle Alternative.