XMP: Meister aller Daten

Die Digitalisierung in der Dokumentenverarbeitung schreitet voran: Unternehmen verschicken, empfangen und verarbeiten immer mehr Rechnungen, Schadensmeldungen, Verträge, Kündigungsbestätigungen und andere Schriftstücke elektronisch. Input- und Output-Management wachsen infolgedessen immer mehr zusammen. Dabei geht es vor allem darum, möglichst viele Prozesse zu automatisieren. Grundlage dafür sind Metadaten, also Informationen über ein Dokument (Art/Typ, Ausstellungsdatum, Absender, Bezug zu anderen Vorgängen). Metadaten sind an sich nichts Neues, man arbeitet inzwischen ganz selbstverständlich mit ihnen. Typisches Szenario im Input-Management: Man scannt Dokumente, liest ihren Inhalt per OCR (Optical Character Recognition) aus und speichert sie in der Regel in einem Archiv oder DMS. Gleichzeitig müssen mittels Barcodes, Regeln und Heuristiken die entsprechenden Metadaten ermittelt und aufbewahrt werden, um die betreffenden Dokumente korrekt zuordnen, kategorisieren und jederzeit wieder abrufen zu können. Vieles läuft anschließend noch durch eine manuelle Kontrolle, was natürlich sehr aufwändig ist.

Papier versus XML

So existieren heute letztlich zwei Grundvarianten des Dokumentenaustausches: klassisch in Papierform und rein elektronisch in einem XML- oder Edifact-Format, wo es per se ja keine entsprechende Papier-Repräsentation gibt. Aktuelle Entwicklungen wie ZUGFeRD vereinen beide Extreme in einem Format, was letztlich das Optimum darstellt. Aber da, wo man quasi als „Abfallprodukt“ aus dem klassischen Druckdatenstrom heraus einzelne PDF-Dateien generiert und an den Empfänger übermittelt, entsteht eine Lücke, wo trotz elektronischen Transfers in der Regel zu wenig Metadaten zur Verfügung stehen, um ein Dokument automatisiert verarbeiten zu können. Ergo: Wie lässt sich also der nichtstandardisierte Dokumentenaustausch stärker automatisieren?

XMP: Brücke zwischen physischem und elektronischem Austausch

An dieser Stelle kommt XMP ins Spiel (siehe auch Dossier). Ein XMP-Paket ist letztlich eine XML-Datei und definiert Richtlinien für die Einbettung der Metadaten nicht nur in PDF-Dokumente – was sicher der häufigste Anwendungsfall sein dürfte -, sondern auch für PostScript-, JPG-, PNG-, TIFF-, HTML- und AFP-Dateien. Ein großer Vorteil von XMP-Paketen: Sie enthalten einen eindeutigen Marker und sind, wo möglich, immer im Klartext abgelegt, damit auch eine Anwendung, die das spezifische Datenformat nicht versteht, die XMP-Metadaten extrahieren kann. Doch sollte man bei sensiblen Informationen wegen der Klartextform Vorsicht walten lassen.

Beispiel eines XMP-Paketes:

<?xpacket begin="" id="W5M0MpCehiHzreSzNTczkc9d"?>
<x:xmpmeta xmlns:x="adobe:ns:meta/">
 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
 <rdf:Description xmlns:dc="http://purl.org/dc/elements/1.1/" rdf:about="">
 <dc:language>de</dc:language>
 <dc:title>Whitepaper: XMP</dc:title>
 <dc:creator>Compart AG</dc:creator>
 <dc:type>Whitepaper</dc:type>
 <dc:identifier>83db4e23-e840-4b8d-b93f-c3b96cc54ae7</dc:identifier>
 <dc:subject>
 <rdf:Bag>
 <rdf:li>XMP</rdf:li>
 <rdf:li>Metadaten</rdf:li>
 </rdf:Bag>
 </dc:subject>
 <dc:date>2013-12-11T15:50:15+02:00</dc:date>
 </rdf:Description>
 <rdf:Description xmlns:pdf="http://ns.adobe.com/pdf/1.3/" rdf:about="">
 <pdf:PDFVersion>1.4</pdf:PDFVersion>
 </rdf:Description>
 <rdf:Description xmlns:xmp="http://ns.adobe.com/xap/1.0/" rdf:about="">
 <xmp:CreateDate>2013-12-11T15:50:15+02:00</xmp:CreateDate>
 <xmp:MetadataDate>2013-12-11T15:50:15+02:00</xmp:MetadataDate>
 </rdf:Description>
 </rdf:RDF>
</x:xmpmeta>
<?xpacket end="r"?>

XMP definiert einen Satz von Kerneigenschaften, die universell verwendet werden können (Titel, Erzeuger, Thema, Datum, eindeutiger Identifikator, Sprache, Beschreibung). Dafür greift XMP auf bereits vorhandene Methoden und Standards zur Beschreibung von Metadaten (Ontologien) wie Dublin Core, IPTC und Exif zurück (siehe Dossier). Darüber hinaus lassen sich mit XMP individuelle Merkmale definieren, zum Beispiel Kunden- und Policennummer, Gültigkeit eines Dokuments, Fälligkeit einer Rechnung oder Name/Version einer Dokumentvorlage.

Das Bewusstsein für XMP fehlt noch

Anwendung findet XMP derzeit vor allem im Bereich PDF/A. Der ISO-Standard enthält ja an sich schon einige Empfehlungen für die Definition und Hinterlegung von Metadaten. So macht er beispielsweise das XMP-Paket für PDF/A-Dokumente obligatorisch und rät, einen eindeutigen Identifikator zu benutzen. Desweiteren wird empfohlen, Herkunftsinformationen durch die gesamte Dokumentenverarbeitung hindurch mitzuführen, vor allem, wenn Konversionen vorgenommen werden. Alle individuellen Eigenschaften müssen bei PDF/A-Dateien über ein eingebettetes Schema beschrieben werden. Genau das könnte ein Grund sein, warum in der Praxis XMP und die ausgiebige Verwendung von Metadaten immer noch vernachlässigt werden. Dabei ist dieser Schritt weniger kompliziert, als es den Anschein hat.

Neu ist das Thema an sich nicht, schließlich denkt man nicht erst seit heute darüber nach, wie sich die Dokumentenverarbeitung Stück für Stück automatisieren lässt. Neu ist aber die Brisanz, die aus der zunehmenden Verschmelzung von Eingangs- und Ausgangsverarbeitung als Folge des elektronischen Austausches resultiert: Bisher ging es im Output-Management meistens nur darum, die eigenen Dokumente effizient und zuverlässig zu produzieren und zu verschicken. Inzwischen muss man sich aber auch auf der Ausgangsseite Gedanken darüber machen, welche Daten dem Empfänger die Verarbeitung des Dokuments vereinfachen können. Wichtig dabei: Jeder Medienbruch zieht einen Verlust an Informationen nach sich, die im Nachgang mühsam wiederhergestellt werden müssen.

Qualität der Daten ist entscheidend

Der Einsatz der richtigen Daten spart Zeit und damit Kosten – wenn auch nicht in erster Linie beim Output-Management selbst, sondern eher im Unternehmensarchiv und natürlich beim Empfänger. Langfristig gesehen fördert er aber das Bewusstsein für Metadaten überhaupt, was letztlich dem eigenen Input-Management zugutekommt. Fakt ist: Ein minimales Set an sinnvollen Informationen kann die elektronische Verarbeitung schon erheblich vereinfachen. Vor diesem Hintergrund ist XMP sicher ein wichtiger Schritt auf dem Weg zur hundertprozentigen Automatisierung auf der Eingangs- wie auf der Ausgangsseite. Natürlich ließen sich auch ohne XMP Metadaten in Dokumenten hinterlegen, allerdings nur eingeschränkt und in einer für die Verarbeitung nicht sehr hohen Qualität. Für PDF-Dokumente jedenfalls gibt es derzeit keine sinnvolle Alternative.

Dossier

XMP (Extensible Metadata Platform)

  • Standard für die Einbettung von Metadaten in digitale Dateien
  • von Adobe im Jahr 2001 veröffentlicht und erstmals in den Acrobat Reader 5 integriert.
  • Februar 2012: Veröffentlichung des Kernteils der XMP-Spezifikation als ISO-Standard ISO 16684-1

XMP basiert auf offenen Standards und bettet die vom World Wide Web Consortium veröffentlichte formale Sprache RDF (Resource Description Framework) in Binärdaten ein. Damit sollen die Metadaten in verschiedenen Applikationen nach einem einheitlichen Schema so integriert werden, dass die Dateien auch weiterhin von anderen Programmen gelesen werden können. Das Format wird von allen Adobe-Produkten, der Software anderer Hersteller sowie Anbietern von Redaktionssystemen unterstützt.

XMP definiert unter anderem:

  • die Sprache des Dokuments (eines der wichtigsten Merkmale; besonders wichtig für Menschen mit Sehbehinderung/Vorlesen des Dokuments mittels Screen Reader in der korrekten Sprache);
  • das Erstellungsdatum
  • Autor/Name der Firma (Woher kommt das Dokument?)
  • Stichworte/Keywords

RDF (Resource Description Framework)

RDF ist eine technische Herangehensweise im Internet zur Beschreibung von Ressourcen (Objekt, Position, Person) und ihrem Verhältnis zueinander. Ursprünglich wurde RDF vom World Wide Web Consortium (W3C) als Standard zur Definition von Metadaten konzipiert. Mittlerweile gilt RDF als ein grundlegender Baustein des „semantischen Webs“. RDF ähnelt den klassischen Methoden zur Modellierung von Konzepten wie UML-Klassendiagramme und Entity-Relationship-Modell.

Über Standardisierungsbestrebungen wurden häufig benutze Aussagen über ein Objekt zu sogenannten Ontologien zusammengefasst, die über einen Namensraum URI (Universal Resource Identifier) identifiziert werden. Dies ermöglicht u.a. Programmen, Daten für den Menschen sinnvoll darzustellen.

Ontologie

ist eine Sammlung von Begriffen, mit denen man Metadaten definiert, u.a. Titel, Autor, Thema, Beschreibung, Datum, Identifikator, Sprache, Ort der Aufnahme und Kameratyp (bei Bildern/Fotos)
gängige Ontologien sind Dublin Core, IPTC, Exif.

ZUGFeRD

Einheitliches Format für elektronische Rechnungen, entwickelt vom „Forum elektronische Rechnung Deutschland (FeRD)" Kombination der visuellen Repräsentation eines Dokuments mit seinen Rohdaten in einer einzigen PDF/A-3 Datei zur Vermeidung manueller Eingriffe in der automatischen Verarbeitungskette.

Compart offizieller ZUGFeRD-Unterstützer beim BMWI

Compart ist offizieller ZUGFeRD-Unterstützer

Wir unterstützen das Forum elektronische Rechnung Deutschland (FeRD) unter dem Dach vom Bundesministerium für Wirtschaft und Energie (BMWi)
www.ferd-net.de

Wir freuen uns auf Ihren Kontakt

Mit der Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir Cookies verwenden. Weiter