Metadaten und Dokumente - einmal hin und wieder zurück

Compart | 20.07.2020

Wie sieht die klassische Dokumentenverarbeitung heute aus?

Da werden zunächst aus den Fachanwendungen die Rohdaten bzw. Metadaten eines Vorgangs in für den Menschen lesbare Inhalte umgewandelt (Composition), dann formatiert, also als A4-Dokument aufbereitet, gedruckt und schließlich an den Empfänger geschickt. Dort geht es dann den gesamten Weg zurück, also Scannen, Analyse/Texterkennung per OCR (Optical Character Recognition), De-Formatieren des Dokuments und schließlich die Metadaten auslesen.

Oder: Digitale Dokumente, die an sich von Maschinen gelesen und verarbeitet werden könnten, bringt man erst in eine analoge Form (Druck) und wandelt sie in TIF- oder JPG-Dateien um. Aus Content entstehen also „Pixelwolken“. Der eigentliche Inhalt wird erst verschlüsselt (Rasterbilder) und dann wieder mittels OCR „lesbar“ gemacht. Das ist nicht nur umständlich, sondern geht mit dem Verlust von semantischen Strukturinformationen einher, die für eine spätere Wiederverwendung notwendig sind.

Ohne Metadaten keine Strukturinformationen

Das Problem: Dieser Weg orientiert sich am Seitenformat A4. Es eignet sich zwar für Druck, Fax und Archiv – wohl aber kaum für mobile Endgeräte und fürs Web. Viel besser wäre es doch, nur die Rohdaten zu transferieren. Mit anderen Worten: Erstellung und Versand eines Dokuments müssen außerhalb der jeweiligen Fachanwendung stattfinden. Das heißt: Die Wahl der Seitengröße und des Ausgabekanals erfolgt nicht in der Fachanwendung, sondern von ihr losgelöst zu einem viel späteren Zeitpunkt als heute allgemein üblich.

Ist PDF-Versand noch zeitgemäß?

Sicher ist die Umstellung auf den inzwischen allgemein üblichen elektronischen PDF-Versand ein wichtiger Schritt, um den eingangs beschriebenen Kreislauf „abzukürzen“. Es ist aber eben nur ein Anfang. Denn was nützt ein PDF-Dokument, wenn man keine Metadaten erstellen und ihm für die mehrkanalfähige Aufbereitung beigeben kann? Gut: Technologien wie XMP und ZUGFeRD sind gerade deshalb entwickelt worden, um Metadaten zu erstellen und in einem elektronischen Dokument zu hinterlegen, auf Empfängerseite automatisch die Metadaten auszulesen und in die jeweilige Fachanwendung (ERP, CRM etc.) zu übernehmen. Auf diese Weise soll die Automatisierung in der Dokumentenverarbeitung weiter forciert werden.

Doch das Ende der Fahnenstange ist damit noch lange nicht erreicht – zumal auch PDF auf A4 basiert und daher für den Versand zum Beispiel auf mobilen Endgeräten wieder mühsam „de-formatiert“ werden muss. Es wäre hier also nicht viel gewonnen, denn gerade Prozesse wie De-Formatierung und „De-Composition“ sind komplex und meist nur mit teuren Tools machbar.

Infobox

Lesedauer: 6 Min

Ist PDF-Versand noch zeitgemäß?
Drehscheibe für die Daten
Empfänger bestimmen den Kommunikationskanal
Daten und Dokumente

Drehscheibe für die Daten

Wie sieht also die Dokumentenverarbeitung der Zukunft aus? Die eleganteste Methode ist zweifelsohne, eine Schnittstelle zu den reinen Daten zu schaffen, losgelöst von Seitenformat, Layout und Kanal. Denn nur so lassen sich Dokumente jedes Typs und Formats auch wirklich für alle digitalen und physikalischen Kommunikationswege effizient aufbereiten. Für Unternehmen bedeutet das: Sie müssen Erstellung und Versand voneinander trennen und eine zentrale Dokumenten- und Output-Management-Instanz etablieren. Mit dem Auslesen und Verarbeiten der Metadaten werden zudem die relevanten Strukturinformationen aller Dokumente beibehalten.

Diese „Drehscheibe“ entscheidet auf Grund von definierten Regeln und Kriterien der Fachabteilungen (z. B. Vertrieb, Marketing, Service), welche Daten in welchem Layout und Format auf welchem Kanal ausgegeben werden; natürlich immer bezogen auf den jeweiligen Empfänger.

Diese Zentralisierung hat nicht nur den Vorteil, dass der Sachbearbeiter entlastet wird – schließlich soll er sich auf sein Kerngeschäft konzentrieren. Vielmehr bekommt man einen zuverlässigen Überblick darüber, welche Dokumente das Unternehmen in einem bestimmten Zeitraum verlassen haben. Das kann man dann natürlich nach verschiedenen Kriterien selektieren. Dieses Monitoring ist ein nicht zu unterschätzender Nutzen, denn viele Firmen wissen nicht genau, wie viel insgesamt gedruckt, gefaxt und elektronisch versendet wird. Was fehlt, ist der 360-Grad-Blick im Dokumentenmanagement.

Empfänger und Vorgang bestimmen den Kanal

Streng genommen bedeutet Multi-Channel-Kommunikation also die Loslösung von einem bestimmten Seitenformat, damit jedes Dokument auf jedem Kanal ohne „teure“ Umwege wie De-Formatierung etc. ausgegeben werden kann.

Worauf kommt es bei moderner Kundenkommunikation an?

White Paper über Omnichannel-Kommunikation, Automatisierung, Mehrsprachigkeit und Barrierefreiheit.

Denn heute kommunizieren Kunden ja auf unterschiedlichen Kanälen mit einem Unternehmen: So will Herr X. beispielsweise seine Versicherungspolice nach wie vor als Papierdokument haben, seine monatliche Abbuchungsmitteilung aber als E-Mail-Anhang oder am besten gleich auf sein Smartphone. Mit anderen Worten: Die Wahl des jeweiligen Versandmediums wird bei jedem Geschäftsvorgang neu entschieden. Und das kann eben nur in einer zentralen Verarbeitung erfolgen, in der alle dokumentenbezogenen Kommunikationswege zusammenlaufen; zumal man damit auch flexibler bei der Anbindung neuer Kanäle ist.

In diesem Zusammenhang hat HTML5 der modernen Dokumentenverarbeitung sicher den Weg bereitet. Die textbasierte Auszeichnungssprache gibt schon heute auf mobilen Plattformen wie iPhone, iPad und Android-Geräten den Ton an. Kein Wunder, Inhalte in HTML5 können problemlos für alle elektronischen Ausgabekanäle aufbereitet werden, für Smartphone & Co. genauso wie als Webseite. Und wer es trotzdem weiter gedruckt mag – diese Option bleibt ja nach wie vor.

Auch die Konvertierung in PDF-Dateien ist möglich. HTML5 ist derzeit das intelligenteste Format für die größen- und kanalunabhängige Erstellung und Darstellung von Dokumenten.

Es ermöglicht eine dynamische, größenabhängige Darstellung, beispielsweise von A4 zum Smartphone-Display, die Konvertierung beliebiger Layouts in textorientierte Formate, die Extraktion von Einzeldaten (u.a. Rückgewinnung von Rechnungspositionen) und den Aufbau von Inhaltsverzeichnissen und Indexlisten.

Was sind Daten, was sind Dokumente?

Fakt ist: In Zeiten von Multi-Channel ist das „Malen“ von A4-Seiten mittels Page-Composition-Tools der falsche Weg, weil das Ziellayout alles zwischen zwei und 24 Zoll sein kann. Stattdessen sollte man in eine Dokumentenlogistik investieren, die in der Lage ist, die Daten der jeweiligen Fachanwendung entgegenzunehmen und sie empfänger- und kanalgerecht aufzubereiten. Gefragt ist also eine IT, die den gesamten Kreislauf der Dokumentenbewirtschaftung in einem zentralen System abbildet, und zwar für alle Applikationen, die Dokumente produzieren.

Omnichannel Output Management

Lesen Sie mehr: Eine zentrale Instanz für die gesamte Kundenkommunikation. Automatisiert, Nachvollziehbar. Barrierefrei.

Dazu hinterlegt man mittels Geschäftslogik klar definierte Regeln für das Corporate Design, die Ausgabeformate und Hinweise, um Metadaten zu erstellen bzw. auszulesen. Dabei wird die Frage, was Daten und was Dokumente sind, immer wichtiger. Nicht immer ist dabei eine klare Grenze zu ziehen, doch sollte man sich im Klaren darüber sein: Je weiter die Entscheidung über den Ausgabekanal in der Dokumentenlogistik nach hinten rückt bzw. je stärker Geschäftsvorgang und Erstellung voneinander getrennt sind, desto flexibler bleibt man als Unternehmen.

Metadaten erstellen und auslesen
bei Digitalisierung und Verarbeitungsprozessen

XMP: Meister aller Daten

Die Digitalisierung in der Dokumentenverarbeitung schreitet voran: Unternehmen verschicken, empfangen und verarbeiten immer mehr Rechnungen, Schadensmeldungen, Verträge, Kündigungsbestätigungen und andere Schriftstücke elektronisch. Inputmanagement und Outputmanagement wachsen infolgedessen immer mehr zusammen. Dabei geht es vor allem darum, möglichst viele Prozesse zu automatisieren. Grundlage dafür sind Metadaten, also Informationen über ein Dokument (Art/Typ, Ausstellungsdatum, Absender, Bezug zu anderen Vorgängen). Metadaten sind an sich nichts Neues, man arbeitet inzwischen ganz selbstverständlich mit ihnen. Typisches Szenario im Input-Management: Man scannt Dokumente, liest ihren Inhalt per OCR (Optical Character Recognition) aus und speichert sie in der Regel in einem Archiv oder DMS. Gleichzeitig müssen mittels Barcodes, Regeln und Heuristiken die entsprechenden Metadaten ermittelt und aufbewahrt werden, um die betreffenden Dokumente korrekt zuordnen, kategorisieren und jederzeit wieder abrufen zu können. Vieles läuft anschließend noch durch eine manuelle Kontrolle, was natürlich sehr aufwändig ist.

Papier versus XML

So existieren heute letztlich zwei Grundvarianten des Dokumentenaustausches: klassisch in Papierform und rein elektronisch in einem XML- oder Edifact-Format, wo es per se ja keine entsprechende Papier-Repräsentation gibt. Aktuelle Entwicklungen wie ZUGFeRD vereinen beide Extreme in einem Format, was letztlich das Optimum darstellt. Aber da, wo man quasi als „Abfallprodukt“ aus dem klassischen Druckdatenstrom heraus einzelne PDF-Dateien generiert und an den Empfänger übermittelt, entsteht eine Lücke, wo trotz elektronischen Transfers in der Regel zu wenig Metadaten zur Verfügung stehen, um ein Dokument automatisiert verarbeiten zu können. Ergo: Wie lässt sich also der nichtstandardisierte Dokumentenaustausch stärker automatisieren?

XMP: Brücke zwischen physischem und elektronischem Austausch

An dieser Stelle kommt XMP ins Spiel (siehe auch Dossier). Ein XMP-Paket ist letztlich eine XML-Datei und definiert Richtlinien für die Einbettung der Metadaten nicht nur in PDF-Dokumente – was sicher der häufigste Anwendungsfall sein dürfte -, sondern auch für PostScript-, JPG-, PNG-, TIFF-, HTML- und AFP-Dateien. Ein großer Vorteil von XMP-Paketen: Sie enthalten einen eindeutigen Marker und sind, wo möglich, immer im Klartext abgelegt, damit auch eine Anwendung, die das spezifische Datenformat nicht versteht, die XMP-Metadaten extrahieren kann. Doch sollte man bei sensiblen Informationen wegen der Klartextform Vorsicht walten lassen.

XMP definiert einen Satz von Kerneigenschaften, die universell verwendet werden können (Titel, Erzeuger, Thema, Datum, eindeutiger Identifikator, Sprache, Beschreibung). Dafür greift XMP auf bereits vorhandene Methoden und Standards zur Beschreibung von Metadaten (Ontologien) wie Dublin Core, IPTC und Exif zurück (siehe Dossier). Darüber hinaus lassen sich mit XMP individuelle Merkmale definieren, zum Beispiel Kunden- und Policennummer, Gültigkeit eines Dokuments, Fälligkeit einer Rechnung oder Name/Version einer Dokumentvorlage.

Das Bewusstsein für XMP fehlt noch

Anwendung findet XMP derzeit vor allem im Bereich PDF/A. Der ISO-Standard enthält ja an sich schon einige Empfehlungen für die Definition und Hinterlegung von Metadaten. So macht er beispielsweise das XMP-Paket für PDF/A-Dokumente obligatorisch und rät, einen eindeutigen Identifikator zu benutzen. Desweiteren wird empfohlen, Herkunftsinformationen durch die gesamte Dokumentenverarbeitung hindurch mitzuführen, vor allem, wenn Konversionen vorgenommen werden. Alle individuellen Eigenschaften müssen bei PDF/A-Dateien über ein eingebettetes Schema beschrieben werden. Genau das könnte ein Grund sein, warum in der Praxis XMP und die ausgiebige Verwendung von Metadaten immer noch vernachlässigt werden. Dabei ist dieser Schritt weniger kompliziert, als es den Anschein hat.

Neu ist das Thema an sich nicht, schließlich denkt man nicht erst seit heute darüber nach, wie sich die Dokumentenverarbeitung Stück für Stück automatisieren lässt. Neu ist aber die Brisanz, die aus der zunehmenden Verschmelzung von Eingangs- und Ausgangsverarbeitung als Folge des elektronischen Austausches resultiert: Bisher ging es im Output-Management meistens nur darum, die eigenen Dokumente effizient und zuverlässig zu produzieren und zu verschicken. Inzwischen muss man sich aber auch auf der Ausgangsseite Gedanken darüber machen, welche Daten dem Empfänger die Verarbeitung des Dokuments vereinfachen können. Wichtig dabei: Jeder Medienbruch zieht einen Verlust an Informationen nach sich, die im Nachgang mühsam wiederhergestellt werden müssen.

Qualität der Daten ist entscheidend

Der Einsatz der richtigen Daten spart Zeit und damit Kosten – wenn auch nicht in erster Linie beim Output-Management selbst, sondern eher im Unternehmensarchiv und natürlich beim Empfänger. Langfristig gesehen fördert er aber das Bewusstsein für Metadaten überhaupt, was letztlich dem eigenen Input-Management zugutekommt. Fakt ist: Ein minimales Set an sinnvollen Informationen kann die elektronische Verarbeitung schon erheblich vereinfachen. Vor diesem Hintergrund ist XMP sicher ein wichtiger Schritt auf dem Weg zur hundertprozentigen Automatisierung auf der Eingangs- wie auf der Ausgangsseite. Natürlich ließen sich auch ohne XMP Metadaten in Dokumenten hinterlegen, allerdings nur eingeschränkt und in einer für die Verarbeitung nicht sehr hohen Qualität. Für PDF-Dokumente jedenfalls gibt es derzeit keine sinnvolle Alternative.

Hintergrundwissen

Metadaten

Metadaten oder Metainformationen sind strukturierte Daten, die Informationen über Merkmale anderer Daten enthalten.

Bei den durch Metadaten beschriebenen Daten handelt es sich oft um größere Datensammlungen wie Dokumente, Bücher, Datenbanken oder Dateien. So werden auch Angaben von Eigenschaften eines einzelnen Objektes (beispielsweise „Personenname“) als dessen Metadaten bezeichnet.

Quelle: Wikipedia

XMP

XMP (Extensible Metadata Platform)

Standard für die Einbettung von Metadaten in digitale Dateien
von Adobe im Jahr 2001 veröffentlicht und erstmals in den Acrobat Reader 5 integriert.
Februar 2012: Veröffentlichung des Kernteils der XMP-Spezifikation als ISO-Standard ISO 16684-1

XMP basiert auf offenen Standards und bettet die vom World Wide Web Consortium veröffentlichte formale Sprache RDF (Resource Description Framework) in Binärdaten ein. Damit sollen die Metadaten in verschiedenen Applikationen nach einem einheitlichen Schema so integriert werden, dass die Dateien auch weiterhin von anderen Programmen gelesen werden können. Das Format wird von allen Adobe-Produkten, der Software anderer Hersteller sowie Anbietern von Redaktionssystemen unterstützt.

XMP definiert unter anderem:

die Sprache des Dokuments (eines der wichtigsten Merkmale; besonders wichtig für Menschen mit Sehbehinderung/Vorlesen des Dokuments mittels Screen Reader in der korrekten Sprache);
das Erstellungsdatum
Autor/Name der Firma (Woher kommt das Dokument?)
Stichworte/Keywords

RDF

RDF (Resource Description Framework) ist eine technische Herangehensweise im Internet zur Beschreibung von Ressourcen (Objekt, Position, Person) und ihrem Verhältnis zueinander. Ursprünglich wurde RDF vom World Wide Web Consortium (W3C) als Standard zur Definition von Metadaten konzipiert. Mittlerweile gilt RDF als ein grundlegender Baustein des „semantischen Webs“. RDF ähnelt den klassischen Methoden zur Modellierung von Konzepten wie UML-Klassendiagramme und Entity-Relationship-Modell.

Über Standardisierungsbestrebungen wurden häufig benutze Aussagen über ein Objekt zu sogenannten Ontologien zusammengefasst, die über einen Namensraum URI (Universal Resource Identifier) identifiziert werden. Dies ermöglicht u.a. Programmen, Daten für den Menschen sinnvoll darzustellen.

Ontologie

Ontologie ist eine Sammlung von Begriffen, mit denen man Metadaten definiert, u.a. Titel, Autor, Thema, Beschreibung, Datum, Identifikator, Sprache, Ort der Aufnahme und Kameratyp (bei Bildern/Fotos) gängige Ontologien sind Dublin Core, IPTC, Exif.

ZUGFeRD

ZUGFeRD ist das einheitliche Format für elektronische Rechnungen, entwickelt vom „Forum elektronische Rechnung Deutschland (FeRD)" Kombination der visuellen Repräsentation eines Dokuments mit seinen Rohdaten in einer einzigen PDF/A-3 Datei zur Vermeidung manueller Eingriffe in der automatischen Verarbeitungskette.

Compart ist offizieller ZUGFeRD-Unterstützer

Wir unterstützen das Forum elektronische Rechnung Deutschland (FeRD) unter dem Dach vom Bundesministerium für Wirtschaft und Energie (BMWi)
www.ferd-net.de

Metadaten und Dokumente - einmal hin und wieder zurück

Wie sieht die klassische Dokumentenverarbeitung heute aus?

Ohne Metadaten keine Strukturinformationen