XMP y Metadatos

Dominar todos los datos

 

La digitalización del procesamiento de los documentos está avanzando a buen ritmo. Cada vez más las compañías envían, reciben y procesan más facturas, informes de daños, contratos, confirmaciones de clientes y otras correspondencias electrónicas. Como resultado, la gestión input y output han empezado a converger. Automatizar el máximo posible de procesos es especialmente importante en este empeño. Los metadatos, o la información sobre el documento (fuente, fecha de creación, remitente, referencia de otros procesos), impulsan estos procesos. Los metadatos apenas son nuevos, llegando a convertirse justamente en un elemento familiar en el mundo del trabajo de hoy.

En un escenario típico de gestión input, los documentos se escanean, se convierten en texto a través del reconocimiento óptico de caracteres (OCR) y se almacenan habitualmente en un archivo o en un sistema de gestión de datos (DMS). Al mismo tiempo los metadatos deben ser identificados con códigos de barras, normas y heurísticas para luego ser almacenados correctamente, asignados y clasificados, para garantizar su recuperabilidad en cualquier momento. A fin de cuentas hay que comprobar un montón de cosas manualmente y eso es algo bastante caro.

El papel versus XML

Hoy existen dos variantes básicas de intercambio de documentos: el papel tradicional o el estrictamente electrónico en XML, -o en formato EDIFACT, que no es por sí mismo imprimible. Desarrollos actuales como ZUGFeRD combinan los dos extremos en un único formato, los cual básicamente es mejor. Pero si los archivos PDF individuales se generan como productos virtuales derivados de los flujos de datos de impresión tradicionales y se envían a un receptor, se produce una disrupción. A pesar de la transferencia electrónica, por lo general hay demasiado pocos metadatos para procesar automáticamente el documento. Entonces, ¿cómo automatizar aún más el intercambio de documentos no estándarizados?

XMP: el puente entre el intercambio físico y electrónico

Aquí es dónde el XMP entra en escena (ver información adicional). Un paquete de datos XMP es un archivo XML que define las reglas para embeber los metadatos no sólo en los documentos PDF – los que se usan más frecuentemente – si no también en PostScript, JPG, PNG, TIFF, HTML y archivos AFP. Los paquetes de datos XMP cuentan con mayores ventajas.  Contienen un marcador único, y cuando es posible, se guardan siempre en formato de texto puro de modo que si una aplicación no entiende el formato específico de datos no obstante puede extraer los metadatos XMP. En cuanto al uso de texto plano, la precaución debe prevalecer cuando hay información confidencial involucrada.

<?xpacket begin="" id="W5M0MpCehiHzreSzNTczkc9d"?>
<x:xmpmeta xmlns:x="adobe:ns:meta/">
  <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
    <rdf:Description xmlns:dc="http://purl.org/dc/elements/1.1/" rdf:about="">
      <dc:language>de</dc:language>
      <dc:title>Whitepaper: XMP</dc:title>
      <dc:creator>Compart AG</dc:creator>
      <dc:type>Whitepaper</dc:type>
      <dc:identifier>83db4e23-e840-4b8d-b93f-c3b96cc54ae7</dc:identifier>
      <dc:subject>
        <rdf:Bag>
          <rdf:li>XMP</rdf:li>
          <rdf:li>Metadaten</rdf:li>
        </rdf:Bag>
      </dc:subject>
      <dc:date>2013-12-11T15:50:15+02:00</dc:date>
    </rdf:Description>
    <rdf:Description xmlns:pdf="http://ns.adobe.com/pdf/1.3/" rdf:about="">
      <pdf:PDFVersion>1.4</pdf:PDFVersion>
    </rdf:Description>
    <rdf:Description xmlns:xmp="http://ns.adobe.com/xap/1.0/" rdf:about="">
      <xmp:CreateDate>2013-12-11T15:50:15+02:00</xmp:CreateDate>
      <xmp:MetadataDate>2013-12-11T15:50:15+02:00</xmp:MetadataDate>
    </rdf:Description>
  </rdf:RDF>
</x:xmpmeta>
<?xpacket end="r"?>

 

XMP define un conjunto de propiedades esenciales que pueden usarse universalmente (título, autor, tema, fecha, identificador único, idioma, descripción). XMP se apoya en los métodos y estándares existentes para describir metadatos (ontologías) como Dublin Core, IPTC y Exif (ver información adicional). Además, XMP permite la definición de atributos individuales como el tipo de cliente y el número de póliza, validez del documento, fecha de vencimiento de factura y el nombre/versión de la plantilla del documento.

XMP o el conocimiento que áun falta

En la actualidad XMP se usa principalmente con  PDF/A. La certificación ISO ya lanza recomendaciones para definir y guardar los metadatos. Exige el paquete XMP para documentos PDF/A, por ejemplo, y recomienda usar un identificador único. También recomienda llevar la información sobre el origen del documento a través de todo el proceso, sobre todo cuando se realizan conversiones. En los archivos PDF/A, todas las propiedades individuales tienen que ser descritas mediante un esquema embebido. Esta puede ser la razón por la cual el XMP y el uso intensivo de metadatos aún está descuidado. Sin embargo este paso es menos complicado de lo que parece.

El tema es casi reciente. Después de todo, no es como si acabáramos de empezar a pensar acerca de cómo automatizar los pasos de procesamiento de documentos. Lo que sí es nuevo es el ruido que empieza a generar con la fusión progresiva de los procesos de entrada y salida debido al intercambio electrónico. Usamos el output management para centrarnos en la producción y el envío de los propios documentos de forma eficaz y fiable. Ahora nos vemos obligados a considerar el lado de la salida y qué datos procesaremos para que el documento sea más sencillo al destinatario. Algo importante a recordar es que cada instancia de discontinuidad de información resulta en una pérdida de datos que ha de ser restaurada tediosamente en el origen.

La calidad de los datos es algo crítico

Usar los datos correctos ahorra tiempo y costes - si no esencialmente en el output managementsi lo es sin duda en el archivo y, por supuesto, para el destinatario. Hablando en términos generales, el uso de metadatos rigurosos sí genera una concienciación global, beneficiando la propia gestión del input. El hecho es que un pequeño conjunto de información significativa puede simplificar considerablemente el procesamiento electrónico. Contra este telón de fondo, el XMP es un paso ciertamente importante en el camino en la automatización plena tanto del input como del output. Por supuesto que los metadatos aún pueden almacenarse como documentos sin XMP, pero su alcance y la calidad de procesamiento son limitadas. En cualquier caso, actualmente no existe una buena alternativa para documentos PDF.

Información adicional

XMP (Plataforma de Metadatos Extensible)

  • Estándar para embeber metadatos en archivos digitales
  • Editado por Adobe en 2001 e integrado por primera vez en Acrobat Reader 5.
  • Febrero del 2012: Publicación de las especificaciones esenciales de XMP como estándar ISO 16684-1

XMP está basado en estándares abiertos e integra RDF oficial (Resource Description Framework) editado por World Wide Web Consortium en datos binarios. Integra los metadatos en diferentes aplicaciones según un esquema uniforme, y permitiendo consecuentemente a otros programas leer los archivos. El formato está soportado por todos los productos Adobe, software de otros fabricantes y proveedores de sistemas de edición.

Entre otras cosas, XMP define:

  • El idioma del documento (una de las propiedades más importantes; especialmente importante para discapacitación visual / lectura en voz alta del documento a través de un lector de pantalla en el idioma correcto)
  • fecha de creación
  • nombre de autor/empresa (en el origen del documento)
  • palabras clave


RDF (Resource Description Framework)

RDF es una aproximación técnica usada para describir los recursos Web (objeto, posición, persona) y relación entre ellos.  RDF fue concebido originalmente por World Wide Web Consortium (W3C) como el estándar para la definición de metadatos. Con el tiempo, RDF se ha convertido en el componente fundamental de “Semantic Web.” RDF se asemeja al concepto clásico de modelo de aproximación como diagramas de clase UML y al modelo entidad/relación.

La estandarización tenía por objeto resumir las normas usadas frecuentemente, a través de un objeto, en las denominadas ontologías que se identifican por un espacio de nombre URI (Universal Resource Identifier). Esto permite que los programas muestren datos a los espectadores.

Ontología

  • Es un grupo de conceptos que se usan para definir metadatos como el título, el autor, el tema, la descripción, la fecha, identificador, el idioma, el tipo de cámara (para imágenes/fotos) y dónde fueron tomadas
  • ontologias convencionales son Dublin Core, IPTC, Exif

ZUGFeRD

  • Formato uniforme para facturas electrónicas desarrolladas por el Foro Alemán de Facturación Electrónica(FeRD)
  • Combinación de la representación visual de un documento y sus datos en bruto en un solo archivo PDF / A-3 para evitar intervenciones manuales en la cadena de procesamiento automático

 

Obtenga las respuestas
y soluciones que necesitas