Pongamos un ejemplo. Cuando escuchamos una canción o vemos una película, tanto el sonido, como el vídeo se puede considerar dato, sin embargo, cuestiones como título, autor, género que definen el contenido de ambos son metadatos.

Los metadatos se han convertido hoy en una fuente de información de gran valor para las estrategias de Big Data. Éstos son los encargados en cierta forma de facilitar el flujo de trabajo y sobre todo, la comprensión de los datos y la información en general, ya que son pieza clave para la mejora de la eficiencia a la hora de gestionar la información. Para hacernos una idea los metadatos son algo así como etiquetas que ayudan a gestionar y localizar la información.

Datos que describen otros datos

La definición más correcta indica que los metadatos son “datos que describen otros datos” o dicho de otra forma: “Son el conjunto de datos que proporciona información de un recurso, es decir de otros datos como un archivo de imagen o un documento de texto, siendo algunos de estos metadatos la fecha de creación, la de la última modificación o la resolución en el caso de una imagen”.

Por medio de los metadatos podemos, por ejemplo, saber el nombre, el número de teléfono, la localización, duración de la llamada… En realidad, los metadatos no son más que información que describe el contenido, calidad, condiciones, historia, disponibilidad y otras características de los datos.

Normalmente sirven para facilitar las búsquedas de tal manera que proporcionan suficiente información entre la colección de datos para seleccionar aquellos que más nos interesen o simplemente para saber que existen.

Los metadatos normalmente sirven para facilitar las búsquedas. Se trata de datos que describen otros datos Clic para tuitear

Pero en realidad sus funciones fueron delimitadas por Kate Beard  en 1996 y han sido analizadas a lo largo del tiempo por otros autores,  como por ejemplo Gayatri y Ramachandran, en 2007, añadiendo además de la búsqueda:

  • Recuperación. Proporcionan información a los usuarios para adquirir aquella que sea de su interés, por ejemplo: la información necesaria para extraer un libro en una biblioteca. También se considera como ‘función de recuperación’ aquella información que describe cómo localizar fuera de línea los datos, la persona de contacto, los formatos de distribución de los datos o cualquier restricción de acceso a los datos, así como la información sobre los costes.
  • Los metadatos deben facilitar información para que los usuarios hagan uso de los archivos recuperados en sus máquinas.
  • Evaluación. Los metadatos de apoyo a la evaluación pueden consistir en cualquier información que asista a los usuarios a determinar si los datos van a ser útiles. (Es la función de los metadatos más compleja).
  • Archivo, conservación y organización. Son pieza clave que garantiza que los recursos sobrevivan y continúen siendo accesibles en el futuro. Pero además ayudan a ‘navegar’ fácilmente a través de la información obtenida ya que ayudan en la organización de varios vínculos asociados con los recursos.
  • Los metadatos facilitan la interoperabilidad, puesto que se han definido estándares de metadatos y existen protocolos compartidos, el descubrimiento de recursos de información ha sido integrado perfectamente, sin fisuras. Protocolos como el Z39.50 han ayudado en las búsquedas simultáneamente ante sistemas distribuidos. También el protocolo desarrollado para la recolección de metadatos de la Iniciativa de Archivos Abiertos (OAI-PMH) ayuda en la tarea de recolección.

Metadatos y Big Data

La información de una organización proviene de múltiples fuentes de datos y la comprensión de la misma es una necesidad absoluta en todas las compañías para poder tomar decisiones más acertadas, evaluar las acciones de futuro o fijar sencillamente otros objetivos.

Tener una visión clara de los datos que se manejan y una óptima comprensión de los mismos supone un paso importante dentro de las compañías Data-Driven. En este contexto, los metadatos son el gran aliado del Big Data, pero sobre todo,  del Data Analytics, ya que hacen posible desde localizar rápidamente la información, descartar aquella que es irrelevante o tener resultados de confianza para cada consulta.

Es, por tanto, una información valiosísima que resulta imprescindible para un óptimo gobierno de datos, es decir: garantizar de forma satisfactoria la administración eficiente y eficaz del dato.