Saber cuáles son los métodos para mejorar la calidad de los datos en una organización es básico para tener un buen gobierno de éstos. Para conseguirlo es imprescindible tener un enfoque holístico de la información asumiendo toda una estrategia en torno al dato tanto de monitorización, gestión y extracción de conocimiento, sin olvidarnos de una parte importante: la mejora y la certificación de la integridad de los datos. Así si en un post anterior hablábamos de las fases para medir la calidad del dato y la importancia del Data Quality, para conseguir certificar su integridad hace falta contemplar cinco puntos imprescindibles:

  • Análisis sintáctico (parsing)
  • Estandarización
  • Validación
  • Verificación (Checking)
  • Matching o coincidencias

La integridad de los datos se refiere a las técnicas que determinan si la información es exacta, completa, correcta y coherente, teniendo un carácter decisivo en cualquier compañía, ya que de lo que trata es de descubrir si  hay algún fallo o detectar anomalías.

Sabemos que el acierto de cualquier proyecto de Big data depende en gran medida de diagnosticar la calidad de los datos realizando un filtrado y limpiado, descartando fuentes que no sean conocidas, e identificando cuáles son los registros duplicados o erróneos, analizando la exactitud y fiabilidad de los mismos.

El impacto del Dirty Data

Las organizaciones deben conocer, antes de acometer cualquier análisis, si sus datos son de calidad, ya que uno de los problemas más habituales a los que se enfrentan en base a la gestión de la información que manejan son las llamadas bases de datos incorrectas, incompletas o duplicadas. Hablamos del Dirty Data, que lo componen aquellos datos  erróneos, introducidos voluntaria o involuntariamente.

Las cifras señalan que el 25 por ciento de la información que poseen las compañías podrían ser datos falsos, lo que entorpece y dificulta un análisis certero a la larga. Tener datos malos puede suponer un grave riesgo para las organizaciones que deben velar por la precisión, confiabilidad y utilidad de estos datos.

El 25% de la información que poseen las compañías podrían ser datos falsos Clic para tuitear

Es decir, hay que comenzar por saber si para el análisis, los datos con los que se cuentan proporcionan información útil para las estrategias del negocio. En definitiva, se trata de constatar de primera mano si los datos son consistentes, veraces e identificar coincidencias, lo que se conoce como validación, checking y matching.

Hay que recordar que la veracidad es ya una de las cinco V que sustentan hoy el Big Data, junto al volumen, velocidad, variedad y valor.

La veracidad supone tener la capacidad necesaria para detectar anomalías para el mejor tratamiento de los datos y la certificación de la integridad de los datos es ya imprescindible para un análisis exitoso, pese a que la preparación de estos datos requiere prestar mucha atención a los procesos.  De hecho, la fiabilidad (veracidad) de la información que se maneja en las organizaciones supone un reto importante a medida crecen tanto las fuentes como la variedad de datos.

Pero normalmente los problemas aparejados a la integridad de los datos vienen asociados a la intervención humana, apuntando a registros con errores durante la transferencia o la copia de los mismos.

Hoy la certificación de la integridad de los datos es imprescindible para un análisis exitoso entrando en juego la Minería de Datos o Data Mining que es la exploración de datos para extraer datos válidos. El objetivo es el mismo: asegurar que los datos sean correctos y prevenir cambios involuntarios en la información.

Sin embargo, aunque existen herramientas eficientes de validación y confirmación de datos para su normalización y detección de duplicidades, para lograr hoy una óptima base de datos se necesita cada vez más de implementación de herramientas de analítica avanzada y aplicar, también, inteligencia artificial para identificar, por ejemplo registros duplicados o identificar datos incompletos evitando, así, pérdidas de tiempo y dinero.