Conocer qué tipo de datos se necesitan para tener un adecuado análisis de la situación y tomar decisiones acertadas podríamos decir que es el primer paso para generar valor y obtener la mayor productividad posible en las estrategias de Big Data. Para ello, conviene saber, primero,  cuáles son los tipos de datos más habituales a las que las compañías deben enfrentarse.

Estos se dividen en dos grandes grupos: los estructurados y los no estructurados, siendo los segundos los más comunes, pero a la vez más complejos de manejar, aunque no imposibles de controlar, ya que el desarrollo tecnológico ha hecho más fácil su tratamiento. Además, se estima  que el 80 por ciento de la información relevante en las compañías se origina en los datos semiestructurados y sin estructurar, siendo lo ideal combinar la información existente en ambas tipologías de datos (estructurados y no estructurados) como clave para tener una buena estrategia de Big Data.

De hecho, las compañías fallarán en sus análisis y en consecuencia no entenderán por completo su negocio, si no contemplan o ignoran los datos desestructurados. Veamos cuál es la diferencia entre ambos.

Datos estructurados

Son aquellos que tienen campos fijos y por tanto, se especifican al detalle conformando las llamadas bases de datos relacionales. Poseen un modelo predefinido y están claramente organizados. Un ejemplo de ello, es una base de datos de clientes estándar, en ella se incluyen el nombre, la dirección de correo electrónico, el número de teléfono… Es decir, dan nombre a cada campo de la base de datos y como consecuencia, este tipo de datos son fáciles de introducir, analizar y almacenar. Normalmente se gestionan utilizando el lenguaje de programación SQL creado por IBM. Estos en realidad aportan conocimiento a la organización y son muy útiles, pero por decirlo de alguna forma carecen de contexto y profundidad.

Datos semiestructurados y datos desestructuados

Por eliminación, son aquellos que no se incluyen tan fácilmente ni en filas, columnas, ni campos y se podría decir que no tienen una estructura rígida. Los primeros, los semiestructurados, suelen tener un formato que puede ser definido pero no es fácil su comprensión por el usuario y requiere habitualmente el uso de reglas complejas que ayuden a determinar cómo leer cada pieza de la información. Un ejemplo son los registros Web logs, ejemplos típicos son el texto de las etiquetas de lenguajes XML y XTML.

En el otro lado, están los datos no estructurados o desestructurados que identifican a aquellos que no tienen ningún tipo predefinido. Normalmente su estructura no es uniforme y se tiene habitualmente poco y nulo control sobre ellos. La información no está representada por datos elementales y su interpretación y manipulación es mucho más compleja. Ejemplos: audios, vídeos, fotografías, documentos impresos, mensajes de correo electrónico, Twitter… ¿Cómo tratarlos? Herramientas como Hadoop o bases de datos NoSQL ayudan notablemente a su manipulación.

Precisamente son muchas las voces cualificadas del sector que apuntan a que es la información no estructurada la que ofrece un mayor conocimiento. En cualquier caso, el análisis de datos de distinto tipo es imprescindible  para mejorar tanto la productividad como la toma de decisiones en cualquier compañía.

Con Prometeus IDS puede ya aprovechar toda la información independientemente de cómo y dónde se encuentren los datos almacenados, pudiendo utilizar todas las fuentes a su alcance y relacionarlas sin necesidad de conocimientos avanzados, ni personal específico IT.

Las organizaciones necesitan una estrategia de gobierno de la información que le permita acceder a toda el abanico de datos que puedan aportar valor a la gestión de la información y esto se consigue a través de un enfoque global de la gestión de la información, que comprende tanto la calidad de la información, la protección y la gestión del ciclo de vida de la información.

Se trata de las tres disciplinas fundamentales que contribuyen al buen gobierno de la información y que son básicas para un buen desarrollo de cualquier estrategia de Big Data. ¿Empezamos?

Imagen: Freepik