Gestionar la avalancha de datos ha sido un reto hasta hace poco para muchos insalvable. Las herramientas de gestión de bases de datos tradicionales no podían dar respuesta a las grandes cantidades de información producidas. Y es que la gestión ingente de datos y, sobre todo, que éstos en su mayoría fueran datos no estructurados planteaba ya a inicios del siglo XIX serios problemas que fueron resueltos de forma eficiente a través de un ecosistema llamado Hadoop, abriendo la puerta a una gestión más sencilla de grandes volúmenes de datos procesando éstos a muy bajo coste.
MapReduce, uno de los componentes más importantes de este ecosistema, y al que algunos señalan como el núcleo de Hadoop Clic para tuitearEl fenómeno Big Data siempre se ha asociado a presupuestos elevados para organizaciones y empresas, que han visto en Hadoop una vía más sencilla para implementar plataformas altamente distribuidas, funcionales y escalables sin depender de la inversión de licencias y ni de hardware.
¿Cómo surgió Hadoop?
Hablar de Hadoop es señalar a buscadores como Google y Yahoo. Los inicios de este sistema de código abierto se sitúan en 2004 y vinculan al mayor gigante de Internet que hay en la actualidad, Google, el primero que se enfrenta al problema de crear nuevos métodos para el acceso a la información ante el crecimiento exponencial de ésta, sentando las bases de un sistema (GFS: Google File System), que Yahoo desarrolla a través de MapReduce, y que posteriormente ha sido liderado por la Fundación Apache, bajo el nombre de Apache Hadoop.
El sistema propone que en lugar de utilizar un equipo grande para procesar y almacenar datos, se utilice una variedad de herramientas para satisfacer las necesidades de cargas de trabajo en el análisis de datos gracias a un sistema de archivos distribuidos que engloba distintos productos. Es decir: soporta distintas aplicaciones distribuidas bajo una licencia libre que permite trabajar con miles de nodos y petabytes de datos.
En realidad, la definición más correcta señala que Hadoop es un marco de trabajo, framework, que “permite el procesamiento de grandes volúmenes de datos a través de clusters, usando un modo simple la programación”.
Entre sus ventajas, además de permitir pasar de pocos nodos a miles de nodos de forma ágil están:
- Capacidad de ejecutar procesos en paralelo en todo momento
- Permite realizar consultas
- Mejor disponibilidad y recuperación ante los desastres
- Tecnología escalable
- Almacenamiento de bajo coste
- Flexibilidad
- Velocidad
Hadoop y Big Data
Su impacto en el Big Data le ha convertido en la herramienta perfecta para gestionar Big Data, ya que es hoy por hoy es uno de los sistemas más utilizados en la industria al permitir no sólo el almacenamiento de información sino realizar consultas complejas sobre bases de datos existentes, resolviéndolos con rapidez.
Gracias al algoritmo de procesamiento y búsquedas: MapReduce, uno de los componentes más importantes de este ecosistema, y al que algunos señalan como el núcleo de Hadoop, es capaz de resolver cargas de trabajo de gran complejidad, siendo sus beneficios principales la escalabilidad y la variedad de datos que puede procesar.
Otro de los componentes básicos es también HDFS (Hadoop Distributed File System). Se trata de un sistema de archivos distribuidos que se encarga del almacenamiento a través de una red de máquinas, diseñado para almacenar archivos de gran tamaño con una filosofía de “escribir solo una vez y permitir múltiples lecturas”.
Escrito en el lenguaje de programación Java, Hadoop resuelve el problema de almacenar la información que supera la capacidad de una única máquina, propone diversas aplicaciones o proyectos adicionales que le potencian logrando procesar, a través de diferentes máquinas conectadas, grandes bancos de datos tanto estructurados, como no estructurados.
Spark, la otra alternativa que gana posiciones
Pero si Hadoop ha abierto un importante número de posibilidades a las organizaciones gracias a su bajo coste y fácil implementación, la llegada de Spark (otro framework) también ha supuesto un punto de inflexión para sacar provecho de forma más efectiva a la gestión de los datos en las compañías.
Su uso ha cogido en los últimos años bastante popularidad ya que para algunos este espacio de trabajo es ideal para implementar Big Data sobre todo debido a las ventajas que ofrece tanto en velocidad, seguridad y usabilidad, aunque este ecosistema merece en sí mismo un capítulo aparte que será objeto de próximos post. 😉