En la era del Big Data las empresas se ven enfrentadas a la decisión de incorporar o no tecnologías como Hadoop y MapReduce a sus procesos o incrementar la capacidad de los sistemas de administración de bases de datos tradicionales.
A través de tres simples preguntas a modo de evaluación podemos dilucidar este tipo de decisiones. La primera es ¿estamos utilizando la capacidad analítica actual? La segunda ¿para qué voy a utilizar Hadoop y MapReduce? y finalmente ¿tengo el conocimiento experto para administrar y explotar este tipo de tecnología?
Muchas empresas subutilizan la capacidad analítica de las herramientas que tienen a disposición. Es un caso normal la poca utilización de los servidores y licencias de caras herramientas de Business Intelligence y Data Mining. La primera pregunta concierne a si en verdad están utilizando correctamente y sacando provecho de la capacidad instalada. ¿Los proyectos que se desarrollan se alinean con la estrategia de la organización?
Si la respuesta es no, entonces probablemente la organización no requiera una nueva tecnología como Hadoop o MapReduce. Si la respuesta es sí, entonces el problema principal debiera darse por el gran volumen de datos almacenados y que no se tiene la capacidad de analizar, en este sentido Big Data sería la solución. Tecnologías de Big Data como Hadoop son recomendables para realizar integración de datos, procesos conocidos en BI como ETL (Extracción, Transformación y Carga de datos); para análisis complejo de datos como segmentaciones; o análisis de datos no estructurados. Pero si la actual carga de procesamiento es suficiente, posiblemente no requiera una plataforma de Big Data.
Finalmente, si la organización usa correctamente la capacidad instalada, requiere del procesamiento de grandes volúmenes de datos para integración de datos o aplicar algoritmos de data mining o analizar datos no estructurados. Entonces seguramente una plataforma de Big Data es la solución que se ajusta a la necesidad actual de información. Para esto se hace necesario administración y explotación de estos sistemas. Afortunadamente, las empresas proveedoras de Big Data están generando cada vez más aplicaciones que abstraen a los explotadores del sistema, de las complejidades de la tecnología. Esto permite hacer uso de las ventajas del sistema sin conocimientos profundos de la arquitectura en particular. Por ejemplo, al implementar solo MapReduce con Hadoop, requiere conocimiento específico de programación en MapReduce, pero si además se instala Spark sobre Hadoop esto permitiría el uso del lenguaje SQL.
En conclusión, si bien existe gran interés de incorporar tempranamente tecnologías de Big Data. Esto debiera pasar por una evaluación del objetivo de agregar este tipo de tecnologías y la vez en la preparación de quienes trabajarán o explotarán estos nuevos sistemas para la organización.