El término Data Science comienza a ser utilizado en los años 90’s. Pero se hace cargo un concepto conocido desde los inicios de los sistemas de información en los años 60’s. El objetivo y utilidad es agrupar las disciplinas que tienen por objetivo el análisis de datos y entregar un marco de trabajo común.
Durante los últimos 5 años, el concepto de Data Science ha ganado relevancia principalmente por el auge de tecnologías como Big Data; a la cual se relaciona con Data Science debido a que los analistas de datos, pasan a ser conocidos Data Scientists. Lógicamente, incorporan competencias requeridas para el trabajo con grandes volúmenes de datos, pero fundamentalmente viene del conocido concepto de Analista de Datos. Pero ¿Cómo se puede definir Data Science?
Data Science se puede definir como la unión e intersección de distintas disciplinas relacionadas al análisis y procesamiento de datos. Involucra el mundo de las Bases de Datos, Minería de Datos (Data Mining), Machine Learning, Reconocimiento de Patrones (Pattern Recognition), Estadísticas, Inteligencia Artificial y KDD.
Los sistemas de bases de datos han permitido estructurar la información. Esto hace eficiente el almacenamiento y las consultas a los datos. Antes de las bases de datos existían los sistemas de archivos los cuales resultaban altamente complejos para vincularlos y extraer información relevantes desde ellos.
Un uso relevante de las bases de datos en los sistemas de información son las aplicaciones de Data Warehouse (DWH) y/o Data Marts al interior de las organizaciones. Estos modelos de datos altamente desnormalizados agilizan el proceso de consultas y acceso a los datos. Se podría decir que contar con un DWH es el comienzo de hacer Business Intelligence (BI) o Inteligencia de Negocios, aunque tener un DWH no es un requisito para hacer BI, y eso es algo que vale la pena recordar.
Data Mining toma elementos de Machine Learning y Pattern Recognition. Hay dos tipos de problemas en Data Mining. Los problemas descriptivos y los problemas predictivos. Cuando intentamos hacer sentido de los datos con técnicas como correlaciones o segmentaciones de los datos, se puede decir que corresponden a problemas descriptivos porque se intenta hacer sentido de los datos sin una respuesta conocida previamente. El resultado de estas técnicas ayudará a interpretar la información contenida en los datos; es por esto que son llamados problemas descriptivos. Por otra parte, cuando se requiere predecir un resultado como por ejemplo el total de lluvia que caerá mañana, o predecir si lloverá o no mañana, hablamos de problemas predictivos que son la otra categoría de problemas en Data Mining.
Reconocimiento de Patrones se trata de algoritmos como reglas de asociación para encontrar relaciones entre los datos o Redes Neuronales capaces de reconocer texto escrito a mano, o reconocimiento de objetos o rostros, etc. El objetivo de Machine Learning es aprender desde los datos y entregar un resultado razonable basado en las observaciones, hablamos de problemas de clasificación o predicción de datos.
El uso de Estadísticas en Data Science es clave para entender el contenido de los datos, identificar las distribuciones de los datos con los cuales se está trabajando. La estadísticas juegan un papel relevante en el entendimiento de los datos, este entendimiento se puede considerar como Metadata. Metadata: son aquellos datos acerca de los datos que no son los mismos datos. Como por ejemplo la distribución de clases en cada uno de las variables categóricas, o el promedio y la media en variables continuas.
Finalmente el uso de KDD que es una guía para la extracción de conocimiento desde bases de datos, permite estructurar el proceso de obtención, limpieza, integración, transformación, modelamiento y análisis de resultados de los datos.
Data Science aplica a diversos campos actuales del desarrollo global, y la investigación de nuevos métodos y optimización de los ya existentes está en demanda. Un mejor entendimiento del concepto de Data Science, permite una mejor aplicación de las tecnologías y algoritmos que este amplio mundo del análisis de datos llamado Data Science involucra.