El Data Science o ciencia de datos es la disciplina que engloba técnicas de análisis avanzado de datos o minería de datos, como el machine learning (aprendizaje automático), deep learning, series temporales o regresiones, y está basada en las matemáticas, estadística y tecnologías de la información (IT).

La ciencia de datos tiene como objetivo transformar los datos en información, y esta información, en un conocimiento útil y relevante. Esto se consigue utilizando distintas metodologías basadas en la ciencia que son capaces de extraer todo el potencial y valor de los datos.
El data science es la base de la inteligencia artificial y el conjunto de técnicas que se aplican en áreas como la ciberseguridad, internet de las cosas o visión artificial, aunque la analítica de datos es transversal a cualquier área o sector con datos disponibles a analizar.
Es una práctica que se ha popularizado gracias a la evolución de la tecnología y que abre un nuevo paradigma en la forma de entender nuestro entorno, cómo interactuamos con él y cómo se desarrollan los acontecimientos.
Por otro lado, la automatización de los modelos estadísticos o matemáticos que son alimentados con grandes cantidades de datos en tiempo real, están permitiendo el desarrollo, evolución e integración de la inteligencia artificial, en casi todos los ámbitos de nuestra vida cotidiana.
Tipos de análisis avanzado de datos en el data science
Hablar de data science es hablar de análisis avanzado de datos, pero existen distintos tipos de análisis para distintos objetivos y proyectos. Las distintas aplicaciones que se le puede dar al análisis de datos, así como sus características, funcionalidades y objetivos permiten clasificarlos en tres grupos:
- Análisis descriptivo.
- Análisis predictivo.
- Analítica prescriptiva.
Análisis descriptivo
El análisis descriptivo es utilizado en data science, para, como su nombre indica, describir un contexto o situación determinada del objeto de análisis. A partir de este análisis se pueden descubrir patrones y realizar un diagnóstico a partir de los datos, ya sean del presente (en tiempo real) o del pasado (histórico). Algunas de sus aplicaciones pueden ser:
- Informes de estadística descriptiva, como pueden ser porcentajes, medias, medianas, mínimos o máximos, o cualquier indicador capaz de describir el objeto de estudio.
- Visualización avanzada de datos mediante herramientas de reporting capaces de ofrecer informes personalizados.
Análisis predictivo
El análisis predictivo de datos, es un análisis basado en modelos estadísticos y matemáticos. En este tipo de análisis, los data scientist, utilizan técnicas más avanzadas, como pueden ser la minería de datos o data mining, machine learning o modelos predictivos.
Su función principal es predecir eventos o situaciones futuras a partir de un conjunto de datos históricos. Ejemplos de su aplicación:
- Estimación de las ventas futuras de una empresa en el corto plazo.
- Predecir la situación metereológica de los próximos días.
Analítica prescriptiva
La analítica prescriptiva nos indica, prescribe y define la mejor opción a elegir, o acciones a tomar, en función de cuáles hayan sido los resultados del análisis.
El análisis prescriptivo utiliza las técnicas más complejas y avanzadas utilizadas en el data science, para poder realizar una prescripción o recomendación entre distintas opciones dentro de un escenario complejo.

Técnicas y conceptos utilizados en data science
Seguro que habrás escuchado hablar de conceptos como la minería de datos, o de las técnicas de machine learning, o aprendizaje automático. Explicamos a grandes rasgos en qué consisten este tipo de técnicas y conceptos.
Minería de datos o data mining
La minería de datos o data mining hace referencia a las técnicas de análisis avanzado de datos, muy utilizado en data science, que tienen la finalidad de extraer valor de grandes volúmenes de datos.
Su nombre hace referencia a la minería, ya que esta se encarga de extraer el valor que atribuimos a los materiales que esconde la montaña. Es un concepto que se viene utilizando desde hace décadas entre los analistas y científicos de datos, ya que utilizan técnicas de análisis que extraen valor de montañas de datos.
Machine learning en la ciencia de datos
El machine Learning es un conjunto de técnicas que utiliza algoritmia compleja y métodos matemáticos, como las redes neuronales artificiales, que junto con el soporte de sistemas computacionales avanzados, permiten el aprendizaje automático de los propios algoritmos utilizados, mediante la optimización de sus resultados.
Deep Learning
El deep learning es una técnica de aprendizaje automático no supervisado, esto quiere decir que la intervención humana solo se utiliza para las entradas de datos, pero no se supervisa el proceso, son los propios algoritmos los que categorizan las entradas de datos desestructurados y llegan a sus propias conclusiones. Es la técnica de machine learning más avanzada y es utilizada junto a otras técnicas de machine learning para el desarrollo de la IA.
La siguiente imagen es el resultado obtenido por el algoritmo de procesamiento de imágenes «deep dream» de google, proyecto de deep learning.

Modelo estadístico
Los modelos estadísticos son ecuaciones matemáticas que tienen el objetivo de representar una realidad de la forma más precisa y representativa posible. Esta realidad o mejor dicho, representación de la realidad, está basada en los datos que proporcionamos al modelo.
Así, por ejemplo, el modelo estadístico que se aplica para analizar la intención de voto en unas elecciones, intentará replicar la realidad de la intención de voto de un territorio determinado, para predecir cuál será el resultado de las elecciones.
El data science como base de la Inteligencia artificial
La inteligencia artificial combina el data science y la automatización. La automatización de procesos y la utilización de inteligencia en esos procesos basada en técnicas de data science, están permitiendo el desarrollo de las diferentes tecnologías que se basan en la inteligencia artificial.
Con el crecimiento exponencial de la información, es previsible que estos modelos sean cada vez más inteligentes, dando mejores respuestas cuanto más datos estén disponibles.
La automatización de procesos y la implantación de inteligencia y aprendizaje automático a éstos dan como resultado lo que conocemos como inteligencia artificial.
¿Qué funciones tiene un Data Scientist?
El data scientist es un científico de datos, es una persona experta en el tratamiento de datos. Esto quiere decir, que es capaz de extraer los datos, depurarlos, manipularlos o transformarlos, analizarlos con modelos estadísticos, y presentarlos. Poniendo esta información a disposición del objetivo que se busca, como por ejemplo visualizar los datos, o entender su significado en un contexto determinado.
Vamos a poner un ejemplo de las funciones que en líneas generales un data scientist deberá acometer:
- Extraer los datos.
- Relacionar estos datos.
- Depurar los datos.
- Transformar los datos o manipularlos.
- Analizar los datos.
- Permitir su Visualización o explotación.
Extraer los datos
Consiste en extraer o realizar extracciones de datos de una o varias fuentes de información (Base de datos de una empresa, redes sociales, fuentes de información externa, estudios de mercado, etc.)
Relacionar los datos
Relacionar los datos o establecer relaciones consiste en asociar los diferentes registros para que sean coherentes y útiles. Por ejemplo, asociar un tweet a un cliente determinado, es decir, asociar la información de twitter para enriquecer los datos del cliente.
Depurar los datos
Depurar datos es una práctica de data quality que trata de descartar datos por su inutilidad o redundancia. El data scientist debe depurar los datos para que sean útiles. Se eliminarán datos duplicados o erróneos o sin valor alguno para el objeto de análisis.
Transformar los datos o manipularlos
En la mayoría de ocasiones es necesario, transformar los datos ya sea porque sea necesario agregarlos, por darles otra nomenclatura, o por la creación de nuevos datos basados en los originales, como podría ser la obtención de indicadores, o nuevos valores asociados a esos datos.
Analizar los datos
En la fase de análisis de datos, éstos se deben transformar en información. Es la fase en la que los datos deben aportarnos conocimiento en función del objetivo que se desee. Esto se consigue con la aplicación de métodos científicos como los modelos estadísticos y matemáticos que buscan explorar en esos datos. Por ejemplo, utilizando un data frame para realizar un modelo estadístico con esos datos para obtener la información que buscamos..
Visualización o explotación de datos
La visualización de datos puede ser uno de los principales objetivos de un proyecto de data science. Es necesario que se puedan visualizar y estén disponibles para el objetivo del proyecto y que la información pueda ser explotada y utilizada. Para ello, se deben visualizar y entender.

Perfil del Data Scientist
Un data scientist debe ser una persona con una mentalidad curiosa y analítica. Idealmente que provenga de carreras como matemáticas, estadística, informática o ingenierías.
Venga de la disciplina que venga el data scientist deberá tener una mentalidad abierta para aprender de otras disciplina. Si por ejemplo, viene de estadística, deberá aprender a programar, y si viene de la informática, deberá aprender a analizar y adquirir los conocimientos y aptitudes necesarias para analizar datos.
Lo ideal es que el data scientist adquiera conocimientos que les permita desenvolverse en tres ámbitos distintos:
- Programación o habilidades propias del área IT.
- Análisis de datos y modelos estadísticos.
- Conocimiento profundo en el área de negocio, u objeto de análisis.

Si estás interesado en formarte en esta disciplina con tanto futuro, te recomiendo que leas el siguiente artículo:
El data scientist ideal, deberá tener un perfil multidisciplinar, que le permita realizar su trabajo con éxito, desenvolviéndose en estos tres ámbitos que hemos citado anteriormente.
También te puede interesar: