¿Por qué ahora?
Varios factores han contribuido al reciente crecimiento de la ciencia de datos. Como ya hemos mencionado, la aparición del big data ha sido impulsada por la relativa facilidad con la que las organizaciones pueden recopilar datos. Ya sea a través de registros de transacciones de punto de venta, clics en plataformas en línea, publicaciones en redes sociales, aplicaciones en teléfonos inteligentes u otros miles de canales, las compañías ahora pueden crear perfiles mucho más ricos de clientes individuales. Otro factor es la mercantilización del almacenamiento de datos con economías de escala, lo que hace que almacenar datos sea más barato que nunca. También ha habido un tremendo crecimiento en la potencia informática. Las tarjetas gráficas y las unidades de procesamiento gráfico (GPU en inglés) se desarrollaron originalmente para hacer una representación gráfica rápida para juegos de computadora. La característica distintiva de las GPU es que pueden llevar a cabo multiplicaciones rápidas de matrices. Sin embargo, las multiplicaciones de matrices son útiles no solo para la representación gráfica, sino también para el aprendizaje automático. En los últimos años, las GPU se han adaptado y optimizado para el uso del aprendizaje automático, lo que ha contribuido a grandes aceleraciones en el procesamiento de datos y el entrenamiento de modelado. También se han vuelto disponibles herramientas de ciencia de datos fáciles de usar y se han reducido las barreras para ingresar a la ciencia de datos. En su conjunto, estos desarrollos significan que nunca ha sido tan fácil recopilar, almacenar y procesar datos.
En los últimos 10 años también ha habido avances importantes en el aprendizaje automático. En particular, ha surgido el aprendizaje profundo y ha revolucionado la forma en que las computadoras pueden procesar el lenguaje y los datos de imágenes. El término aprendizaje profundo describe una familia de modelos de redes neuronales con múltiples capas de unidades en la red. Las redes neuronales han existido desde la década de 1940, pero funcionan mejor con conjuntos de datos grandes y complejos y requieren una gran cantidad de recursos informáticos para entrenar. Por lo tanto, la aparición del aprendizaje profundo está relacionada con el crecimiento en el big data y la potencia informática. No es una exageración describir el impacto del aprendizaje profundo en una variedad de dominios como nada menos que extraordinario.
El programa informático AlphaGo7 de DeepMind es un excelente ejemplo de cómo el aprendizaje profundo ha transformado un campo de investigación. Go es un juego de mesa que se originó en China hace 3.000 años. Las reglas de Go son mucho más simples que el ajedrez; los jugadores se turnan para colocar piezas en un tablero con el objetivo de capturar las piezas de su oponente o el territorio vacío circundante. Sin embargo, la simplicidad de las reglas y el hecho de que Go usa un tablero más grande significa que hay muchas más configuraciones de tablero posibles que en ajedrez. De hecho, hay más configuraciones de tablero posibles en Go que átomos en el universo. Esto hace que Go sea mucho más difícil que el ajedrez para computadoras debido a su espacio de búsqueda mucho más grande y a la dificultad de evaluar cada una de estas posibles configuraciones de tablero. El equipo de DeepMind utilizó modelos de aprendizaje profundo para permitir a AlphaGo evaluar las configuraciones de tablero y seleccionar el siguiente movimiento a realizar. El resultado fue que AlphaGo se convirtió en el primer programa informático en vencer a un jugador profesional de Go, y en marzo de 2016 AlphaGo venció a Led Sedol, el 18 veces campeón mundial de Go, en un partido visto por más de 200 millones de personas en todo el mundo. Para poner en contexto el impacto del aprendizaje profundo en Go: en 2009, el mejor programa informático Go en el mundo fue calificado en el extremo inferior de los aficionados avanzados; siete años después AlphaGo venció al campeón mundial. En 2016, se publicó un artículo que describía los algoritmos de aprendizaje profundo detrás de AlphaGo en la revista científica académica más prestigiosa del mundo, Nature (Silver, Huang, Maddison et al. 2016).
El aprendizaje profundo también ha tenido un impacto masivo en una gama de tecnologías de consumo de alto perfil. Facebook ahora utiliza el aprendizaje profundo para el reconocimiento de rostros y para analizar textos con el fin de publicitar directamente a las personas en función de sus conversaciones en línea. Tanto Google como Baidu utilizan el aprendizaje profundo para el reconocimiento de imágenes, subtítulos y búsqueda, y traducción automática. Las asistentes virtuales Siri de Apple, Alexa de Amazon, Cortana de Microsoft y Bixby de Samsung utilizan el reconocimiento de voz basado en el aprendizaje profundo. Huawei está desarrollando actualmente un asistente virtual para el mercado chino, y también utilizará el reconocimiento de voz de aprendizaje profundo. En el capítulo 4, “Introducción al aprendizaje automático”, describiremos las redes neuronales y el aprendizaje profundo con más detalle. Sin embargo, aunque el aprendizaje profundo es un desarrollo técnico importante, quizás lo más significativo en términos del crecimiento de la ciencia de datos es la mayor conciencia de las capacidades y beneficios de la ciencia de datos y la aceptación de las organizaciones, que ha sido producto de estas historias de éxito de alto perfil.
Mitos sobre la ciencia de datos
La ciencia de datos tiene muchas ventajas para las organizaciones modernas, pero también hay una gran expectación en torno a ella, por lo que debemos entender cuáles son sus limitaciones. Uno de los mitos más importantes es la creencia de que la ciencia de datos es un proceso autónomo que podemos hacer correr en nuestros datos para encontrar las respuestas a nuestros problemas. En realidad, la ciencia de datos requiere una supervisión humana especializada en las diferentes etapas del proceso. Se necesitan analistas humanos para enmarcar el problema, diseñar y preparar los datos, seleccionar qué algoritmos de aprendizaje automático son los más apropiados, interpretar críticamente los resultados del análisis y planificar la acción adecuada a tomar en función de la información que el análisis ha revelado. Sin supervisión humana calificada, un proyecto de ciencia de datos no podrá cumplir sus objetivos. Los mejores resultados de la ciencia de datos ocurren cuando la experiencia humana y la potencia informática trabajan juntas, como lo expresaron Gordon Linoff y Michael Berry: “La minería de datos permite que las computadoras hagan lo que mejor saben hacer: excavar entre una gran cantidad de datos. Esto, a su vez, permite que las personas hagan lo que mejor hacen, que es configurar el problema y comprender los resultados” (2011, 3).
El uso generalizado y creciente de la ciencia de datos significa que hoy el mayor desafío de la ciencia de datos para muchas organizaciones es localizar analistas humanos calificados y contratarlos. El talento humano en la ciencia de datos es muy importante, y el abastecimiento de este talento es actualmente el principal cuello de botella en la adopción de la ciencia de datos. Para poner en contexto este déficit de talento, en 2011 un informe del Instituto Global McKinsey proyectó un déficit en Estados Unidos de entre 140.000 y 190.000 personas con habilidades de análisis y ciencia de datos y un déficit aún mayor de 1,5 millones de gerentes con la capacidad de comprender la ciencia de datos y procesos analíticos a un nivel que les permita interrogar e interpretar los resultados de la ciencia de datos de manera adecuada (Manyika, Chui, Brown et al. 2011). Cinco años después, en su informe de 2016, el instituto seguía convencido de que la ciencia de datos tiene un enorme potencial de valor sin explotar en una gama cada vez mayor de aplicaciones, pero que el déficit de talento se mantendrá, con un déficit previsto de 250.000 científicos de datos a corto plazo (Henke, Bughin, Chui y col. 2016)
El segundo gran mito de la ciencia de datos es que cada proyecto de ciencia de datos necesita big data y utilizar el aprendizaje profundo. En general, tener más datos ayuda, pero tener los datos correctos es el requisito más importante. Los proyectos de ciencia de datos se llevan a cabo con frecuencia en organizaciones que tienen significativamente menos recursos en términos de datos y potencia informática que Google, Baidu o Microsoft. Los ejemplos indicativos de la escala de los proyectos de ciencia de datos más pequeños incluyen la predicción de reclamos en una compañía de seguros que procesa alrededor de 100 reclamos por mes; predicción de abandono estudiantil en una universidad con menos de 10.000 estudiantes; predicción de abandono de membresía en un sindicato con varios miles de miembros. Por lo tanto, una organización no necesita manejar terabytes de datos o tener recursos informáticos masivos a su disposición para beneficiarse de la ciencia de datos.
Un tercer mito de la ciencia de datos es que el software moderno de ciencia de datos es fácil de usar, por