El capítulo 2 es considerado también introductorio. En él se abordarán las herramientas matemáticas, las cuales nos ayudarán a comprender, de una mejor manera, las técnicas de aprendizaje máquina que se revisarán en capítulos posteriores. En este capítulo se tratarán las bases de probabilidad, álgebra lineal y estadística.
En el capítulo 3, por su parte, se estudiará la problemática de la clasificación, uno de los principales temas del aprendizaje máquina. El concepto principal de la clasificación es la correcta separación de elementos en grupos o clases, de modo que, cuando un nuevo elemento es adquirido, pueda etiquetarse dentro del grupo con el cual comparta más características, esto con el mínimo error posible en la clasificación. Ciertamente, la clasificación no representa una tarea fácil de realizar, debido a muchos factores que han de ser considerados, por lo que existe una amplia variedad de técnicas para llevar a cabo dicho trabajo. En este capítulo se describen diferentes métodos de clasificación para distintos esquemas, en los que un solo clasificador no podría realizar la separación de manera correcta.
En el capítulo 4 se analizan diversas técnicas clásicas de predicción mediante el ajuste de parámetros lineales. Este tipo de metodologías son muy populares dentro del área de aprendizaje automático debido, principalmente, a que la matemática con que se las describe se presenta relativamente sencilla y de fácil implementación. La idea fundamental en este tipo de metodologías de regresión resulta muy similar a la de clasificación analizada en el capítulo anterior. La diferencia radica en que, mientras que con la clasificación se predice una variable de tipo categórica, en la regresión se infiere una variable de respuesta continua. En el desarrollo del capítulo se analiza de manera detallada las bases matemáticas de las distintas técnicas de regresión, así como su implementación en el ambiente del software MATLAB®.
En el capítulo 5 se realiza una introducción a varios paradigmas de agrupamiento y asociación de datos. En él se analizan los principales enfoques de agrupamiento, como lo son los basados en centroide, los jerárquicos, los basados en principios difusos y aquellos en los que se considera la optimización de una función objetivo. En la estructura del capítulo, cada técnica es tratada de forma individual analizando primeramente sus conceptos teóricos. Después, un ejemplo numérico tiene el objetivo de facilitar su comprensión. Finalmente, una implementación sencilla en MATLAB es incorporada y discutida.
En el capítulo 6 se aborda el tema de la reducción de dimensionalidad, proceso en el cual, teniendo datos con altas dimensiones, estos son mapeados en un espacio con una menor dimensionalidad. Tales técnicas se emplean cuando se tiene una gran cantidad de datos en altas dimensiones, esto se hace para poder tratar dichos datos de una manera más práctica con un esfuerzo computacional menor, al igual que se evita para ciertos casos la mala generalización para técnicas de aprendizaje. Existen varias técnicas para llevar a cabo dicha reducción, en este capítulo se analizarán las técnicas más utilizadas para la reducción de dimensionalidad.
En el capítulo 7 se expone una introducción a varios paradigmas importantes del Machine Learning, como lo son los árboles de decisión y el método Bootstrap. Los árboles de decisión son herramientas importantes para la clasificación y estimación de datos. Estos presentan una estructura de subdivisión de la información a partir de umbrales, y aportan información completa acerca de cómo los datos se dividen para efectuar su propósito de clasificación o estimación. Esta información resulta importante para analizar la naturaleza del conjunto de datos. Por otro lado, el enfoque de Bootstrap permite caracterizar el valor medio y el error producido por la estimación de un parámetro estadístico obtenido de un conjunto de datos. Su uso es importante en el Machine Learning, ya que obtener esta información por medios estadísticos tradicionales resulta extremadamente complejo.
En el capítulo 8 se analiza el problema de la comparación de patrones a través de imágenes, o bien la localización de una parte conocida de la imagen, la cual normalmente se describe como «patrón». Este tipo de problema aparece normalmente en aplicaciones tales como la búsqueda de puntos de referencia en visión estéreo, la localización de un determinado objeto en una escena, o bien el seguimiento de objetivos en una secuencia de imágenes. La idea fundamental de la comparación de imágenes (Template Matching) es sencilla: el patrón (template) que hay que encontrar en la imagen se mueve sobre todos los píxeles de la imagen, como si fuera un filtro lineal, y se mide la semejanza entre el patrón y los correspondientes píxeles de la imagen que abarca. Evidentemente, la determinación de semejanza entre el patrón y cada uno de los puntos de la imagen no resulta sencilla, ya que debe considerarse que tal medida de semejanza sea confiable en casos como que el patrón se encuentre la imagen escalada, rotada o distorsionada. En el capítulo se hará una descripción de las diferentes medidas de semejanza utilizadas para la comparación de imágenes.
En el capítulo 9 se introduce la estadística inferencial, la cual tiene por objetivo fundamental determinar ciertas particularidades sobre una población, a partir de un número limitado de elementos. En el desarrollo del capítulo se analizan las bases matemáticas de los principales métodos y procedimientos de la estadística inferencial, así como su implementación mediante la herramienta de software MATLAB®. El capítulo se inicia con una descripción de las distribuciones de muestreo comunes; posteriormente, se aborda la estimación de los parámetros de la población para dar paso a los intervalos de confianza y pruebas de hipótesis.
Finalmente, en el capítulo 10 se analiza la evaluación de los modelos producidos mediante una técnica de Machine Learning. La evaluación de un modelo entrenado resulta vital para determinar si su funcionamiento es excelente o regular, al realizar predicciones con nuevos datos o instancias. Debido a que las futuras instancias tienen valores desconocidos para nuestro modelo, es necesario emplear métricas sobre el funcionamiento del modelo de Machine Learning, para determinar si este tendrá la capacidad de generalizar exitosamente datos con los que no fue entrenado.
Durante más de diez años hemos ensayado múltiples maneras de exponer este material a auditorios disímiles. En el camino se ha contado con la invaluable tolerancia de nuestros alumnos, principalmente del Cucei, de la Universidad de Guadalajara en México. Se agradece, de manera especial, a nuestros compañeros profesores del Centro Universitario de Ciencias Exactas e Ingenierías. Tantas colaboraciones, ayudas y discusiones con colegas ameritarían un capítulo adicional. A todos, nuestro testimonio de gratitud.
Erik CuevasOmar AvalosPrimitivo DíazArturo ValdiviaMarco Pérez | Cucei, Universidad de GuadalajaraGuadalajara, Jal, México |
CAPÍTULO 1
Fundamentos del Machine Learning
En este capítulo se presentan los conceptos básicos del aprendizaje máquina, que permitirán al lector familiarizarse con el tema. Además, se introducen los pasos básicos en la aplicación del aprendizaje máquina. Por último, se discute acerca de la importancia de los tipos de datos, su preprocesamiento y su despliegue. Los objetivos principales de este capítulo son: aprender de forma rápida y sencilla el proceso de aplicación del aprendizaje máquina, así como comprender sus principios.