Análisis de datos con el programa estadístico R:
Una introducción aplicada
©2021, Christian Salas Eljatib
©2021, Ediciones Universidad Mayor SpA
San Pío X 2422, Pisos 1 al 6, Providencia, Santiago de Chile
Teléfono: 6003281000
ISBN: 978-956-6086-109
ISBN digital: 978-956-6086-116
RPI: 2021-A-4608
Dirección editorial: Andrea Viu S.
Edición: Pamela Tala R.
Diseño y diagramación: Pablo García C.
Copyright @ Christian Salas Eljatib, 2021.
Sitio web del libro: www.eljatib.com/rlibro
E-mail: [email protected]
Compilado el 6 de Agosto de 2021, Santiago, Chile.
Diagramación digital: ebooks Patagonia
[email protected] www.ebookspatagonia.com
A mis hijos Josefa, Eduardo y Myriam,
y a mi amada Javiera.
Prólogo
Este libro ha sido escrito para servir como apoyo para cursos de pregrado y postgrado en donde el realizar exploración de datos y análisis estadísticos de estos son frecuentes, así como también para profesionales e investigadores que desarrollan estas tareas. El foco de esta obra es introducir el uso del software estadístico gratuito R como herramienta para manejar datos, realizar análisis exploratorio de estos y ajustar modelos estadísticos lineales. Debido al amplio uso de la estadística en diversas disciplinas como la ingeniería, ecología, agronomía, medicina, economía, ciencias ambientales y psicología, se espera que el libro pueda proveer una herramienta útil desde la cual diversos usuarios puedan organizar y desarrollar la aplicación de análisis estadísticos. Después de varios años de docencia en estadística y modelos cuantitativos, el autor se ha dado cuenta que cualquier ecuación se entiende mejor con datos y ejemplos, y es por eso que el manejo de un software potente en lo estadístico, pero también en programación, como R resulta crucial.
El libro está organizado en tres partes, partiendo desde aspectos básicos del software R hasta paulatinamente moverse al ajuste de diversos modelos estadísticos. La primera parte se enfoca en introducir el uso de R desde aspectos relacionados a su origen e instalación para su correcto funcionamiento (Cap. 1), sintaxis (Cap. 2) y describir los diferentes tipos de objetos (Cap. 3). La segunda parte cubre la exploración y análisis descriptivo de datos, abordando desde la lectura de archivos (Cap. 4), exploración de datos (Cap. 5) y confección de gráficos (Cap. 6). Finalmente, la tercera parte se aboca a aplicar los conocimientos previos en el ajuste de modelos estadísticos, desde modelos de regresión lineal simple y múltiple (Cap. 7), hasta los modelos y pruebas comúnmente utilizadas en el análisis de diseño de experimentos (Cap. 8).
Cada capítulo entrega información que va incrementalmente avanzando en información y alternativas de análisis de datos. Aunque un conocimiento básico de estadística es ideal y contribuye en la comprensión del material presentado, la estructura del libro es tal que es apropiado para ser usado en cursos a nivel de pregrado, y en asignaturas introductorias relacionadas a la estadística al nivel de magíster y doctorado. Afortunadamente, existen libros casi completos que tratan en mayor detalle los tópicos informáticos y estadísticos discutidos en cada capítulo, por lo tanto un lector interesado en profundizar puede luego referirse a ellos. Los archivos de datos ocupados se encuentran disponibles en el sitio web del libro www.eljatib.com/rlibro, así como también en el paquete datana de R. Además, actualizaciones y la fe de erratas aparecerán en dicho sitio web.
El libro provee, cuando se estima necesario, determinados conceptos teóricos que fundamentan algunos cálculos estadísticos y modelos, sin embargo, este se centra en la aplicación de R en el análisis de datos y ajuste de modelos estadísticos de regresión lineal. Por lo tanto, esta obra no es un tratado teórico sobre aspectos estadísticos. En este mismo sentido, si bien el texto se centra en la aplicación de conceptos computacionales para el análisis de datos, no pretende ser una colección exhaustiva de algoritmos computacionales ni en detalles informáticos que van más de alla de lo necesario para un usuario aplicado.
Finalmente, el autor quisiera agradecer el rol crítico de colegas y especialmente de estudiantes que han jugado en su apreciación por un manejo computacional eficiente para el análisis de datos y el ajuste de modelos estadísticos. El presente libro es el fruto de más de quince años dictando asignaturas sobre estadística aplicada y modelación en donde el autor ha ejemplificado algunos de sus contenidos mediante R, tanto como ayudante académico en Yale University (EEUU) y como profesor en la Universidad de La Frontera, Universidad de Chile y Universidad Mayor, experiencia que le ha permitido evaluar y ordenar los contenidos, así como la forma en que estos han sidos expuestos acá. Varios profesionales contribuyeron con ideas y sugerencias para la estructura del presente texto. Especialmente se agradece al profesor Timothy Gregoire, por su constante mentoría en la rigurosidad estadística y notación científica, y al profesor Andrew Robinson, por su entusiasmo permanente para con el uso de R. Así también el autor agradece a la gran comunidad de usuarios alrededor del mundo que contribuyen a la mejora permanente de R. Alguno de los datos empleados para el desarrollo de ejemplos han sido proveídos por colegas que han gentilmente cedido dicha información, dentro de los cuales se destaca a: Rodrigo Vargas, Daniel Soto, Jan Bannister, Anibal Pauchard y Andrés Fuentes. Asistentes de investigación en la Universidad de La Frontera y la Universidad Mayor, como Joaquín Riquelme, Nicolas Pino, Cristián Segovia, Camilo Matus, Tomas Cayul, Valeska Yaitul, Grace Floody y Camilo Flores, contribuyeron con llevar a cabo tareas asociadas con la preparación de esta obra. A todos los que han colaborado en diferentes formas, el autor les da las gracias, aunque obviamente cualquier error remanente en este trabajo es de él.
El autor puede ser contactado por email a [email protected] y él apreciaría ser informado de cualquier error, puntos no claros, y omisiones en el libro. Sugerencias para mejorar y tópicos futuros son también bienvenidos. Tal como se indica en el sitio web del libro, profesores que utilicen la obra en sus cursos pueden contactar al autor para obtener resultados completos a los ejercicios de la presente obra.
Santiago, Chile
Christian Salas-Eljatib
Notación empleada en el libro
Esta obra considera una mezcla de notaciones computacionales y sigue una estructura lógica para introducir a usuarios a R, y que les permita poder desarrollar a estos los ejemplos expuestos. A continuación se indican ciertos aspectos respecto a la organización del documento.
•En un recuadro, o box, se han destacado los conceptos claves a rescatar de algunas secciones del documento.
•Con tipografía courier (algo como esto), aparecen las variables presentes en los datos analizados, así como también los comandos de R.
•Note que el símbolo ">", que aparece en la consola de R, representa a R esperando el ingreso de comandos por parte del usuario. Es aquí donde el usuario debe ingresar comandos, y luego apretar la tecla enter para llevarlo a cabo. Un comando es una secuencia de caracteres que el programa reconoce para ejecutar algoritmos o tareas específicas.
•Si se requiere replicar en un computador alguno de los comandos explicados, se debe escribir dichos comandos tal y como