Al mismo tiempo, tuve la posibilidad de asistir a un taller de innovación en la investigación en el desbordante MIT Media Lab en Boston, con el equipo de investigación de Ethan Zuckerman, director del Center For Civic Media, en el marco de una gira que me llevó a conocer los espacios, bibliotecas y proyectos del Berkman Center for Internet and Society, de la Universidad de Harvard, la UC Berkeley School of Information (para escuchar a Danah Boyd), y el Center for Ethnography de la Universidad de California en Irvine (en un coloquio con Tom Boellstorff), así como las universidades de Stanford, CalTech, UC Riverside y Santa Barbara, Columbia, la New York University y la New School for Social Research. Asimismo, en un lado de la moneda que me interesaba para reconfigurar la mitología que rodeaba Internet, también dediqué tiempo para recorrer Sillicon Valley, en particular las oficinas de Google, Amazon y Facebook —esta última irónicamente ubicada en Hacker Way—, así como las de Twitter en San Francisco. Un cúmulo de experiencias que me parece importante recordar porque la formación metodológica en cualquier área científica debe considerarse más un aprendizaje holístico relacionado con nuestra historia de vida, que solamente con un curso académico y el desarrollo de un tema de investigación.
Esta experiencia, valga mencionarlo, fue la clave de la propuesta metodológica que realicé en mi tesis doctoral, además de la columna vertebral de los cursos sobre Métodos Digitales Cuantitativos y Métodos Digitales Cualitativos que desde 2017 pude impartir en el Programa de Posgrado en Ciencias Políticas y Sociales de la Universidad Nacional Autónoma de México (UNAM), en donde redoblé esfuerzos para fortalecer el debate de la cuestión metodológica en los estudios sobre Internet, con el reto de colaborar en el diseño de proyectos de investigación relacionados.
Cabe mencionar que, además del ARS, durante este trayecto como profesor, profundicé mi conocimiento sobre otras técnicas, autores, escuelas y tradiciones relevantes que sugiero conocer, tales como la etnografía digital y el destacado trabajo de Édgar Gómez Cruz, Elisenda Ardèvol, Adolfo Estalella, Tom Boellstorff, Sarah Pink y Christine Hine, entre otros; la escuela de métodos digitales, de la Universidad de Amsterdam, con Richard Rogers a la cabeza; la analítica cultural, propuesta por Lev Manovich para trabajar con grandes cantidades de datos; técnicas emergentes de las que resalto el análisis de sentimientos, el análisis crosesférico y la tecnografía, entre otras tradiciones como el análisis crítico del discurso aplicado a las narrativas en línea.
Respecto al uso de análisis de redes sociales, una de las consideraciones emanadas del seminario en la UNAM y de los incontables ejercicios realizados en clase, fue la propuesta de integrar a manera de taller este análisis con dos posibilidades en la obtención de datos: de arriba hacia abajo (top-down) y de abajo hacia arriba (bottom-up). La primera a partir de la descarga masiva en bases de datos relacionales, un fenómeno conocido como minería de datos, en las cuales las variables no son creadas por el investigador y están a expensas de los alcances y anaqueles del mecanismo de extracción —una situación que ha despertado reflexiones sobre el postempirismo y los riesgos de desarticular la indagación —. No obstante, ha sido reivindicado en la tradición de técnicas de investigación en el que la replicabilidad y validez no necesariamente recaen en categorías preestablecidas (Rose, 2016).
La minería de datos, también conocida como data mining, es la actividad mediante la cual se extraen datos y metadatos de la actividad social en los ambientes digitales, con el objetivo de analizarlos para realizar inferencias con sentido en direcciones que van desde la publicidad y la mercadotecnia hasta el diseño de políticas públicas y la investigación académica. Rogers ha considerado esta información un tipo de datos posdemográficos (2013), mientras que han surgido enfoques más críticos para definir este fenómeno en el marco de la cultura que describe, a partir de nociones como sociedad de la transparencia (Han, 2014), justicia de datos (Dencik, Hintz, Redden y Treré, 2019) o capitalismo de la vigilancia (Zuboff, 2019).
La segunda posibilidad para obtener datos corresponde al modo tradicional y se enfoca en la transición de la creación de matrices a la búsqueda de datos a conveniencia teórica del analista, con la limitante de que el número de campos es mínimo y no puede ser integrado dentro del fenómeno del big data, aunque sí en el marco de las sociedades datificadas como veremos a continuación.
El domador de datos
El análisis de las redes sociodigitales me enfrentó a la noción conceptual de big data, aspecto nodal para entender la cultura de la hiperconectividad y que se refiere a la explotación de datos en cantidades masivas, gracias a las posibilidades tecnológicas derivadas del rastreo, extracción y almacenamiento de las actividades sociales mediante dispositivos computacionales, un aspecto que posibilita observar las microinteracciones por primera vez en la historia de las ciencias sociales, las trazas digitales (Venturini y Latour, 2010). De acuerdo con uno de los artículos más citados sobre este tema en el área social, se trata de un fenómeno cultural con una cierta carga mitológica de trascender la versión estadística de la muestra para contener la totalidad del universo de estudio (Boyd y Crawford, 2012), algo que en mi experiencia como investigador ha sido imposible por una de sus características: la masividad. En las extracciones que he logrado hacer a lo largo de los años, sobre todo en Twitter, una de las dudas más acuciantes es cómo funciona el mecanismo de selección que mina los datos, pues las descargas son limitadas y representan solo una pequeña parte de lo existente. Por supuesto que en fenómenos con una interacción menor, es probable la obtención de la población total, pero ya no es big data.
Es decir, el imperativo de la obtención de datos nos hace quedar entrampados en la paradoja de que mientras menor sea la población también es limitada la posibilidad de considerarse big data, pero mayor la de estudiarse en su totalidad. Por el contrario, cuando es mayor la cantidad de datos extraídos puede llegar a considerarse big data, pero es común que no represente la totalidad del universo, por lo que es necesario mayor rigor en la justificación del muestreo. En este sentido, la selección del corpus en términos de grandes datos exige una cuidadosa explicación sobre su matiz representativo.
El Gran Archivero, como he propuesto traducir el fenómeno de los datos masivos (Rodríguez Cano, 2020), es un canon económico, político, social y, de nuestro interés, analítico. Las famosas tres v que lo definen: velocidad, variedad y volumen resultan en sendos desafíos para la investigación social. La velocidad exige una instantaneidad de captura inusitada; la variedad un proceso de limpieza y estructuración que es difícil realizar rudimentariamente y el volumen un procesamiento y almacenamiento computacional monumental. Nuevamente, en mi experiencia de investigación, he tenido que recurrir a diferentes diseños para plantear caminos más o menos estables en el trabajo de análisis.
Como señala Meneses Rocha (2018), los grandes datos son un gran desafío para las ciencias sociales, en parte por las dificultades en cada uno de los elementos necesarios en su cadena de valor: generación, recolección, almacenamiento, procesamiento, distribución y análisis. De acuerdo con este punto de partida, el big data exige un volumen casi ilimitado, velocidad rápida y continua, y una variedad amplia. Contrario a lo que Rogers (2013) denomina small data, que precisa un volumen limitado, velocidad lenta y una variedad también limitada. Con esta distinción, el trabajo que he realizado a lo largo de estos años con extracción de información y minería de datos ha sido más desde una perspectiva de