Finalmente, en 2020, cuando escribí este artículo, la extracción se podía realizar de muchas formas, desde modelos de negocios basados en analítica de datos proporcionados por las API, pasando por expertos en vertientes de la disciplina conocida como data science, así como laboratorios académicos que también desarrollan herramientas, varias para generar visualizaciones en tiempo real. Muchas de las herramientas actuales combinan extracción y visualización como un dispositivo inapelable, con la limitante de eliminar instrucciones y con ello posibilidades de plantear hipótesis de datos para el investigador, pues generan redes ‘digeridas’ con base en la centralidad de grado. En lo personal, para exploraciones de la actividad en Twitter en el plano relacional utilizo Hoaxy, del Observatorio de Medios Sociales de la Universidad de Indiana, mientras que para descargas más amplias, he tenido que recurrir a servicios comerciales en el marco de los proyectos y objetivos del Observatorio de Ciudadanía Digital del Departamento de Ciencias de la Comunicación y Diseño de la Universidad Autónoma Metropolitana, unidad Cuajimalpa, ubicada en la Ciudad de México. Respecto a la minería de datos con visualización incluida, en 2019 tuve la oportunidad de conocer y utilizar el proyecto desarrollado por Pérez, Cortés, Gómez y Abascal, en el marco de la Maestría en Diseño, Información y Comunicación de la misma institución.
Derivado de la experiencia en minería de datos, una vez obtenida la información, es claro que un pendiente y a la vez una exigencia más para el investigador es aprender a utilizar paquetes computacionales e invertir en herramientas que permitan la extensión de las capacidades intelectuales e imaginativas para acompañar la participación interpretativa (Masson, 2017). En mi caso me he centrado en Gephi para el procesamiento y la visualización de los datos obtenidos de las plataformas mencionadas, sin embargo hay ejemplos como R Studio que permiten el uso de scripts microdirigidos para extraer información, así como diferentes formas de generar gráficas, lo que requiere un nivel avanzado de programación que pocos logran desde las ciencias sociales, motivo por el cual la colaboración interdisciplinaria se ha vuelto un imperativo en el trabajo de este tipo —en concreto con el auxilio de un experto de las áreas computacionales—, sobre todo cuando los recursos de autodidacta son insuficientes; una transición del hazlo tú mismo al hagámoslo juntos —del do it yourself al do it together— que traspone las metodologías del campo traviesa de lo digital (Ratto y Boler, 2014).
Recursos de saltimbanqui
A pesar de haber descubierto el uso del análisis de redes sociales antes de concluir la metodología de mi investigación doctoral, no pude desarrollarlo por dos razones elementales: la falta de bases de datos en formato relacional sobre las movilizaciones electorales en la contienda presidencial de 2012, en concreto sobre #YoSoy132, y la falta de conocimiento de que, aunque limitadas, yo mismo podía crearlas desde cero. En la tesis solo pude agregar una visualización del Tema Tendencia (Trending Topic) #2DeOctubreNoSeOlvida, generado hasta dos años después, en 2014, con fines meramente descriptivos en la revisión del tema redes sociodigitales (véase Imagen 3).
Imagen 3
Visualización de la tendencia #2DeOctubreNoSeOlvida, de 2014
Fuente: Rodríguez Cano, 2015a: 31.
El tránsito del análisis de redes, entendido como un divertimento con las posibilidades de descarga y visualización concentrado en el seguimiento de tendencias de opinión, a un momento de aplicación con mayor rigor, tuvo su escenario más adecuado en artículos que finalmente fueron publicados entre 2015 y 2020, propuestas que identifico de mejor manera con malabarismos despabilados que con fórmulas prescritas, a partir de extracciones de datos en Twitter y Facebook, tanto desde la perspectiva de los pequeños datos como de los datos densos.
En las extracciones de arriba hacia abajo puedo resaltar como primera experiencia el análisis longitudinal de las redes articuladas en Twitter para acompañar la marcha en las calles realizada con el hashtag #1Dmx (Rodríguez Cano, 2015b). Dentro de las posibilidades en la aplicación del ARS en este contexto apareció la riqueza de manifestaciones con el uso del hashtag #YaMeCansé para hacer eco de las protestas en las calles a dos años de la toma de protesta del entonces presidente Enrique Peña Nieto y frente a la desaparición de los cuarenta y tres normalistas de Ayotzinapa, así como la identificación de los nodos centrales en cuanto a grado de entrada con la cual pude diseñar una primera tipología de usuarios (activistas, ciudadanos, militantes, medios profesionales, medios independientes, periodistas, etcétera). Otro hallazgo fue observar cómo la movilización se convirtió en una conversación que reaccionaba en tiempo real a los acontecimientos en las calles, en ese caso a las estrategias policiales para disuadir la marcha que terminaron por cambiar el principal actor aludido en la protesta, el presidente de la República, al entonces jefe de gobierno del Distrito Federal, Miguel Ángel Mancera, por el uso excesivo de la fuerza (véase Imagen 4).
Los desafíos del ARS en este proyecto fueron principalmente técnicos, sobre todo en cuanto a la capacidad computacional para realizar las descargas de datos mediante NodeXL, pues la herramienta solo permitía hacerlo en tiempo real. Esto ha sido una constante en las herramientas para descargar bases de datos de Twitter. En la mayoría de los casos se debe hacer en tiempo real o cuando se habilita una búsqueda histórica, permite hasta un máximo de siete días previos como en Sociovizz o hasta 3 200 tuits, como en Twittonomy, límites que impone la misma plataforma.
Imagen 4
Visualización de la tendencia #1Dmx, de 2014
Fuente: Rodríguez Cano, 2015b: 61.
Finalmente, se presentó un corpus basado en una secuencia de siete momentos ubicados en los rangos de entre 5295 y 8053 usuarios y entre 20 750 y 25 845 tuits. Derivado de esto, el principal aprendizaje fue entender la extracción longitudinal como táctica para seguir de manera diacrónica una movilización sociodigital, evitando el riesgo de saturar los dispositivos con el entonces imposible objetivo de realizar una sola captura masiva en tiempo real y paralelo. A grandes términos, si se suman, se extrajeron más de 150 000 tuits, logro que no hubiera conseguido de intentar realizarlo en un solo momento, pese a que la computadora utilizada fue específicamente elegida por tener un procesador más capaz.
Estoy consciente de que estos números pueden resultar menores ante el constante desarrollo de herramientas de extracción de datos, sin embargo vistos en el contexto de esos años, aunado a la precariedad de recursos del investigador, significaron un gran logro. Y no por los números en sí, sino porque al existir los inconvenientes de la no representatividad de la muestra, como he mencionado, a mayor cantidad de datos se incrementaba también la proporcionalidad para explorar los alcances de un fenómeno que no rebasaba tampoco los cientos de miles de tuits.
La segunda experiencia de extracción fue con Facebook, a través de Netvizz. De hecho, derivado de experimentos previos con esta herramienta, pude publicar dos investigaciones: la primera con datos de interacción de las publicaciones de seis de los principales medios periodísticos en México, y la segunda con las redes de páginas que mediante likes se conformaron en esta plataforma a lo largo de los años para visibilizar protestas sociales.
En el primer caso, el ARS fue un recurso para contrastar los