Ir al contenido

Web scraping y cómo vemos el revés de Internet - Taller y reflexiones

De Wikiversidad
Resumen
Sesión presencial del taller en las instalaciones de Wikimedia Colombia.
Área temática Tecnología, ciencias humanas, desinformación
Fecha 11 de julio 2025
Lugar Wikicasa Bogotá D.C., Colombia
Organizador Wikimedia Colombia

Como parte de los encuentros ‘Entre grises’, un espacio teórico-práctico entre el Instituto Colombiano para la Paz (CAPAZ) y Wikimedia Colombia, en esta primera sesión se exploraron herramientas de acceso libre para el web scraping, es decir para la captura automatizada de datos en líneas. Nuestro propósito es lograr encaminar estas herramientas hacia una exploración investigativa de fenómenos de desinformación y negacionismo en redes sociales. Asimismo, buscamos dialogar entre disciplinas sobre cómo entendemos los límites entre verdad, historia y narrativas.

Objetivos

[editar]

1. Aprender a usar herramientas de libre acceso de web scraping para la captura de datos en Instagram, YouTube y TikTok.

2. Reflexionar sobre la funcionalidad y los límites del web scraping como técnica importada a la investigación social.

3. Explorar metodologías diseñadas para el análisis de objetos digitales como etiquetas, enlaces, videos, audios e imágenes.

Metodología

[editar]

Dinámica del taller: La primera parte de esta sesión incluyó una presentación inicial de las herramientas de scrapeo que simulan la navegación de un usuario en una página web. Esta introducción estuvo acompañada por un recorrido o walkthrough por la interfaz de las herramientas —Zeeschuimer v1.13.1[1], y YouTube DataTools [2]—. Asimismo, esta presentación estuvo complementada con una experiencia práctica que les permitió a los asistentes familiarizarse con las competencias básicas para el uso y aplicación de estas herramientas..

Participantes: Asistieron historiadoras, abogadas y filósofos con conocimiento básico de manejo de bases de datos.

Herramientas y materiales: El computador portátil con el navegador Mozilla Firefox instalado fue la herramienta principal para este taller. Contar con una cuenta (personal o alterna) de Instagram o TikTok contribuye a acceder a más datos.

Cronograma

[editar]
Tiempo Objetivo Descripción de la actividad Materiales / Anexos
30 min Reflexionar sobre la funcionalidad y los límites del web scraping como técnica importada a la investigación social. Introducción del web scraping como técnica importada a las ciencias sociales para capturar datos de manera automatizada.

Exploramos lo que vemos en la pantalla vs. el resultado del scrapeo con ejemplos de búsquedas de Google.

¿Qué elementos digitales podemos identificar? ¿Cómo están estructurados por el web scraper?

Computador.
30 min Presentar a Wikimedia y reflexionar “en movimiento”, sobre lo que significa "lo libre" y "lo abierto" Se propone la búsqueda en Wikipedia de personajes, lugar o comida relevantes en nuestra cotidianidad. ¿Está en la Wikipedia lo que buscamos, la información está completa, en cuántos idiomas está disponible? Celulares.
20 min Explorar metodologías diseñadas para el análisis de objetos digitales como etiquetas, enlaces, videos, audios e imágenes. Hicimos un primer acercamiento al producto final del scrapeo, una estructura de datos dispuesta en una hoja de cálculo. Exploramos esta estructura de datos en un documento compartido. Identificamos posibles fallas inherentes del scrapeo en redes sociales, principalmente TikTok, y se presentaron soluciones con herramientas de inteligencia artificial. Computador;Hoja de cálculo colaborativa, y Claude.ai.
45 min Aprender a usar herramientas de libre acceso de web scraping para la captura de datos en Instagram, YouTube y TikTok. Los participantes instalaron la herramienta de web scraping en sus navegadores e hicimos una exploración práctica y guiada por las etapas de scrapeo y exporte de datos estructurados.

Se socializó la metodología programa y antiprograma (Rogers, 2018) para seleccionar queries que sean productivas a la hora de analizar fenómenos en redes sociales cuyas agendas sean opuestas y/o reaccionarias. Usamos el ejemplo de #lascuchastienenrazon y sus posibles variables.

Computador; Zeeschuimer v1.13.1 (Peeters, 2025); Hoja de cálculo colaborativa.
15 min Break
30 min Aprender a usar herramientas de libre acceso de web scraping para la captura de datos en Instagram, YouTube y TikTok. Para el caso YouTube, accedimos a la herramienta https://ytdt.digitalmethods.net/ y exploramos el panel de ‘Video List’ con diferentes queries. Se exportaron los datos capturados y colectivamente los importamos a un procesador de datos (e.g., Google Sheets o Excel). Computador; YouTube DataTools (Reider, 2015).
30 min Reflexionar sobre la funcionalidad y los límites del web scraping como técnica importada a la investigación social. A partir de ejemplos, distintas metodologías y tipos de visualizaciones, abarcamos casos de estudio de negacionismo y desinformación sobre eventos históricos en línea. Computador.

Resultados

[editar]

Aprendizajes clave

[editar]
  • Desarrollar habilidades prácticas para instalar un web scraper e implementarlo en datos de redes sociales.
  • Reconocer que el web scraping como técnica de captura de datos necesita ser encaminada con metodologías digitales para ser productiva en investigaciones.
  • Después de obtener los datos, necesitamos analizar los objetos digitales con sus funciones dentro de cada ecosistema (e.g., una etiqueta en X y una etiqueta en YouTube cumplen distintas funciones).

Impacto

[editar]
  • Los participantes conocieron nuevos tipos de formatos digitales que son movilizadores de desinformación y negacionismo (e.g., videos cortos, memes, imágenes aparentemente inofensivas).
  • Las dudas que surgen del análisis de datos de redes sociales son un insumo valioso para la construcción de narrativas sobre fenómenos como el negacionismo y la desinformación.

Reflexión y evaluación

[editar]

Lo que funcionó:

[editar]
  • Preparar con anticipación los recorridos por las herramientas y escoger un ejemplo previamente estudiado y aplicado para la parte práctica del taller.
  • Identificar posibles errores o fallas en el uso de las herramientas de scrapeo, comunicarlas y presentar soluciones a las mismas.
  • Las habilidades técnicas que se necesitan para usar estas herramientas deben estar complementadas por otras habilidades y metodologías (e.g., análisis de contenido). El aprendizaje no finaliza con el uso de la herramienta.

Retos y aprendizajes

[editar]
  • Pese a ser herramientas de libre acceso, su infraestructura sigue dependiendo de los accesos corporativos disponibles de las redes sociales. Ideas o posibles proyectos se ven truncados si estos accesos no están disponibles o no se realizan en tiempo real.
  • Las posibilidades que abre el web scraping se enmarcan en debates más amplios sobre el acceso de información que podrían abordarse en otro espacio de formación.
  • Ante los retos metodológicos que surgen al usar datos estructurados pero volátiles como los de redes sociales, intercambiar experiencias y estrategias con profesionales de otras disciplinas resultó esclarecedor. (e.g., más que puntos ciegos, preguntémonos ¿cómo ver silencios? ¿Qué no se dice? ¿Cómo incluir la evasión y los silencios?).

Conclusiones y próximos pasos

[editar]

Este taller evidenció que es posible enseñar y aprender a ver el revés de Internet por medio de herramientas de web scraping que no necesitan habilidades especializadas en computación. Además de ser un simulacro práctico, el taller sirvió como un intercambio de debates metodológicos y teóricos que resultaron productivos para reflexionar sobre posibles investigaciones relacionadas con negacionismo histórico o desinformación en redes sociales.

Complementario a los momentos prácticos, este espacio se nutrió de referentes actuales, ejemplos de aplicación y reflexiones sobre cómo articulamos métodos y artefactos con narrativas y discursos.

Próximos pasos

[editar]

Este espacio teórico-práctico tiene el potencial de desarrollarse en otros contextos con profesionales que no estén vinculados directamente con metodologías cuantitativas, pero que encuentren en estas herramientas de scraping una materialización técnica a sus intereses. De igual forma, debates más profundos sobre el acceso a la información en redes sociales, metodologías deductivas, y lenguaje para conceptualizar fenómenos digitales pueden servir de inspiración para espacios similares a este taller.

Recursos y referencias

[editar]
  1. [https://zenodo.org/records/15281614 Stijn Peeters. (2025). Zeeschuimer (v1.13.1). Zenodo. https://doi.org/10.5281/zenodo.15281614
  2. Rieder, Bernhard (2015). YouTube Data Tools (Version 1.42) [Software]. Available from https://ytdt.digitalmethods.net.