Después de haber tenido una introducción a Geb en el pasado meetup, en esta ocasión Sergio del Amo (@sdelamo) nos contará cómo scrappear páginas web utilizando Geb:
Geb es una fantastica herramienta de automatización de navegador. Se usa a menudo para crear test funcionales para páginas HTML. Sin embargo, Geb brilla también como herramienta para crear Arañas y Scrapers.
En esta charla, a través de varios ejemplos, aprenderás como:
- Scrapear páginas HTML con Geb Pages y Geb Modules
- Páginar dentro de una Web y guardar los datos creados como una base de datos SQLite o un archivo Plist
- Cambiar el user agent
- Superar dificultades de scrapeo como contenido escondido.
Video:
Slides:
Código:
https://github.com/sdelamo/greachapi
https://github.com/sdelamo/webbot_geb_meetup_members
Enlace al meetup: https://www.meetup.com/madrid-gug/events/234912327/