EmailCrawl

Encontré una herramienta de web scraping muy interesante llamada EmailCrawl. El script funciona muy bien, está escrito en Python y se usa desde la línea de comandos (CLI). Yo lo estoy usando en un sistema GNU/Linux de base Debian. Sin más, vamos al asunto.


Scraping.

El scraping es una técnica que utiliza software automatizado (como bots o scripts) para extraer datos de sitios web u otras fuentes de información. Este proceso, también conocido como raspado o web scraping, permite recopilar grandes cantidades de datos de manera eficiente para su análisis. En lo comercial nos sirve para monitorear precios, investigar tendencias de mercado, encontrar documentos, crear bases de datos y mil opciones más que quedan a la creatividad de cada quien.

En ciberseguridad esto del scraping de correos electrónicos también es muy útil. Lo podemos usar en pruebas de penetración para conocer las direcciones de correo de los empleados y departamentos de una empresa. Así también es como los actores maliciosos crean grandes listas de distribución segmentadas para enviar ataques masivos.

Hace un par de años escribí un pequeño script para hacer lo mismo y funciona muy bien. Ahora con EmailCrawl tenemos una herramienta más en nuestro arsenal. Veamos cómo obtenerla y usarla.


EmailCrawl.

Obtener EmailCrawl es muy sencillo. Vamos a su repo en Github y copiamos el código. Con un editor como Nano o VSC crearemos un archivo llamado emailcrawl.py y lo guardamos. Después, instalaremos sus dependencias con pip así:

 pip install requests beautifulsoup4 tldextract colorama

Una vez instaladas las dependencias estamos listos para usar EmailCrawl. Su funcionamiento es muy simple. Hagamos la prueba con una empresa como Ecopetrol (Empresa Colombiana de Petróleos). Para ello usaré el siguiente comando:

python3 emailcrawl.py https://www.ecopetrol.com.co/wps/portal --max-pages 50 --max-depth 3

Lo que le estoy pidiendo a EmailCrawl es que escanee la web de Ecopetrol en busca de direcciones de correo, que solo busque en las primeras 50 páginas (si no nos quedamos todo el día) y con el número 3 le indico la profundidad máxima de rastreo. Los resultados fueron satisfactorios:


EmailCrawl

EmailCrawl


24 direcciones de correo extraídas en menos de 2 minutos. EmailCrawl funciona muy bien. Cuando termina el trabajo el script nos crea un reporte en formato .json y la lista de correos extraídos en texto plano en un documento .txt.

Hay otras formas de usar la herramienta dependiendo de qué tan estricta o sigilosa queramos que sea la búsqueda. Con la orden -h podemos ver todas las funciones de EmailCrawl y así también en el Github del desarrollador. Espero les sirva. Hasta la próxima.

Temas: G33ks, GNU / Linux, Hacking Ético, OSINT / SOCMINT
J. Inversor

Escrito por:J. Inversor Otros posts del autor

Hackear es un acto noble y altruista porque trae a la existencia la multiplicidad inagotable de todos los códigos, sean naturales, sociales, computacionales o poéticos.