Introducción al Pentesting - 1. Recolección de Información Pasiva
La recolección de información pasiva constituye el fundamento de cualquier auditoría de seguridad informática exitosa, representando el primer paso crítico en las metodologías de pentesting reconocidas internacionalmente. Este proceso, que implica la obtención de inteligencia sobre el objetivo sin establecer contacto directo con sus sistemas, permite a los profesionales de seguridad desarrollar un entendimiento profundo de la infraestructura, procesos y posibles vectores de ataque antes de proceder a fases más intrusivas. La eficacia de esta etapa determina en gran medida el éxito de todo el proceso de evaluación de seguridad, proporcionando el contexto necesario para tomar decisiones informadas y minimizar los riesgos durante las pruebas posteriores.
Fundamentos de la Recolección de Información Pasiva
La recolección de información pasiva, también conocida como reconocimiento pasivo, se define como el proceso de recopilación de datos sobre un objetivo sin establecer una conexión directa entre el auditor y los sistemas del cliente12. Esta metodología se distingue fundamentalmente de las técnicas activas porque no genera tráfico hacia la infraestructura del objetivo, evitando así la activación de sistemas de detección como firewalls, IDS (Sistemas de Detección de Intrusos) o SIEM (Security Information and Event Management)3.
El concepto de inteligencia de fuentes abiertas (OSINT, por sus siglas en inglés) constituye el núcleo de esta disciplina. OSINT se define como la extracción de inteligencia de alto valor mediante la recopilación de registros de fuentes abiertas para crear un perfil integral de objetivos específicos24. Esta información puede incluir desde direcciones de correo electrónico y subdominios hasta detalles técnicos sobre la infraestructura y datos personales de empleados que pueden ser utilizados posteriormente en ataques de ingeniería social5.
La Importancia Estratégica en el Pentesting
La fase de recolección de información pasiva adquiere una importancia fundamental que va más allá de la simple obtención de datos técnicos. Como enfatiza el Penetration Testing Execution Standard (PTES), esta etapa permite a los auditores comprender no solo la infraestructura tecnológica, sino también el contexto empresarial y operacional del objetivo67. Esta comprensión integral es esencial porque diferentes sectores industriales tienen distintos niveles de tolerancia al riesgo y impactos operacionales3.
Por ejemplo, una empresa que se dedica a la fabricación de productos básicos puede tolerar una desconexión temporal de internet sin mayores consecuencias financieras. Sin embargo, una firma que opera en mercados financieros podría experimentar pérdidas millonarias por una interrupción de apenas diez minutos en sus sistemas de trading3. Esta diferenciación sectorial influye directamente en la planificación y ejecución de las pruebas de penetración, determinando qué vulnerabilidades representan riesgos críticos y cuáles pueden considerarse de menor prioridad.
La metodología PTES establece que aproximadamente el 30% del tiempo total del proyecto debería dedicarse a la recolección de información3. Esta inversión temporal se justifica porque una recolección exhaustiva proporciona múltiples vectores de ataque alternativos, evitando el temido escenario de “callejón sin salida” donde el auditor no encuentra vulnerabilidades explotables3. La documentación adecuada de todos los hallazgos, incluso los negativos, resulta crucial para demostrar el valor del trabajo realizado y proporcionar una evaluación completa de la postura de seguridad del cliente3.
Técnicas Fundamentales de OSINT
Google Hacking y Búsquedas Avanzadas
El Google Hacking, también conocido como Google Dorking, representa una de las técnicas más poderosas para la recolección de información pasiva89. Esta metodología utiliza operadores de búsqueda especializados para localizar información sensible que las organizaciones han expuesto inadvertidamente en internet. Los operadores fundamentales incluyen site:
, intitle:
, inurl:
, filetype:
y cache:
9.
La técnica aprovecha el hecho de que muchas aplicaciones web incluyen información sobre sus versiones en cada página que sirven, como “Powered by XOOPS 2.2.3 Final”, que puede utilizarse para buscar sitios web que ejecutan versiones vulnerables8. Por ejemplo, una consulta como intitle:admbook intitle:Fversion filetype:php
localizaría páginas PHP con las cadenas “admbook” y “Fversion” en sus títulos, indicando el uso de Admbook, una aplicación con vulnerabilidades conocidas de inyección de código8.
flowchart LR
A[Google Hacking] --> B[site: dominio.com]
A --> C[filetype: pdf]
A --> D[intitle: admin]
A --> E[inurl: login]
A --> F[cache: url]
B --> G[Páginas específicas del dominio]
C --> H[Documentos PDF expuestos]
D --> I[Páginas de administración]
E --> J[Formularios de acceso]
F --> K[Versiones en caché]
G --> L[Información corporativa]
H --> M[Metadatos internos]
I --> N[Paneles de control]
J --> O[Endpoints de autenticación]
K --> P[Contenido histórico]
Herramientas Especializadas de Recolección
theHarvester se posiciona como una de las herramientas más utilizadas para la recolección automatizada de información510. Esta herramienta OSINT permite recopilar direcciones de correo electrónico, subdominios, hosts virtuales, puertos abiertos, banners y nombres de empleados de una organización desde diferentes fuentes públicas como motores de búsqueda, servidores de claves PGP, direcciones IP y URLs510.
La sintaxis básica de theHarvester es theHarvester -d dominio.com -b fuente
, donde las fuentes pueden incluir Google, Bing, Yahoo, Shodan, y muchas otras5. La herramienta también permite configurar claves API para servicios como Hunter.io, lo que mejora significativamente la calidad y cantidad de resultados obtenidos5.
Shodan, conocido como “el Google para hackers”, permite encontrar dispositivos conectados a internet como servidores, routers y cámaras web411. Esta plataforma escanea internet en busca de dispositivos expuestos, proporcionando información valiosa sobre la red de una organización y ayudando a identificar sistemas sin parches o puntos débiles4.
Maltego sobresale como una de las herramientas OSINT más poderosas, permitiendo a los usuarios mapear visualmente las conexiones entre varios puntos de datos411. Facilita la identificación de relaciones entre entidades como personas, organizaciones y sitios web, siendo especialmente útil para el análisis de redes, rastreo de entidades en línea y descubrimiento de enlaces ocultos dentro de grandes conjuntos de datos4.
Extracción y Análisis de Metadatos
La extracción de metadatos constituye una técnica fundamental que revela información que las organizaciones frecuentemente exponen sin darse cuenta1213. Los metadatos pueden incluir nombres de autores, fechas de creación/modificación, rutas de archivos que revelan la arquitectura del sistema, direcciones IP incrustadas en documentos, coordenadas GPS de archivos geoetiquetados, y versiones de software utilizadas para crear los documentos12.
FOCA (Fingerprinting Organizations with Collected Archives) representa una herramienta especializada en el análisis de metadatos tanto de documentos individuales como de organizaciones completas13. Esta herramienta gratuita, desarrollada por ElevenPaths, puede analizar documentos PDF, archivos de Microsoft Office (DOCX, XLSX, PPTX), imágenes (JPG, JPEG, PNG, GIF) y archivos CSV13. FOCA también realiza análisis de dominios, incluyendo recopilación de información WHOIS, análisis de registros DNS y análisis de certificados SSL12.
El proceso de extracción de metadatos con FOCA implica dos modalidades principales: análisis de archivos locales individuales y análisis organizacional completo. Para el análisis organizacional, la herramienta busca automáticamente documentos en el dominio objetivo utilizando múltiples motores de búsqueda y extrae metadatos de todos los archivos encontrados13.
graph TB
A[Documentos Objetivo] --> B[Tipos de Archivo]
B --> C[PDF]
B --> D[Office]
B --> E[Imágenes]
B --> F[CSV]
C --> G[Metadatos PDF]
D --> H[Metadatos Office]
E --> I[Metadatos Imagen]
F --> J[Metadatos CSV]
G --> K[Autor, Creador, Fechas]
H --> L[Usuario, Computadora, Versiones]
I --> M[GPS, Cámara, Fechas]
J --> N[Editor, Aplicación]
K --> O[Información Sensible]
L --> O
M --> O
N --> O
O --> P[Nombres de Usuario]
O --> Q[Rutas de Sistema]
O --> R[Versiones de Software]
O --> S[Ubicaciones Geográficas]
Búsqueda Inversa de Imágenes y Reconocimiento Visual
La búsqueda inversa de imágenes emerge como una técnica especializada que permite identificar servidores y servicios adicionales de una organización que podrían no haberse encontrado inicialmente mediante búsquedas DNS tradicionales o motores de búsqueda3. Esta técnica implica tomar el logotipo de la organización y realizar búsquedas inversas para encontrar todos los sitios de internet donde aparece esa imagen específica.
Google Images ofrece funcionalidad de búsqueda inversa accesible haciendo clic en el ícono de cámara y seleccionando “buscar por imagen”3. Esta metodología puede revelar servidores alternativos de una empresa que no han sido actualizados en años y que podrían servir como puntos de entrada a toda la red corporativa3. En casos documentados, la búsqueda inversa de logos corporativos ha llevado al descubrimiento de servidores de respaldo desactualizados que proporcionaron acceso completo a la infraestructura organizacional3.
Las herramientas especializadas para búsqueda inversa incluyen TinEye, que se especializa en rastreo de imágenes y análisis forense visual, y diversas extensiones de navegador que automatizan el proceso de búsqueda en múltiples motores3. Esta técnica se vuelve particularmente valiosa cuando se combina con análisis de metadatos de imágenes, ya que puede revelar no solo dónde aparecen las imágenes sino también información técnica sobre cómo y cuándo fueron creadas.
Metodología Estructurada de Recolección
Fase de Planificación y Definición de Alcance
La metodología PTES establece que toda actividad de recolección de información debe comenzar con una fase de planificación rigurosa que defina claramente el alcance, objetivos y limitaciones del proceso67. Esta fase incluye la firma de contratos de confidencialidad y acuerdos que establezcan específicamente qué puede y qué no puede hacerse durante el análisis3. Es fundamental entender que salirse del alcance definido podría constituir una violación contractual y potencialmente incurrir en acciones legales por parte del cliente3.
La definición del alcance se vuelve particularmente compleja cuando las organizaciones tienen infraestructura en la nube. En estos casos, es crucial establecer claramente qué direcciones IP, dominios y servicios están dentro del alcance de la evaluación3. Por ejemplo, si una empresa tiene todos sus servicios (web, correo, etc.) alojados externamente en la nube, el alcance debe definir precisamente qué sistemas pueden ser evaluados sin afectar a otros clientes del proveedor de servicios3.
Proceso Sistemático de Recolección
El proceso de recolección debe seguir una metodología sistemática que asegure la cobertura completa sin generar actividad detectable. Comenzando con fuentes completamente pasivas como sitios web corporativos, redes sociales y bases de datos públicas, el proceso progresa gradualmente hacia técnicas que implican consultas DNS pasivas y búsquedas especializadas211.
La recolección debe documentar meticulosamente todos los hallazgos, incluyendo la fuente de cada pieza de información y el momento de su obtención. Esta documentación no solo sirve para propósitos de reporte, sino que también permite la reproducibilidad de los resultados y proporciona un registro auditable del proceso3.
sequenceDiagram
participant A as Auditor
participant G as Google
participant S as Shodan
participant M as Maltego
participant T as theHarvester
participant F as FOCA
A->>G: Búsqueda inicial del dominio
G-->>A: Resultados básicos y cache
A->>T: Enumeración de emails y subdominios
T-->>A: Lista de direcciones y hosts
A->>S: Búsqueda de dispositivos expuestos
S-->>A: IPs y servicios públicos
A->>G: Google Dorking con operadores
G-->>A: Archivos y directorios sensibles
A->>F: Descarga y análisis de documentos
F-->>A: Metadatos extraídos
A->>M: Mapeo de relaciones
M-->>A: Grafo de conexiones
Note over A: Análisis y correlación de datos
Consideraciones Éticas y Legales
La recolección de información pasiva, aunque utiliza únicamente fuentes públicas, requiere adherencia estricta a consideraciones éticas y legales211. El marco legal varía significativamente entre jurisdicciones, y los profesionales deben asegurar el cumplimiento con regulaciones como GDPR en Europa y leyes nacionales de protección de datos4.
Es fundamental obtener autorización explícita por escrito antes de iniciar cualquier actividad de recolección, incluso cuando se utilicen únicamente fuentes públicas11. Esta autorización debe especificar claramente el alcance de las actividades permitidas, los tipos de información que pueden recolectarse, y las restricciones sobre el uso y almacenamiento de los datos obtenidos11.
Los auditores deben también considerar el impacto potencial de sus actividades en terceros. Por ejemplo, aunque la información esté disponible públicamente, su agregación y análisis sistemático podría plantear preocupaciones de privacidad para empleados individuales de la organización objetivo4. Las mejores prácticas incluyen minimizar la recolección de información personal identificable, implementar controles de acceso estrictos sobre los datos recolectados, y establecer políticas claras para la retención y eliminación de información sensible4.
Integración con Metodologías Estándar
PTES (Penetration Testing Execution Standard)
El estándar PTES posiciona la recolección de información como la segunda de siete fases fundamentales en el proceso de pentesting714. Esta metodología reconoce dos niveles principales de recolección: Level 1 (orientado al cumplimiento) que puede obtenerse principalmente mediante herramientas automatizadas, y Level 2 (mejores prácticas) que requiere análisis manual y un entendimiento profundo del negocio, incluyendo ubicación física, relaciones comerciales y organigrama6.
PTES enfatiza que la recolección de información debe proporcionar inteligencia suficiente para informar las fases subsecuentes de modelado de amenazas, análisis de vulnerabilidades y explotación7. La metodología recomienda categorizar la información recolectada según fuente, relevancia, tipo y contexto para facilitar su análisis posterior14.
NIST SP 800-115
El marco NIST para testing de seguridad incluye la recolección de información como parte fundamental de su proceso de cuatro etapas: planificación, descubrimiento, ataque y reporte15. La fase de descubrimiento de NIST abarca tanto técnicas pasivas como activas, pero enfatiza que las técnicas pasivas deben preceder a cualquier actividad que pueda generar tráfico hacia los sistemas objetivo15.
NIST destaca la importancia de correlacionar información de múltiples fuentes para desarrollar una imagen completa del panorama de amenazas15. Esta correlación permite identificar patrones que podrían no ser evidentes al examinar fuentes individuales, proporcionando insights más profundos sobre posibles vectores de ataque15.
Herramientas Automatizadas y Scripts Personalizados
Automatización de Procesos
La automatización juega un papel crucial en la recolección eficiente de información a gran escala. Herramientas como PTHelper proporcionan enfoques modulares para automatizar el proceso de pentesting, incluyendo la fase de recolección de información16. Estos frameworks permiten a los auditores ejecutar múltiples técnicas de recolección de manera coordinada, reduciendo el tiempo necesario y minimizando errores humanos16.
RapidPen representa un ejemplo de automatización avanzada que utiliza agentes basados en Large Language Models (LLM) para automatizar completamente el proceso de pentesting desde la recolección inicial hasta la obtención de acceso17. Aunque estas herramientas están en desarrollo, demuestran la evolución hacia metodologías más automatizadas que pueden complementar el trabajo manual especializado17.
Scripts Personalizados y APIs
Los profesionales experimentados frecuentemente desarrollan scripts personalizados que integran múltiples fuentes de datos y automatizan tareas repetitivas. Estos scripts pueden utilizar APIs públicas de servicios como Shodan, VirusTotal, y diversos motores de búsqueda para recopilar información de manera sistemática4. La ventaja de los scripts personalizados radica en su capacidad para adaptarse a requisitos específicos del proyecto y integrar fuentes de datos únicas o especializadas4.
El desarrollo de scripts personalizados también permite la implementación de técnicas de correlación avanzadas que pueden identificar patrones complejos en los datos recolectados. Por ejemplo, un script podría correlacionar metadatos de documentos con información de empleados obtenida de redes sociales para identificar patrones de nomenclatura de usuarios o estructuras organizacionales4.
Conclusiones y Mejores Prácticas
La recolección de información pasiva constituye el fundamento sobre el cual se construye todo pentesting exitoso, requiriendo una combinación de rigor metodológico, competencia técnica y consideración ética. La inversión adecuada de tiempo y recursos en esta fase inicial genera dividendos significativos en términos de efectividad y eficiencia durante las fases subsecuentes del proceso de evaluación de seguridad.
Las mejores prácticas establecen que los auditores deben priorizar las técnicas pasivas para establecer una base de conocimiento antes de proceder a métodos más intrusivos, utilizar una combinación de métodos automatizados y manuales para asegurar cobertura completa, mantener documentación meticulosa de todos los hallazgos y fuentes, implementar controles estrictos para proteger la información recolectada, y adherirse rigurosamente a consideraciones éticas y legales durante todo el proceso211.
La evolución continua del panorama de amenazas y la creciente sofisticación de las defensas organizacionales demandan que los profesionales de seguridad mantengan competencias actualizadas en técnicas de recolección de información. El dominio de estas metodologías no solo mejora la efectividad de las evaluaciones de seguridad individuales, sino que también contribuye al avance general de la disciplina de seguridad informática, proporcionando insights valiosos que benefician a toda la comunidad de ciberseguridad.
Video base
Referencias
https://www.dummies.com/article/academics-the-arts/study-skills-test-prep/comptia-pentestplus/passive-information-gathering-for-pentesting-275726/ ↩
https://the-pentesting-guide.marmeus.com/1-information_gathering ↩ ↩2 ↩3 ↩4 ↩5
https://www.youtube.com/watch?v=Tv3BVqmrFiQ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16
https://cyble.com/knowledge-hub/top-15-osint-tools-for-powerful-intelligence-gathering/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11
https://www.infosectrain.com/blog/step-by-step-guide-for-theharvester-tool/ ↩ ↩2 ↩3 ↩4 ↩5
http://www.pentest-standard.org/index.php/Intelligence_Gathering ↩ ↩2 ↩3
https://owasp.org/www-project-web-security-testing-guide/v41/3-The_OWASP_Testing_Framework/1-Penetration_Testing_Methodologies ↩ ↩2 ↩3 ↩4
https://www.recordedfuture.com/threat-intelligence-101/threat-analysis-techniques/google-dorks ↩ ↩2
https://www.hackercoolmagazine.com/beginners-guide-to-theharvester-tool/ ↩ ↩2
https://www.siberoloji.com/the-importance-of-reconnaissance-in-ethical-hacking/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
https://www.redcellsecurity.org/post/introducing-sidikjari-metadata-extraction-for-cybersecurity-professionals ↩ ↩2 ↩3
https://telefonicatech.com/en/blog/how-to-analyze-documents-with-foca-in-ten-steps-or-fewer ↩ ↩2 ↩3 ↩4
https://datami.ee/blog/penetration-testing-execution-standard-7-ptes-stages/ ↩ ↩2
https://thecyphere.com/blog/nist-penetration-testing/ ↩ ↩2 ↩3 ↩4