Page cover

🕸️Crawling

Introducción

El crawling (tambien llamado spidering) es el proceso sistemático o automático de explorar un sitio web para enumerar todos los recursos encontrados. Nos muestra la estructura del sitio web que estamos auditando y una descripción general de la superficie de ataque que probaremos en el futuro. Utilizamos el proceso de crawling para encontrar tantas páginas y subdirectorios pertenecientes a un sitio web como sea posible.

De manera similar a cómo una araña navega por su red, un rastreador web sigue enlaces de una página a otra y recopila información. Estos rastreadores son esencialmente robots que utilizan algoritmos predefinidos para descubrir e indexar páginas web, haciéndolas accesibles a través de motores de búsqueda o para otros fines como análisis de datos y reconocimiento web.

Cómo funcionan los rastreadores web

El funcionamiento básico de un rastreador web es sencillo pero potente. Comienza con una URL inicial, que es la página web inicial a rastrear. El rastreador busca esta página, analiza su contenido y extrae todos sus enlaces. Luego agrega estos enlaces a una cola y los rastrea, repitiendo el proceso de forma iterativa. Dependiendo de su alcance y configuración, el rastreador puede explorar un sitio web completo o incluso una gran parte de la web.

  1. Homepage: comienza con la página de inicio que contiene link1, link2 y link3

Homepage
├── link1
├── link2
└── link3
  1. Visitar link1: Al visitar link1 se muestra la página de inicio, link2 y también link4y link5

link1
├── Homepage
├── link2
├── link4
└── link5
  1. Continua el Crawling: El rastreador continúa siguiendo estos enlaces sistemáticamente, recopilando todas las páginas accesibles y sus enlaces.

Este ejemplo ilustra cómo un rastreador web descubre y recopila información siguiendo enlaces sistemáticamente, distinguiéndolo de la confusión, que implica adivinar enlaces potenciales.

Hay dos tipos principales de estrategias de crawling:

Breadth-First Crawling

Breadth-first crawling prioriza explorar el ancho de un sitio web antes de profundizar. Comienza rastreando todos los enlaces de la página inicial, luego pasa a los enlaces de esas páginas, y así sucesivamente. Esto es útil para obtener una visión general amplia de la estructura y el contenido de un sitio web.

Depth-First Crawling

Por el contrario, depth-first crawling prioriza la profundidad sobre la amplitud. Sigue un único camino de enlaces en la medida de lo posible antes de retroceder y explorar otros caminos. Esto puede resultar útil para encontrar contenido específico o profundizar en la estructura de un sitio web.

La elección de la estrategia depende de los objetivos específicos del proceso de rastreo.

Extraer información valiosa

Los rastreadores pueden extraer una amplia gama de datos, cada uno de los cuales tiene un propósito específico en el proceso de reconocimiento:

  • Links (Internos y Externos): Estos son los componentes fundamentales de la web, conectando páginas dentro de un sitio web (links internos) y con otros sitios web (links internos). Los rastreadores recopilan meticulosamente estos enlaces, lo que le permite trazar la estructura de un sitio web, descubrir páginas ocultas e identificar relaciones con recursos externos.

  • Comentarios: Las secciones de comentarios en blogs, foros u otras páginas interactivas pueden ser una mina de oro de información. Los usuarios a menudo revelan sin darse cuenta detalles confidenciales, procesos internos o indicios de vulnerabilidades en sus comentarios.

  • Metadatos: Los metadatos se refieren a datos sobre datos. En el contexto de las páginas web, incluye información como títulos de páginas, descripciones, palabras clave, nombres de autores y fechas. Estos metadatos pueden proporcionar un contexto valioso sobre el contenido, el propósito y la relevancia de una página para sus objetivos de reconocimiento.

  • Archivos sensibles: Los rastreadores web se pueden configurar para buscar activamente archivos confidenciales que podrían quedar expuestos inadvertidamente en un sitio web. Esto incluye backups(p. ej. .bak, , .old), archivos de configuración(p. ej. web.config, settings.php), archivos de log (p. ej. error_log, access_log) y otros archivos que contienen contraseñas API keys u otra información confidencial. Examinar detenidamente los archivos extraídos, especialmente los archivos de copia de seguridad y de configuración, puede revelar una gran cantidad de información confidencial, como credenciales de una base de datos, claves de encriptación o incluso fragmentos de código fuente.

La importancia del contexto

Comprender el contexto que rodea los datos extraídos es primordial.

Un solo dato, como un comentario que mencione una versión de software específica, puede no parecer significativo por sí solo. Sin embargo, cuando se combina con otros hallazgos, como una versión desactualizada incluida en los metadatos o un archivo de configuración potencialmente vulnerable descubierto mediante el rastreo, puede transformarse en un indicador crítico de una vulnerabilidad potencial.

El verdadero valor de los datos extraídos radica en conectar los puntos y construir una imagen completa del panorama digital del objetivo.

Por ejemplo, una lista de enlaces extraídos puede parecer inicialmente mundana. Pero tras un examen más detenido, observa un patrón: varias URL apuntan a un directorio llamado /files/. Esto despierta su curiosidad y decide visitar manualmente el directorio. Para su sorpresa, descubre que la exploración de directorios está habilitada, lo que expone una gran cantidad de archivos, incluidos archivos de respaldo, documentos internos y datos potencialmente confidenciales. Este descubrimiento no habría sido posible simplemente observando enlaces individuales de forma aislada; El análisis contextual lo llevó a este hallazgo crítico.

De manera similar, comentarios aparentemente inofensivos pueden adquirir importancia cuando se correlacionan con otros descubrimientos. Es posible que un comentario que mencione un "servidor de archivos" no genere ninguna señal de alerta inicialmente. Sin embargo, cuando se combina con el descubrimiento del /files/directorio antes mencionado, refuerza la posibilidad de que el servidor de archivos sea de acceso público, lo que podría exponer información sensible o datos confidenciales.

Por lo tanto, es esencial abordar el análisis de datos de manera integral, considerando las relaciones entre los diferentes puntos de datos y sus posibles implicaciones para sus objetivos de reconocimiento.


Robots.txt

Imagina que eres un invitado a una gran fiesta en una casa. Si bien eres libre de socializar y explorar, es posible que haya ciertas salas marcadas como "Privadas" que se espera que evites. Esto es similar a cómo funciona robots.txt en el mundo del rastreo web. Actúa como una "guía de etiquetado" virtual para los bots, describiendo a qué áreas de un sitio web se les permite acceder y cuáles están prohibidas.

¿Qué es robots.txt?

Técnicamente, robots.txt es un archivo de texto simple ubicado en el directorio raíz de un sitio web (por ejemplo, www.example.com/robots.txt). Cumple con el Estándar de exclusión de robots, pautas sobre cómo deben comportarse los rastreadores web cuando visitan un sitio web. Este archivo contiene instrucciones en forma de "directivas" que indican a los robots qué partes del sitio web pueden y no pueden rastrear.

Cómo funciona el archivo robots.txt

Las directivas en robots.txt generalmente apuntan a user-agents específicos, que son identificadores para diferentes tipos de bots. Por ejemplo, una directiva podría verse así:

User-agent: *
Disallow: /private/

Esta directiva les dice a todos los User-agent ( *es un comodín) que no pueden acceder a ninguna URL que comience con /private/. Otras directivas pueden permitir el acceso a directorios o archivos específicos, establecer retrasos en el rastreo para evitar sobrecargar un servidor o proporcionar enlaces a sitemaps para un rastreo eficiente.

Estructura de robots.txt

El archivo robots.txt es un documento de texto sin formato que se encuentra en el directorio raíz de un sitio web. Sigue una estructura sencilla, con cada conjunto de instrucciones, o "registro", separados por una línea en blanco. Cada registro consta de dos componentes principales:

  1. User-agent: esta línea especifica a qué rastreador o bot se aplican las siguientes reglas. Un comodín ( *) indica que las reglas se aplican a todos los bots. También se pueden seleccionar agentes de usuario específicos, como "Googlebot" (el rastreador de Google) o "Bingbot" (el rastreador de Microsoft).

  2. Directivas: Estas líneas proporcionan instrucciones específicas al usuario-agente identificado.

Las directivas comunes incluyen:

Directiva

Descripción

Ejemplo

Disallow

Especifica rutas o patrones que el bot no debe rastrear.

Disallow: /admin/(no permite el acceso al directorio de administración)

Allow

Permite explícitamente que el bot rastree rutas o patrones específicos, incluso si se encuentran bajo una regla Disallow más amplia.

Allow: /public/(permite el acceso al directorio público)

Crawl-delay

Establece un retraso (en segundos) entre solicitudes sucesivas del bot para evitar sobrecargar el servidor.

Crawl-delay: 10(Retraso de 10 segundos entre solicitudes)

Sitemap

Proporciona la URL de un mapa del sitio XML para un rastreo más eficiente.

Sitemap: https://www.example.com/sitemap.xml

¿Por qué respetar el archivo robots.txt?

Si bien el archivo robots.txt no se puede aplicar estrictamente (un robot malicioso aún podría ignorarlo), la mayoría de los rastreadores web y robots de motores de búsqueda legítimos respetarán sus directivas. Esto es importante por varias razones:

  • Evitar sobrecargar los servidores: Al limitar el acceso de los rastreadores a ciertas áreas, los propietarios de sitios web pueden evitar un tráfico excesivo que podría ralentizar o incluso bloquear sus servidores.

  • Proteger información sensible: Robots.txt puede proteger la información privada o confidencial para que no sea indexada por los motores de búsqueda.

  • Cumplimiento Legal y Ético: En algunos casos, ignorar las directivas de robots.txt podría considerarse una violación de los términos de servicio de un sitio web o incluso una cuestión legal, especialmente si implica acceder a datos privados o protegidos por derechos de autor.

Robots.txt en Reconocimiento Web

Para el reconocimiento web, robots.txt constituye una valiosa fuente de inteligencia. Si bien respetan las directivas descritas en este archivo, los profesionales de la seguridad pueden obtener información crucial sobre la estructura y las posibles vulnerabilidades de un sitio web objetivo:

  • Descubrir directorios ocultos: Las rutas no permitidas en robots.txt a menudo apuntan a directorios o archivos que el propietario del sitio web desea intencionalmente mantener fuera del alcance de los rastreadores de los motores de búsqueda. Estas áreas ocultas pueden albergar información confidencial, archivos de respaldo, paneles administrativos u otros recursos que podrían interesar a un atacante.

  • Mapeo de la estructura del sitio web: Al analizar las rutas permitidas y no permitidas, los profesionales de seguridad pueden crear un mapa rudimentario de la estructura del sitio web. Esto puede revelar secciones que no están vinculadas desde la navegación principal, lo que podría conducir a páginas o funcionalidades no descubiertas.

  • Detectar Crawler Traps: Algunos sitios web incluyen intencionalmente directorios "honeypot" en robots.txt para atraer robots maliciosos. La identificación de dichas trampas puede proporcionar información sobre la conciencia de seguridad y las medidas defensivas del objetivo.

Analizando robots.txt

A continuación se muestra un ejemplo de un archivo robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

User-agent: Googlebot
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Este archivo contiene las siguientes directivas:

  • Ningún user-agent puede acceder a los directorios /admin/ y /private/

  • Todos los user-agent pueden acceder al directorio /public/

  • Googlebot (El rastreador web de Google) recibe instrucciones específicas de esperar 10 segundos entre solicitudes.

  • El sitemap, ubicado en https://www.example.com/sitemap.xml, se proporciona para facilitar el rastreo y la indexación.

Al analizar este archivo robots.txt, podemos inferir que el sitio web probablemente tenga un panel de administración ubicado /admin/ y algún contenido privado en el /private/ directorio.


Well-Known URLs

El estándar .well-known, definido en RFC 8615 , sirve como un directorio estandarizado dentro del dominio raíz de un sitio web. Esta ubicación designada, generalmente accesible a través de la ruta /.well-known/ de un servidor web, centraliza los metadatos críticos de un sitio web, incluidos archivos de configuración e información relacionada con sus servicios, protocolos y mecanismos de seguridad.

Al establecer una ubicación coherente para dichos datos, .well-known simplifica el proceso de descubrimiento y acceso para diversas partes interesadas, incluidos navegadores web, aplicaciones y herramientas de seguridad. Este enfoque simplificado permite a los clientes localizar y recuperar automáticamente archivos de configuración específicos mediante la construcción de la URL adecuada. Por ejemplo, para acceder a la política de seguridad de un sitio web, un cliente solicitaría https://example.com/.well-known/security.txt.

( IANA - Internet Assigned Numbers Authority) mantiene un registro de URI, cada uno de los cuales tiene un propósito específico definido por varias especificaciones y estándares. A continuación se muestra una tabla que destaca algunos ejemplos notables:IANA.well-known

Sufijo URI

Descripción

Estado

Referencia

security.txt

Contiene información de contacto para que los investigadores de seguridad informen vulnerabilidades.

Permanente

RFC 9116

/.well-known/change-password

Proporciona una URL estándar para dirigir a los usuarios a una página de cambio de contraseña.

Provisional

https://w3c.github.io/webappsec-change-password-url/#the-change-password-well-known-uri

openid-configuration

Define los detalles de configuración para OpenID Connect, una capa de identidad además del protocolo OAuth 2.0.

Permanente

http://openid.net/specs/openid-connect-discovery-1_0.html

assetlinks.json

Se utiliza para verificar la propiedad de activos digitales (por ejemplo, aplicaciones) asociados con un dominio.

Permanente

https://github.com/google/digitalassetlinks/blob/master/well-known/specification.md

mta-sts.txt

Especifica la política de seguridad de transporte estricta SMTP MTA (MTA-STS) para mejorar la seguridad del correo electrónico.

Permanente

RFC 8461

Esta es sólo una pequeña muestra de los muchos .well-knownURI registrados en la IANA. Cada entrada en el registro ofrece pautas y requisitos específicos para la implementación, lo que garantiza un enfoque estandarizado para aprovechar el mecanismo .well-known para diversas aplicaciones.

.well-known en Reconocimiento Web

En el reconocimiento web, las URLs .well-known pueden ser invaluables para descubrir endpoints y detalles de configuración que se pueden probar más durante una prueba de penetración. Un URI particularmente útil es openid-configuration.

El openid-configuration es parte del protocolo OpenID Connect Discovery, una capa de identidad construida sobre el protocolo OAuth 2.0. Cuando una aplicación cliente desea utilizar OpenID Connect para la autenticación, puede recuperar la configuración del proveedor de OpenID Connect accediendo al endpoint https://example.com/.well-known/openid-configuration. Este endpoint devuelve un documento JSON que contiene metadatos sobre los endpoints del proveedor, métodos de autenticación admitidos, emisión de tokens y más:

{
  "issuer": "https://example.com",
  "authorization_endpoint": "https://example.com/oauth2/authorize",
  "token_endpoint": "https://example.com/oauth2/token",
  "userinfo_endpoint": "https://example.com/oauth2/userinfo",
  "jwks_uri": "https://example.com/oauth2/jwks",
  "response_types_supported": ["code", "token", "id_token"],
  "subject_types_supported": ["public"],
  "id_token_signing_alg_values_supported": ["RS256"],
  "scopes_supported": ["openid", "profile", "email"]
}

La información obtenida del endpoint openid-configuration brinda múltiples oportunidades de exploración:

  1. Endpoint Discovery:

  • Authorization Endpoint: Identifica la URL para las solicitudes de autorización de usuarios.

  • Token Endpoint: Encuentra la URL donde se emiten los tokens.

  • Userinfo Endpoint: Localización del endpoint que proporciona información del usuario.

  1. JWKS URI: jwks_uri revela el JSON Web Key Set( JWKS), detallando las claves criptográficas utilizadas por el servidor.

  2. Alcances admitidos y tipos de respuesta: Comprender qué alcances y tipos de respuesta se admiten ayuda a mapear la funcionalidad y las limitaciones de la implementación de OpenID Connect.

  3. Detalles del algoritmo: La información sobre los algoritmos de firma admitidos puede ser crucial para comprender las medidas de seguridad implementadas.

Explorar el Registro de la IANA y experimentar con los distintos .well-knownURI es un enfoque invaluable para descubrir oportunidades adicionales de reconocimiento web. Como se demostró con el punto anterior openid-configuration, estos URI estandarizados brindan acceso estructurado a metadatos críticos y detalles de configuración, lo que permite a los profesionales de la seguridad trazar de manera integral el panorama de seguridad de un sitio web.

Última actualización

¿Te fue útil?