BuscarWeb

Sobre BuscarWebBot

Última actualización: febrero 2026

¿Qué es BuscarWebBot?

BuscarWebBot es el rastreador web (crawler) de BuscarWeb, el buscador en español. Su función es descubrir, visitar e indexar páginas web accesibles públicamente en Internet para que sus contenidos puedan aparecer en los resultados de búsqueda de BuscarWeb.

Cómo identificar a BuscarWebBot

BuscarWebBot se identifica en todas sus peticiones HTTP mediante el siguiente User-Agent:

BuscarWebBot/1.0 (+https://buscarweb.com/bot)

Todas las visitas incluyen este encabezado. Puedes usarlo para identificar y, si lo deseas, filtrar las solicitudes del bot en los registros de tu servidor.

Cómo funciona

BuscarWebBot opera siguiendo un proceso estructurado y respetuoso con los servidores que visita:

  1. Verificación de robots.txt — Antes de visitar cualquier página, el bot consulta el archivo robots.txt del dominio para comprobar si tiene permiso de acceso. Las reglas se almacenan en caché durante 24 horas para reducir la carga en los servidores.
  2. Control de velocidad — El bot aplica un límite de velocidad de 1 solicitud por segundo por dominio, respetando siempre el valor Crawl-delay indicado en el robots.txt si este es superior.
  3. Descarga de la página — El bot intenta obtener el contenido mediante una solicitud HTTP estándar. Para páginas de tipo SPA (Single Page Application) cuyo contenido se genera con JavaScript, utiliza un navegador headless como alternativa.
  4. Extracción del contenido — Se extraen el título, descripción, texto principal, idioma de la página y los enlaces internos y externos encontrados.
  5. Deduplicación — Para evitar indexar contenido duplicado, se calcula una huella SHA-256 del contenido de cada página. Las páginas con contenido idéntico solo se indexan una vez.
  6. Indexación — El contenido extraído se almacena y se indexa en el motor de búsqueda para que esté disponible en los resultados de BuscarWeb.
  7. Seguimiento de enlaces — Los enlaces encontrados en la página se encolan para ser rastreados, con una profundidad máxima de 3 niveles y un límite de 500 páginas por dominio.

Controlar el acceso de BuscarWebBot

Respetamos plenamente el estándar Robots Exclusion Protocol (robots.txt). Puedes limitar o bloquear al bot añadiendo las siguientes directivas a tu archivo /robots.txt:

Bloquear todo el sitio:

User-agent: BuscarWebBot
Disallow: /

Bloquear secciones específicas:

User-agent: BuscarWebBot
Disallow: /privado/
Disallow: /admin/

Establecer un retardo de rastreo:

User-agent: BuscarWebBot
Crawl-delay: 10

Los cambios en el archivo robots.txt se reflejan en el comportamiento del bot en un plazo máximo de 24 horas (tiempo de caché de las reglas).

Principios de rastreo

  • Respeta siempre las directivas del archivo robots.txt.
  • No extrae información personal ni contenidos detrás de autenticación.
  • Limita su velocidad para no sobrecargar los servidores.
  • Solo indexa contenido accesible públicamente.
  • No almacena contraseñas, datos de pago ni información sensible.
  • Aplica deduplicación para no visitar el mismo contenido más de una vez.

Contacto

Si tienes alguna pregunta sobre BuscarWebBot, deseas solicitar la eliminación de tu sitio del índice o comunicar un problema relacionado con el bot, puedes contactarnos en info@buscarweb.com.