Sobre BuscarWebBot
Última actualización: febrero 2026
¿Qué es BuscarWebBot?
BuscarWebBot es el rastreador web (crawler) de BuscarWeb, el buscador en español. Su función es descubrir, visitar e indexar páginas web accesibles públicamente en Internet para que sus contenidos puedan aparecer en los resultados de búsqueda de BuscarWeb.
Cómo identificar a BuscarWebBot
BuscarWebBot se identifica en todas sus peticiones HTTP mediante el siguiente User-Agent:
BuscarWebBot/1.0 (+https://buscarweb.com/bot)
Todas las visitas incluyen este encabezado. Puedes usarlo para identificar y, si lo deseas, filtrar las solicitudes del bot en los registros de tu servidor.
Cómo funciona
BuscarWebBot opera siguiendo un proceso estructurado y respetuoso con los servidores que visita:
- Verificación de robots.txt — Antes de visitar cualquier página, el bot consulta el archivo
robots.txtdel dominio para comprobar si tiene permiso de acceso. Las reglas se almacenan en caché durante 24 horas para reducir la carga en los servidores. - Control de velocidad — El bot aplica un límite de velocidad de 1 solicitud por segundo por dominio, respetando siempre el valor
Crawl-delayindicado en elrobots.txtsi este es superior. - Descarga de la página — El bot intenta obtener el contenido mediante una solicitud HTTP estándar. Para páginas de tipo SPA (Single Page Application) cuyo contenido se genera con JavaScript, utiliza un navegador headless como alternativa.
- Extracción del contenido — Se extraen el título, descripción, texto principal, idioma de la página y los enlaces internos y externos encontrados.
- Deduplicación — Para evitar indexar contenido duplicado, se calcula una huella SHA-256 del contenido de cada página. Las páginas con contenido idéntico solo se indexan una vez.
- Indexación — El contenido extraído se almacena y se indexa en el motor de búsqueda para que esté disponible en los resultados de BuscarWeb.
- Seguimiento de enlaces — Los enlaces encontrados en la página se encolan para ser rastreados, con una profundidad máxima de 3 niveles y un límite de 500 páginas por dominio.
Controlar el acceso de BuscarWebBot
Respetamos plenamente el estándar Robots Exclusion Protocol (robots.txt). Puedes limitar o bloquear al bot añadiendo las siguientes directivas a tu archivo /robots.txt:
Bloquear todo el sitio:
User-agent: BuscarWebBot Disallow: /
Bloquear secciones específicas:
User-agent: BuscarWebBot Disallow: /privado/ Disallow: /admin/
Establecer un retardo de rastreo:
User-agent: BuscarWebBot Crawl-delay: 10
Los cambios en el archivo robots.txt se reflejan en el comportamiento del bot en un plazo máximo de 24 horas (tiempo de caché de las reglas).
Principios de rastreo
- Respeta siempre las directivas del archivo
robots.txt. - No extrae información personal ni contenidos detrás de autenticación.
- Limita su velocidad para no sobrecargar los servidores.
- Solo indexa contenido accesible públicamente.
- No almacena contraseñas, datos de pago ni información sensible.
- Aplica deduplicación para no visitar el mismo contenido más de una vez.
Contacto
Si tienes alguna pregunta sobre BuscarWebBot, deseas solicitar la eliminación de tu sitio del índice o comunicar un problema relacionado con el bot, puedes contactarnos en info@buscarweb.com.