Documentación

Todo sobre cómo funciona BuscarWeb

1. ¿Qué es BuscarWeb?

BuscarWeb es un buscador web independiente en español. Su objetivo es ofrecer resultados relevantes de Internet sin depender de los grandes agregadores de búsqueda, dando prioridad al contenido en castellano y facilitando el descubrimiento de páginas y recursos hispanos.

A diferencia de los buscadores que actúan como intermediarios de otros índices, BuscarWeb construye su propio índice mediante un rastreador web propio: BuscarWebBot. Esto permite un control total sobre qué se indexa, cómo se puntúan los resultados y de qué manera se preserva la privacidad del usuario.

2. Cómo funciona la búsqueda

Cuando introduces una consulta en BuscarWeb, el sistema realiza los siguientes pasos de forma inmediata:

Tokenización: la consulta se descompone en términos individuales y se normalizan (minúsculas, acentos, stopwords).
Consulta al índice: se buscan los documentos del índice invertido que contienen los términos de la consulta.
Puntuación y ranking: cada resultado recibe una puntuación basada en relevancia textual, popularidad de la URL y calidad del contenido.
Filtrado: se eliminan duplicados, spam y URLs con contenido vacío o irrelevante.
Presentación: los resultados se muestran paginados con título, descripción y URL visible.

El tiempo de respuesta suele ser inferior a 200 ms para la mayoría de consultas.

3. El índice de BuscarWeb

El índice es la base de datos central del buscador. Contiene millones de páginas web procesadas por BuscarWebBot y almacenadas de forma eficiente para su recuperación rápida.

Cada entrada del índice incluye:

La URL canónica de la página
El título y la descripción (meta description)
Los términos principales extraídos del contenido
La fecha de última visita del rastreador
Señales de calidad: tiempo de carga, densidad de contenido, estructura HTML

El índice se actualiza de forma continua a medida que BuscarWebBot visita y revisita páginas. Las páginas activas y con mucha actividad se revisan con mayor frecuencia.

4. BuscarWebBot: el rastreador

BuscarWebBot es el rastreador web (crawler) de BuscarWeb, responsable de descubrir y procesar páginas web para incluirlas en el índice.

Se identifica con el siguiente User-Agent:

Mozilla/5.0 (compatible; BuscarWebBot/1.0; +https://buscarweb.com/sobre-buscarwebbot)

Respeta escrupulosamente el fichero robots.txt de cada sitio web, así como las directivas noindex y nofollow en los metadatos HTML.

Para más detalles técnicos sobre el rastreador, visita la página Sobre BuscarWebBot.

5. Resultados de búsqueda

Los resultados de BuscarWeb son únicamente páginas web indexadas por BuscarWebBot. No mostramos anuncios ni resultados patrocinados mezclados con los resultados orgánicos.

Cada resultado muestra:

Título: el texto del elemento <title> de la página
Descripción: la meta description o un fragmento relevante del contenido
URL: la dirección completa del recurso
Dominio destacado: para identificar rápidamente la fuente

En algunas búsquedas, BuscarWeb puede mostrar adicionalmente:

Un extracto de Wikipedia si la consulta coincide con un artículo enciclopédico
Noticias recientes relacionadas con la búsqueda
Productos si la consulta tiene intención de compra
Negocios y lugares cercanos si la búsqueda es local

6. Noticias

BuscarWeb incorpora un módulo de noticias que agrega titulares de medios en español. Las noticias se obtienen de fuentes RSS/Atom de periódicos y medios de comunicación hispanohablantes y se actualizan regularmente.

Puedes acceder a la sección de noticias desde el enlace Noticias en la página principal o bien las noticias aparecerán directamente si realizas una búsqueda de actualidad.

7. Productos

La sección de Productos permite buscar artículos de tiendas en línea indexados por BuscarWebBot. Los resultados incluyen imagen, precio, tienda de origen y un enlace directo a la ficha del producto.

Los productos se indexan a partir de páginas con datos estructurados (schema.org/Product) o mediante el procesamiento del contenido de tiendas conocidas.

8. Privacidad y datos

BuscarWeb está diseñado con la privacidad como principio fundamental:

No rastreamos a los usuarios: no utilizamos cookies de seguimiento publicitario.
No perfilamos búsquedas: las consultas no se asocian a perfiles permanentes de usuario.
Sin terceros publicitarios: no compartimos datos de búsqueda con redes de anuncios.
Datos mínimos: solo recopilamos los datos imprescindibles para el funcionamiento del servicio.

Para más información, consulta nuestra Política de Privacidad.

9. Para webmasters: robots.txt y control de indexación

Si eres propietario de un sitio web, puedes controlar cómo BuscarWebBot interactúa con él:

Bloquear completamente el rastreador

User-agent: BuscarWebBot
Disallow: /

Bloquear una sección específica

User-agent: BuscarWebBot
Disallow: /privado/

Excluir una página de los resultados (en el HTML)

<meta name="robots" content="noindex, nofollow">

Para solicitar la eliminación urgente de una URL ya indexada, contacta con nosotros indicando la URL y el motivo.

10. Contacto

Para cualquier consulta técnica, solicitud de desindexación o sugerencia sobre el buscador:

Correo electrónico: info@buscarweb.com