En los últimos años, ha surgido un nuevo tipo de visitante en tu sitio web. Es silencioso, increíblemente rápido y vorazmente curioso. No convierte, no aparece en Google Analytics y, sin embargo, puede estar generando un porcentaje significativo de tu tráfico total. Hablamos de los bots de los Grandes Modelos de Lenguaje (LLMs), como GPTBot de OpenAI o Google-Extended.
Mientras que las herramientas de analítica tradicionales nos han enseñado a centrarnos en el tráfico humano, una revolución invisible está ocurriendo en las entrañas de nuestros servidores. Los LLMs están rastreando la web a una escala masiva para entrenar sus modelos y para alimentar sus respuestas en tiempo real. Ignorar este tráfico es como navegar a ciegas en la nueva era de la búsqueda y la IA.
La única fuente de la verdad para entender este fenómeno son los logs (registros) de tu servidor. Este análisis, antes relegado a desarrolladores para depurar errores, se ha convertido en una herramienta de inteligencia estratégica fundamental para cualquier SEO o propietario de un negocio digital. Esta guía te enseñará a leer e interpretar estos registros para descubrir exactamente cómo interactúan los LLMs con tu web.
¿Por qué el análisis de Logs es crítico ahora mismo?
Las plataformas como Google Analytics 4 están diseñadas para medir la interacción humana y, por defecto, filtran la mayor parte del tráfico de bots conocido. Esto crea un punto ciego masivo. El análisis de logs te permite ver:
- El volumen real de rastreo de IA: Descubrirás qué porcentaje de los recursos de tu servidor (y por tanto, de tu dinero) se está destinando a alimentar a estos bots.
- Qué contenido les interesa: Sabrás qué páginas y secciones de tu web consideran más valiosas los LLMs para sus fines, ya sea para entrenamiento o para respuestas en tiempo real (RAG - Retrieval-Augmented Generation).
- La eficiencia de tu servidor: Detectarás si el rastreo intensivo está causando problemas de rendimiento que podrían afectar tanto a los usuarios como a Googlebot (el bot de búsqueda tradicional).
- Seguridad y scraping no seseado: Podrás diferenciar los bots legítimos de los LLMs de los scrapers maliciosos o no identificados que consumen tus recursos.
Accediendo a tus Logs: La puerta de entrada
Para empezar, necesitas acceder a los archivos de log de tu servidor. La ubicación y el método varían según tu proveedor de hosting:
- Paneles de control (cPanel, Plesk): La mayoría de los hostings compartidos ofrecen una sección llamada "Registros" o "Logs" donde puedes ver y descargar los "Access Logs" (Registros de Acceso).
- SSH (Acceso por Llínea de comandos): Si tienes un VPS o un servidor dedicado, puedes acceder directamente a través de SSH y encontrar los logs (normalmente en directorios como /var/log/apache2/ o /var/log/nginx/).
- Contactando con tu proveedor: Si no los encuentras, simplemente solicita a tu proveedor de hosting que te facilite el acceso a los logs de acceso sin procesar.
Un registro de log típico tiene este aspecto:
123.45.67.89 - - [15/Oct/2023:10:00:00 +0000] "GET /blog/mi-articulo HTTP/1.1" 200 1542 "-" "Mozilla/5.0 ..."
Los campos clave son: IP, Timestamp, Request (método, URL), Status Code y, lo más importante para nuestro análisis, el User-Agent.
Identificando a los gigantes de la IA en tus Logs
El User-Agent es la firma que deja cada bot. Aquí tienes cómo identificar a los principales actores:
OpenAI (ChatGPT y GPT-4)
- User-Agent para Entrenamiento: GPTBot
- Este es el bot que OpenAI utiliza para rastrear la web y mejorar sus futuros modelos. Su comportamiento es de rastreo amplio.
- User-Agent para Acciones de Usuario: ChatGPT-User
- Este bot se activa cuando un usuario de ChatGPT Plus utiliza la función de navegación (Browsing) para obtener información actualizada de una URL específica. Su comportamiento es de acceso a una sola página.
- Verificación: OpenAI publica sus rangos de IP. Puedes verificar si una IP pertenece a GPTBot usando un comando en tu terminal: nslookup [DIRECCIÓN_IP]. El resultado debería devolver un dominio que termine en openai.com o openaibot.com.
Google (Vertex AI y Bard/Gemini)
- User-Agent: Google-Extended
- Este es el bot que Google utiliza para alimentar sus productos de IA, como Vertex AI y las funciones de generación de respuestas de Gemini. Es importante no confundirlo con .
- Diferencia Clave: Googlebot rastrea la web para la Búsqueda de Google (indexación y ranking). Google-Extended rastrea la web para los modelos de IA de Google. Tienen propósitos diferentes y debes tratarlos como tales.
- Verificación: Al igual que con Googlebot, puedes verificar las IPs de Google-Extended con un nslookup para asegurarte de que resuelven a un dominio googlebot.com o google.com.
c) Otros Bots relevantes
- Perplexity AI: Su bot se identifica con el User-Agent PerplexityBot.
- Anthropic (Claude): Su bot se llama ClaudeBot.
- Common Crawl: Su User-Agent es CCBot. Aunque no es un LLM en sí, es uno de los proyectos de rastreo más grandes del mundo. Sus datos son un "ingrediente" fundamental para entrenar a muchísimos modelos de IA, por lo que su actividad es un buen indicador del interés general de la comunidad de IA en tu contenido.
- ByteDance (TikTok): Bytespider.
Casos prácticos: Del análisis a la acción
Una vez que sabes a quién buscar, ¿qué puedes hacer con esa información?
Caso 1: Diagnóstico de costes y rendimiento del servidor
- Escenario: Una web de recetas de cocina nota que los costes de su servidor se han disparado y que la web se ralentiza en horas pico.
- Análisis con Línea de Comandos:
- Acceden a los logs y ejecutan un comando para contar las peticiones de los bots de IA:
grep -E "GPTBot|Google-Extended|PerplexityBot" access.log | wc -l - Luego cuentan las peticiones totales: wc -l access.log
- Descubrimiento: Se dan cuenta de que GPTBot y Google-Extended representan el 40% de todas las peticiones a su servidor, rastreando miles de recetas antiguas cada día.
- Acceden a los logs y ejecutan un comando para contar las peticiones de los bots de IA:
Acción: Deciden que este rastreo es excesivo y no les aporta un beneficio directo. Añaden reglas a su archivo robots.txt para limitar a estos bots:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
- Disallow: /recetas/archivo/
Con esto, bloquean completamente a GPTBot y evitan que Google-Extended rastree su archivo de recetas antiguas, reduciendo la carga del servidor y los costes.
Caso 2: Identificación de contenido de alto valor para la IA
- Escenario: Un blog de SaaS sobre finanzas quiere saber qué contenido es más valioso para ser usado en respuestas de IA generativa.
- Análisis con Screaming Frog Log File Analyser:
- Importan sus logs a la herramienta.
- Filtran por el User-Agent PerplexityBot y ChatGPT-User.
- Descubrimiento: Notan un patrón claro. Los bots no están rastreando sus páginas de venta, sino sus artículos de blog más profundos y detallados: "Guía completa sobre la diversificación de carteras", "Análisis comparativo de ETFs vs. Fondos Indexados". En particular, la URL de su "glosario de términos financieros" recibe cientos de hits.
Acción:
Priorizan la Actualización: Deciden mantener estos artículos y el glosario constantemente actualizados, ya que son su principal puerta de entrada para ser citados o usados por la IA.
Estrategia de Contenido: Planean crear más contenido de este tipo (guías profundas, análisis comparativos) al ver que es el formato que más interesa a los LLMs.
Caso 3: Entendiendo la diferencia entre búsqueda e IA
- Escenario: Una tienda e-commerce quiere asegurarse de que Google está indexando correctamente sus nuevos productos.
- Análisis:
- Comparan los logs de Googlebot y Google-Extended.
- Descubrimiento: Googlebot rastrea frecuentemente su sitemap, las páginas de nuevas colecciones y los productos recién añadidos. En cambio, Google-Extended pasa mucho tiempo rastreando las descripciones y, sobre todo, las reseñas de los usuarios de los productos más populares.
Acción: Entienden que para el ranking en la Búsqueda, la frescura y la estructura (sitemap) son clave. Para ser relevante en las respuestas generativas de IA, el contenido generado por el usuario (reseñas) y las descripciones detalladas son increíblemente valiosas. Deciden lanzar una campaña para incentivar más reseñas de productos detalladas.
Controlando el acceso: Tu archivo
Tu archivo robots.txt es la herramienta principal para comunicarte con estos bots. Aquí puedes darles instrucciones claras:
- Para bloquear a un bot específico por completo:
User-agent: GPTBot
- Disallow: /
- Para bloquear a todos los bots de IA de Google:
User-agent: Google-Extended
- Disallow: /
- Para bloquear a un bot de una sección específica:
User-agent: PerplexityBot
- Disallow: /mi-area-privada/
Importante: Bloquear a estos bots es una decisión estratégica. Si los bloqueas, tu contenido no será utilizado para entrenar sus modelos ni para generar respuestas. Esto puede darte control sobre tu propiedad intelectual y reducir costes, pero también podría significar que tu marca pierda visibilidad en las respuestas que estos sistemas dan a los usuarios.
Conclusión: Los Logs son tu nuevo panel de control estratégico
El análisis de logs de servidor ha pasado de ser una tarea de mantenimiento técnico a una práctica de inteligencia de negocio esencial. En un mundo donde la IA está redefiniendo cómo se accede a la información, tus registros de servidor son la única fuente fiable para entender quién está visitando tu web, qué contenido valora y qué impacto está teniendo en tus recursos.
Aprender a leerlos, filtrarlos y actuar en consecuencia te dará una ventaja competitiva inmensa. Te permitirá optimizar costes, refinar tu estrategia de contenido y, en última instancia, tomar el control de cómo tu marca existe y es representada en la nueva era de la inteligencia artificial.