Cómo medir GEO y visibilidad en IA

La razón estructural es sencilla: los motores generativos combinan recuperación y generación. La literatura fundacional de RAG describe precisamente ese patrón, en el que un modelo consulta memoria no paramétrica en tiempo de ejecución para producir respuestas más específicas, factuales y actualizables; además, trabajos posteriores sobre dense retrieval y late interaction muestran que la calidad de la recuperación depende de representaciones semánticas y de mecanismos de relevancia más finos que el matching léxico clásico.

Ese principio ya no es teórico. En Google, los AI Overviews y AI Mode muestran enlaces de soporte y, en el caso de AI Mode, pueden usar query fan-out para lanzar múltiples búsquedas relacionadas sobre subtemas y fuentes distintas; en paralelo, ChatGPT Search, Claude con web search y Sonar de Perplexity devuelven respuestas con citas o fuentes visibles para el usuario. Dicho de otra forma, la unidad competitiva ya no es solo la página que rankea, sino el fragmento que sobrevive al proceso de recuperación y acaba integrado en una respuesta compuesta.

Por eso, la analítica heredada del SEO se queda corta. El paper académico que formaliza GEO sostiene que la impresión o visibilidad en motores generativos no puede definirse como ranking medio, porque la respuesta mezcla varias fuentes en un único bloque; Google, además, explica que un AI Overview ocupa una sola posición en resultados y que todos sus enlaces comparten esa posición, lo que debilita aún más la lectura tradicional del “average position” como proxy suficiente de visibilidad real.

La consecuencia estratégica es profunda: medir GEO ya no consiste en seguir una keyword aislada, sino en entender un sistema que resuelve intenciones mediante variaciones semánticas, consultas derivadas, follow-ups y síntesis. Cuando Google indica que una pregunta de seguimiento en AI Mode cuenta como una nueva query, está diciendo implícitamente que el espacio de visibilidad es conversacional y encadenado, no estático ni lineal.

El modelo correcto para medir visibilidad generativa

A partir de esa evidencia, el marco operativo más útil no es un dashboard de posiciones, sino un stack de cuatro capas: elegibilidad, recuperación, citación y negocio. La elegibilidad responde a una pregunta binaria —si el contenido puede entrar en juego—; la recuperación mide si de hecho es seleccionado ante una familia de prompts; la citación estima cuánto pesa en la respuesta; y la capa de negocio valida si esa presencia genera sesiones de valor, conversiones o influencia comercial. Esta estructura no aparece empaquetada así en un único documento oficial; es una inferencia práctica construida sobre cómo Google, OpenAI, Anthropic, Perplexity y la literatura de GEO describen sus sistemas.

La primera capa, elegibilidad, es menos glamurosa que la creatividad editorial, pero más decisiva. Google exige que una página esté indexada y sea elegible para mostrarse con snippet en Search para poder aparecer como supporting link en AI Overviews o AI Mode; en ChatGPT, OpenAI recomienda no bloquear OAI-SearchBot si se quiere que el contenido sea descubierto, resumido y citado; y Perplexity recomienda permitir PerplexityBot para que el sitio pueda aparecer enlazado en sus resultados. Antes de hablar de autoridad o narrativa, hay que garantizar acceso real.

La segunda y la tercera capa exigen pensar como un sistema de recuperación. Anthropic define RAG como un proceso en el que la información se recupera en tiempo real desde una base externa y advierte que su eficacia depende de la calidad y relevancia del conocimiento recuperado; OpenAI, por su parte, en su guía de citation formatting, recomienda bloques o chunks como unidad de citación por equilibrio entre precisión y utilidad, y exige IDs estables, texto legible y un tamaño adecuado para inspección humana. Traducido a GEO, eso significa que el contenido debe diseñarse como material recuperable y citable, no solo como texto “bien escrito”.

La capa de citación no debería limitarse a contar menciones. El paper de GEO propone métricas como word count y position-adjusted word count para estimar la exposición efectiva de una fuente dentro de la respuesta, precisamente porque no todas las citas pesan igual ni aparecen con la misma prominencia. En un entorno de producción, la versión empresarial de esa idea es construir una cuota de visibilidad ponderada por presencia textual, posición, reiteración y centralidad argumental, y luego cruzarla con clics, sesiones, engagement y conversiones.

Cómo instrumentar Google, ChatGPT, Claude y Perplexity

En Google, el mensaje oficial es doble y conviene leerlo sin autoengaño. Por un lado, la compañía insiste en que no existen requisitos adicionales para aparecer en AI Overviews o AI Mode más allá de las buenas prácticas de SEO ya conocidas; por otro, detalla que estas experiencias usan enlaces de soporte, query fan-out, follow-ups y aparecen dentro del tráfico global de Search Console. En términos de medición, eso significa que tu capa de adquisición sigue conectada a Search, pero tu capa de interpretación ya no puede tratar ese tráfico como “blue links con otro nombre”.

La instrumentación correcta en Google combina Search Console, Google Analytics y, si el negocio tiene ambición analítica seria, exportaciones a BigQuery. Search Console aporta impresiones, clics, CTR y posición antes de la visita; Analytics aporta sesiones, engagement y comportamiento posterior; Google recomienda explícitamente el uso conjunto de ambas fuentes y sugiere BigQuery para unir mejor los datos. Además, el branded queries filter permite separar consultas de marca y no marca, lo que resulta especialmente útil para detectar si GEO está generando demanda nueva o solo capturando notoriedad existente. También conviene recordar que clics y sesiones no coinciden exactamente por razones de atribución, cookies, zonas horarias, URLs canónicas y filtrado de bots.

En OpenAI, la medición tiene una ventaja poco comentada y muy valiosa: el sistema ya piensa en términos de fuentes y trazabilidad. ChatGPT Search muestra citas inline y, cuando están disponibles, un panel de Sources; OpenAI documenta además que las URLs de referencia desde ChatGPT pueden incluir utm_source=chatgpt.com, lo que permite aislar ese tráfico en analítica. A esto se suma un control técnico claro: OAI-SearchBot sirve para hacer aparecer sitios en las funciones de búsqueda, mientras que noindex sigue siendo la señal para evitar que una página termine expuesta como enlace o título si no quieres presencia en esos resultados.

Para Anthropic y Perplexity AI, la situación es algo distinta, pero igualmente útil para una estrategia GEO madura. Anthropic documenta que su web search devuelve citas, y además ha introducido search results con proper source attribution para obtener citas de calidad similar a la web search en aplicaciones RAG; Perplexity, a su vez, separa Search API para resultados brutos, Sonar para respuestas web-grounded con citas y dos agentes distintos para acceso a sitios: PerplexityBot, pensado para surface and link websites in search results, y Perplexity-User, que puede visitar páginas para responder mejor a una petición del usuario. La conclusión práctica es que no basta con mirar referral traffic: hay que observar también logs de bots, cobertura de acceso y tests periódicos de citación por prompt.

El sistema de experimentación que separa señal de ruido

La mejor manera de evitar el pensamiento mágico en GEO es experimentar sobre hipótesis pequeñas y medirlas con disciplina. El paper de GEO sigue siendo especialmente útil aquí porque no solo propone el marco, sino que demuestra que algunas intervenciones mejoran visibilidad y otras no. En sus experimentos, estrategias como añadir citas relevantes, estadísticas o quotations lograron mejoras sustanciales de impresión; en cambio, keyword stuffing, una táctica heredada del SEO más rudimentario, llegó a rendir peor que el baseline en experimentos sobre Perplexity. Esa es una lección estratégica de primer orden: no todo lo que “parece SEO” sirve en GEO, y algunas inercias clásicas pueden destruir visibilidad en motores generativos.

Ese hallazgo conecta directamente con la orientación oficial de Google sobre contenido útil y contenido generado con IA. Google acepta el uso de IA generativa, pero advierte que producir muchas páginas sin aportar valor puede violar sus políticas sobre scaled content abuse; al mismo tiempo, insiste en originalidad, claridad, evidencia, contexto, metadata y structured data alineada con el contenido visible. Por tanto, el test central de un experimento GEO no es cuánto texto ha producido un equipo en una semana, sino si ese texto añade conocimiento distinguible, verificable y reutilizable por sistemas de recuperación y por personas.

La capa metodológica debe parecerse más a un programa de evals que a un calendario editorial tradicional. OpenAI define las evaluaciones como el proceso de validar y testear outputs para que un sistema basado en LLM sea más estable y resistente a cambios de prompts y modelos; además, sus herramientas de datasets y graders permiten comparar variantes de prompt, añadir comprobaciones automáticas y monitorizar resultados a través de versiones. El aprendizaje clave es que GEO no debería gobernarse con intuiciones aisladas, sino con baterías de prompts, criterios de éxito explícitos, graders semánticos y revisiones humanas en los casos críticos.

La implementación práctica más sólida para una startup o una empresa mediana consiste en definir un set fijo de prompts estratégicos, crear paraphrases y follow-ups para cada uno, ejecutar esos tests en varios motores, puntuar presencia, peso de citación, exactitud factual y tráfico posterior, y comparar resultados después de cada cambio editorial o técnico. En otras palabras, el verdadero sistema GEO no es un blog; es un bucle de publicación, observabilidad y evaluación. Esa es la diferencia entre producir contenido y construir una capacidad.

Cierre

Para una startup, la implicación más interesante es que GEO reduce parcialmente la ventaja histórica del dominio grande cuando la consulta exige claridad, especialización y evidencia reciente. Google afirma que AI Overviews está enviando visitas a una mayor diversidad de sitios para preguntas complejas, y el paper de GEO muestra además que el rendimiento de las tácticas depende del dominio y del tipo de consulta. La lectura estratégica es potente: en mercados donde el incumbente gana por inercia SEO, una startup puede ganar por precisión temática, estructuración del conocimiento y mejor diseño de citabilidad.
Para una empresa consolidada, el reto no es solo publicar más, sino gobernar mejor. Google sigue premiando contenido útil, fiable y people-first, mientras OpenAI recomienda material citable con unidades estables, legibles e inspeccionables. Eso obliga a profesionalizar páginas de verdad canónica, hubs temáticos, evidencias de autoría, consistencia terminológica, accesibilidad técnica y procesos de actualización. GEO deja de ser una función táctica de contenidos y pasa a ser una capa de arquitectura de conocimiento de la compañía.
Aquí aparece también la oportunidad de negocio que muchos equipos todavía no ven. Google sostiene que los clics desde páginas con AI Overviews son de mayor calidad y que los usuarios tienden a pasar más tiempo en el sitio, por lo que recomienda no optimizar solo a clics, sino al valor total de la visita. Si se combina esa lógica con trazabilidad de ChatGPT, observación de bots y tests de citación sobre Claude y Perplexity, la conversación interna cambia por completo: GEO ya no se defiende como “más contenido”, sino como una infraestructura de adquisición y autoridad que mejora la probabilidad de ser recuperado, citado, visitado y elegido. La llamada a la acción es clara: deja de preguntar en qué posición estás y empieza a preguntar en qué respuestas entras, con qué peso y con qué efecto económico. Esa es la idea que no debe olvidarse.

Cap 8: Medir GEO de verdad, analítica, citabilidad y experimentación en motores generativos

El modelo correcto para medir visibilidad generativa

Cómo instrumentar Google, ChatGPT, Claude y Perplexity

El sistema de experimentación que separa señal de ruido

Preguntas frecuentes