KPIs y métricas clave de auditoría GEO-AEO

Existe un momento incómodo en la mayoría de las auditorías GEO/AEO actuales: aquel en que el cliente, después de aceptar el diagnóstico y aprobar la hoja de ruta, pregunta cómo va a saber si las acciones están funcionando. La respuesta honesta es que ninguna de las métricas que ese cliente ha utilizado durante una década —posición media en Search Console, tráfico orgánico en GA4, CTR por palabra clave— le va a servir de mucho. Los motores generativos no exponen sus datos de búsqueda. Google no separa el tráfico absorbido por los AI Overviews del tráfico orgánico convencional. ChatGPT no proporciona un panel para publishers. La capa de medición que el cliente daba por descontada simplemente no existe en GEO/AEO, y ninguna agencia rigurosa puede prometer la continuidad analítica que sí ofrecía en SEO.

Lo que sí existe es una capa de medición paralela, en construcción acelerada desde 2024, articulada en torno a métricas específicas para el comportamiento de los motores generativos. Esa capa no reemplaza a GA4 ni a Search Console: las complementa. Avinash Kaushik la ha denominado Answer Engine Analytics (AEA), y su tesis central —que los motores de respuesta exigen una infraestructura de medición propia— resume el consenso emergente del sector. Este capítulo sistematiza las métricas que componen esa capa, identifica cuáles tienen poder diagnóstico real y cuáles son métricas de vanidad, y aborda la instrumentación —qué herramientas cubren qué métricas, con qué fiabilidad y a qué coste— para que la decisión de inversión en medición sea tan informada como la decisión de inversión en optimización.

Por qué las métricas de SEO tradicional son insuficientes en GEO/AEO

La inadecuación de las métricas de SEO tradicional para diagnosticar la visibilidad generativa no es un problema de cobertura sino de unidad de análisis. La posición media mide rankings en una lista ordenada de URLs; en GEO no hay lista ordenada, hay respuesta sintetizada con citaciones. El CTR mide la propensión de un usuario a hacer clic en un resultado visible; en GEO el clic es opcional porque la respuesta ya está sintetizada en la propia interfaz. El tráfico orgánico mide visitas atribuibles a búsqueda; en GEO una parte sustancial del impacto se queda en la interfaz del motor sin generar visita.

La consecuencia operativa es directa: una marca puede mantener una posición media estable, un CTR estable y un tráfico orgánico estable, mientras pierde visibilidad significativa en motores generativos sin que ninguna de sus métricas tradicionales lo registre. El estudio de Ahrefs de diciembre de 2025 sobre 300.000 palabras clave —que documentó una caída del 58% en el CTR de la posición 1 cuando un AI Overview aparecía en la misma consulta— es la evidencia más visible de esta opacidad: la pérdida de tráfico ocurre, pero no se atribuye a la causa real porque Search Console no desglosa el tráfico absorbido por el AI Overview del que llega a los resultados orgánicos.

Esta opacidad sistémica produce un efecto perverso en organizaciones que toman decisiones basadas exclusivamente en métricas tradicionales: la marca puede estar perdiendo cuota de demanda en la capa generativa durante meses, y la conversación interna sobre qué está pasando llega tarde porque ningún dashboard la activa a tiempo. La instrumentación específica para GEO/AEO no es, por tanto, una mejora opcional —es la condición mínima para que la inversión en optimización pueda evaluarse con honestidad.

La taxonomía de las métricas GEO/AEO: cuatro familias con funciones diferentes

Las decenas de métricas que circulan en publicaciones y herramientas GEO/AEO en 2025 pueden organizarse, sin pérdida sustantiva de información, en cuatro familias funcionalmente distintas. La distinción importa porque mezclar métricas de familias diferentes en un mismo dashboard produce informes que parecen completos y que en realidad responden a preguntas inconexas, dejando huecos críticos sin cubrir.

La primera familia son las métricas de visibilidad, que miden la presencia bruta de la marca en respuestas generativas: cuántas veces es mencionada, citada, en qué posición y con qué frecuencia respecto a sus competidores. Responden a la pregunta "¿está apareciendo mi marca?".

La segunda familia son las métricas de calidad, que miden las características cualitativas de esas apariciones: con qué sentimiento se describe la marca, con qué precisión se cita, con qué profundidad se integra el contenido en el razonamiento del modelo. Responden a la pregunta "¿cómo está apareciendo mi marca?".

La tercera familia son las métricas de cobertura y estabilidad, que miden el alcance temático de la presencia y su consistencia en el tiempo: en qué porcentaje de prompts relevantes aparece, en qué plataformas, con qué volatilidad mes a mes. Responden a la pregunta "¿dónde y con qué consistencia aparece mi marca?".

La cuarta familia son las métricas de impacto de negocio, que miden la traducción de la visibilidad generativa en resultados comerciales: tráfico referido, tasa de conversión diferencial, picos de búsqueda de marca correlacionados con citaciones. Responden a la pregunta "¿qué genera para el negocio que mi marca aparezca?".

Una auditoría que reporta solo métricas de la primera familia —como hacen muchas auditorías comerciales— produce un dashboard de visibilidad sin contexto cualitativo, sin información sobre cobertura y sin conexión con el negocio. Un cliente puede recibir un score de visibilidad alto y descubrir, meses después, que las apariciones eran de sentimiento neutro o negativo, concentradas en una sola plataforma, y sin impacto medible en pipeline. La taxonomía completa no es una sofisticación opcional; es la condición para que el reporting sostenga decisiones de inversión defendibles.

Métricas de visibilidad: las que importan y las que no

La métrica más universalmente reportada en herramientas GEO/AEO es la Mention Rate o Brand Coverage Rate —el porcentaje de prompts monitorizados en los que la marca recibe al menos una mención. Su atractivo es la simplicidad: un número que sube si la marca se menciona más, baja si se menciona menos. Su limitación es exactamente esa: una mención sin citación es una referencia textual sin enlace, una aparición sin tráfico potencial. Semrush documentó que menos del 25% de las marcas mencionadas por motores de IA son también citadas como fuente con un enlace, lo que significa que la Mention Rate, leída de forma aislada, sobrestima sistemáticamente el impacto real de la marca en aproximadamente un factor de cuatro. Tratarla como métrica primaria sin ponerla en contexto es la primera causa de auditorías que parecen exitosas y que el cliente percibe como decepcionantes a los seis meses.

La métrica que sí debe ocupar la posición primaria es la Citation Rate o Citation Frequency —la frecuencia con la que la URL de la marca es citada como fuente verificable dentro de la respuesta generada. La citación, a diferencia de la mención, indica que el modelo ha decidido respaldar una afirmación específica con la marca como autoridad: es un voto de confianza con consecuencias directas en el tráfico referido y en la percepción de credibilidad. Un dashboard GEO/AEO bien diseñado reporta siempre las dos métricas juntas, y la diferencia entre ellas es en sí misma un diagnóstico: una marca con alta Mention Rate y baja Citation Rate tiene un problema de extractabilidad de contenido, no un problema de visibilidad.

El Share of Voice —también denominado Share of Answer o Share of Model— mide las menciones o citaciones de la marca en relación con un conjunto fijo de competidores en una biblioteca de prompts compartida. Es la métrica más útil para conversaciones competitivas porque convierte un número absoluto en una posición relativa: pasar del 8% al 12% de Share of Voice tiene un significado estratégico claro que el crecimiento bruto de menciones no captura. La actualización del SoV de Semrush en octubre de 2025 introdujo la ponderación por prominencia de posición —reconociendo que una mención al inicio de la respuesta vale más que una al final— lo que convierte el SoV moderno en una métrica significativamente más informativa que su versión inicial.

La posición en la respuesta —si la marca aparece en el primer tercio, el segundo o el último de la respuesta generada— es una métrica derivada cuyo peso ha crecido tras la investigación de BrightEdge de febrero de 2026, que documentó que el 44% de las citaciones de ChatGPT proceden del primer tercio del contenido recuperado. La posición es un proxy de prominencia: una marca citada al inicio recibe una atribución implícita de mayor autoridad que una citada al final, con consecuencias directas en la probabilidad de clic y en la percepción del usuario.

Por último, la AI-Generated Visibility Rate (AIGVR) es una métrica compuesta que mide el porcentaje de prompts objetivo en los que la marca aparece de alguna forma —mención o citación— en alguna respuesta de IA. Funciona como métrica de partida para auditorías iniciales porque es la más fácil de comunicar a clientes que aún no manejan la distinción mención/citación, pero debería retirarse del reporting principal una vez que el cliente está listo para gestionar el desglose más informativo.

Métricas de calidad: cuando la presencia no es suficiente

La presencia bruta de la marca en respuestas generativas dice poco sobre lo que esa presencia significa para el negocio. Una marca puede tener un Citation Rate del 35% en su categoría y descubrir, al revisar las respuestas, que la mitad de esas citaciones la describen como "una opción cara", "menos confiable que la competencia" o, peor, contienen información factualmente incorrecta sobre sus productos. Las métricas de calidad existen para detectar exactamente este tipo de divergencias entre presencia y valor.

El Sentiment Score clasifica las respuestas que mencionan a la marca en positivas, neutras o negativas, habitualmente en una escala de -1 a +1 o en porcentajes por categoría. Su utilidad práctica está condicionada por la sofisticación del clasificador: un sentiment naive aplicado a respuestas de motores generativos produce muchos falsos neutros porque los LLMs tienden a usar lenguaje matizado que evade clasificación binaria. Las herramientas que actualmente ofrecen sentiment fiable —Profound, Otterly, BrightEdge AI Catalyst— usan clasificadores afinados específicamente para respuestas de IA, lo que las distingue de las herramientas SEO clásicas que han añadido un módulo de sentiment como extensión.

La Citation Accuracy o Hallucination Rate mide la proporción de citaciones que respaldan con precisión las afirmaciones del modelo —es decir, la proporción de veces en que el motor atribuye correctamente una afirmación a la marca cuando esa afirmación efectivamente aparece en el contenido del dominio. Es una métrica de creciente importancia porque la evidencia disponible sobre la fiabilidad de las citaciones de IA es preocupante: la prueba del Tow Center publicada por la Columbia Journalism Review encontró que más del 60% de las citaciones en motores de búsqueda de IA eran incorrectas en algún grado, DeepSeek registró una tasa de atribución errónea del 57,5%, y un estudio del JMIR Mental Health encontró que aproximadamente el 63% de las citaciones de GPT-4o eran fabricadas o contenían errores. Para una marca, una alta Hallucination Rate no es solo un problema reputacional —es un riesgo legal cuando las afirmaciones atribuidas son imprecisas y un riesgo comercial cuando los usuarios actúan sobre información incorrecta atribuida a la marca.

El Reasoning Depth Ratio (RDR) y el Visibility Depth Index (VDI) —métricas propietarias desarrolladas por GEOReport.ai— miden la profundidad con la que el motor integra el contenido de la marca en su razonamiento, no solo la frecuencia con la que lo cita. Un contenido citado pero usado solo para una referencia tangencial tiene un RDR bajo; un contenido que estructura argumentalmente la respuesta del modelo tiene un RDR alto. Estas métricas siguen siendo experimentales y específicas de su proveedor, pero apuntan a una dirección importante: la próxima generación de KPIs GEO no medirá solo presencia sino peso explicativo del contenido en la respuesta sintetizada.

Métricas de cobertura y estabilidad: la dimensión que casi todos infravaloran

Existe una métrica en GEO/AEO cuya importancia es estructural y cuya adopción comercial es sistemáticamente menor de la que merece: la Citation Stability o Citation Volatility. Mide la consistencia de la presencia de la marca en respuestas generativas a lo largo del tiempo —por ejemplo, el porcentaje de prompts en los que la marca aparece esta semana y también la siguiente, o la varianza del Citation Rate mes a mes.

La razón por la que la Citation Stability es crítica es la propia arquitectura de los motores generativos. La investigación de AirOps mostró que solo el 30% de las marcas permanecen visibles entre dos respuestas consecutivas al mismo prompt, y apenas el 20% se mantienen visibles en cinco ejecuciones consecutivas. BrightEdge documentó una brecha de volatilidad de 70× entre dominios citados frecuentemente y dominios citados raramente, y reveló un dato que merece atención: aunque el 96,8% de los dominios citados son estables semana a semana, el 87% de los cambios que sí se producen son descensos. Es decir, cuando una marca pierde visibilidad, lo más probable es que no la recupere por mero ciclo —la pierde porque otra marca ha consolidado posición.

La consecuencia práctica es que la Citation Rate medida una sola vez es información incompleta, casi como una fotografía borrosa de un objeto en movimiento. Una marca con 22% de Citation Rate medido en una sola ejecución puede tener una Citation Stability del 90% (presencia robusta y consolidada) o del 35% (presencia esporádica y vulnerable), y la diferencia entre los dos casos es estratégicamente determinante. Las herramientas que reportan Citation Rate sin Citation Stability están entregando media métrica.

La Platform Variance mide el rendimiento desglosado por motor —ChatGPT, Perplexity, Claude, Gemini, AI Overviews, Copilot— y es la métrica que materializa el hallazgo de ZipTie.dev sobre la fragmentación del ecosistema: solo el 11% de los dominios son citados tanto por ChatGPT como por Perplexity para la misma consulta, y el 71% de las fuentes citadas aparecen en una única plataforma. Reportar un Citation Rate agregado sin Platform Variance oculta exactamente el patrón que la auditoría debe detectar para asignar recursos con precisión.

El Source Distribution o Source Diversity Score —usado por el AI Visibility Index de Semrush para comparar motores— mide cuántas fuentes únicas cita un motor por prompt en promedio. Es una métrica más estructural que operativa: ayuda a entender qué motores son más concentrados (ChatGPT cita más fuentes únicas con distribución plana) y cuáles son más concentrados en dominios específicos (Perplexity con su peso desproporcionado de Reddit).

Por último, el Topic Coverage o Prompt Coverage mide el porcentaje de prompts relevantes de la categoría en los que la marca aparece. Es complementario al Citation Rate porque captura un fenómeno distinto: una marca puede tener Citation Rate del 30% concentrado en cinco prompts muy específicos, o tener el mismo 30% distribuido en cincuenta prompts diferentes —dos perfiles muy distintos de robustez competitiva.

Métricas de impacto de negocio: la conexión con el resultado

Las tres familias anteriores miden lo que ocurre en los motores generativos. La cuarta familia mide lo que ocurre como consecuencia: cómo se traduce esa visibilidad en resultados que importan al negocio. La conexión entre visibilidad generativa y resultado de negocio es estructuralmente más difícil de establecer que la conexión entre tráfico orgánico y resultado, porque una parte sustancial del impacto generativo no genera clic —la respuesta sintetizada cumple su función sin que el usuario llegue al sitio. Esta brecha entre influencia y atribución es el problema central de las métricas de impacto en GEO/AEO.

El tráfico referido desde IA —sesiones procedentes de chat.openai.com, perplexity.ai, gemini.google.com y otros dominios de motores generativos, identificadas en GA4— es la métrica de impacto más directa pero también la más limitada. Los datos de Conductor sitúan el tráfico referido desde IA en aproximadamente el 1,08% del total del tráfico web a finales de 2025, con un crecimiento mensual de alrededor del 1%. Este porcentaje, que parece modesto, esconde dos asimetrías. La primera es que los AI Overviews de Google no se contabilizan como referidos en GA4 sino que se absorben en el canal orgánico, lo que infraestima sistemáticamente el impacto real. La segunda es que el valor por sesión es desproporcionadamente alto: Semrush documentó una tasa de conversión 4,4 veces superior a la del tráfico orgánico convencional, lo que significa que un 1,08% de tráfico genera aproximadamente un 4,8% del valor —y la tendencia se acelera.

La Conversion-to-Conversation Rate o LLM Conversion Rate mide la tasa de conversión específica del tráfico procedente de motores generativos. Webflow reportó tasas del 24% desde ChatGPT frente al 4% desde búsqueda no-marca, y Frase documentó tiempos en sitio 6,8 veces superiores para visitantes de IA. Esta diferencia no es accidental: el visitante de IA llega con contexto previo —una pregunta formulada, una respuesta recibida, una decisión activa de profundizar— mientras que el visitante orgánico convencional llega a explorar. La consecuencia operativa es que un dashboard que reporta tráfico referido desde IA sin reportar la conversión diferencial está infravalorando el canal por un factor de cuatro a seis.

El Brand Search Lift mide los picos en consultas de marca y en tráfico directo correlacionados con fechas de mención significativa en motores de IA. Es una métrica indirecta pero potente porque captura el efecto "no-clic": un usuario que ve la marca mencionada en una respuesta de Perplexity y, días después, busca la marca directamente en Google sin que esa búsqueda quede atribuida al motor de origen. La instrumentación de Brand Search Lift requiere correlacionar series temporales de Google Trends, búsquedas de marca en Search Console y campañas de mención monitorizadas, lo que la hace técnicamente más exigente que las métricas anteriores pero significativamente más informativa sobre el impacto real.

La atribución a pipeline e ingresos es la métrica de impacto que cierra el bucle. Casos de estudio como el de AthenaHQ —126.000 dólares de valor mediático estimado, crecimiento de 10× en citaciones y aumento del 50% en demos— o el caso de Ramp documentado por Profound con un crecimiento de 7× en visibilidad de IA, son ejemplos de organizaciones que han construido la trazabilidad desde citación de IA hasta ingresos cerrados. La atribución completa requiere instrumentación CRM —tagging de leads procedentes de tráfico de IA, encuestas de origen en formularios de contacto, integración entre la herramienta de monitorización y el sistema comercial— y es típicamente la última pieza de la pila de medición que las organizaciones implementan, pero también la que más rápidamente justifica la inversión en GEO ante comités de presupuesto.

La instrumentación: qué herramientas cubren qué métricas y a qué coste

Una conversación honesta sobre métricas GEO/AEO debe ir acompañada de una conversación igualmente honesta sobre la instrumentación que las hace medibles. La capa AEA no es gratuita ni emerge de las herramientas que el cliente ya tiene: requiere una pila de monitorización específica cuyo coste va desde 29 hasta más de 3.000 dólares al mes según la profundidad y la cobertura.

El nivel de entrada —herramientas gratuitas o de bajo coste como AI Search Grader de HubSpot (gratuito), HubSpot AEO (50 dólares al mes) o las versiones iniciales de Knowatoa y SE Visible— ofrece una primera lectura de Mention Rate y Citation Rate en un puñado de motores con muestreo limitado. Su utilidad real es de captación y diagnóstico inicial: dan a la marca una idea de orden de magnitud, pero su volumen de muestreo no soporta decisiones de inversión que requieran fiabilidad estadística. Tratarlas como instrumento de medición continuo es un error frecuente que produce conclusiones inestables.

El nivel intermedio —herramientas como Otterly (desde aproximadamente 60 dólares al mes), Frase Auditor, Peec AI, AthenaHQ, Brandlight, ZipTie.dev, Superlines, Promptmonitor y Scrunch AI— cubre el grueso del mercado de pyme y mediana empresa. Ofrecen Mention Rate, Citation Rate, Sentiment, Platform Variance y Citation Stability con muestreos suficientes para soportar reporting mensual creíble. La diferencia entre ellas no está tanto en las métricas que reportan como en el conjunto de motores cubiertos, la profundidad del muestreo y la sofisticación del clasificador de sentiment. Frase, por ejemplo, cubre ocho plataformas con menor profundidad por plataforma; Otterly cubre menos plataformas con mayor profundidad. La elección es contextual.

El nivel enterprise —Semrush AI Visibility Toolkit, BrightEdge AI Catalyst y Profound— opera con bases de datos masivas (Semrush con más de 239 millones de prompts, Profound con el mayor conjunto de datos de ChatGPT disponible para análisis de terceros) y precios que pueden superar los 3.000 dólares mensuales. Su valor diferencial no es la métrica individual sino el benchmarking sectorial: pueden situar el rendimiento de la marca en relación con percentiles de su categoría, identificar tendencias sectoriales antes que las herramientas más pequeñas y proporcionar reporting que los comités ejecutivos enterprise esperan.

El criterio práctico para elegir el nivel adecuado no es el tamaño de la organización sino el coste de equivocarse en las decisiones que la herramienta va a soportar. Una marca que invierte 50.000 euros al año en optimización GEO y elige una herramienta de medición de 50 euros al mes está aceptando que sus decisiones de optimización se basarán en datos cuya fiabilidad estadística no es proporcional al presupuesto que orientan. La regla operativa que vale la pena adoptar es que el coste de la instrumentación debería situarse entre el 5% y el 10% del presupuesto total de optimización GEO, suficiente para que las decisiones se apoyen en datos con la profundidad que merecen, sin sobrepagar capacidades enterprise que la organización aún no puede usar.

Cómo elegir los KPIs adecuados para cada cliente

Una vez sistematizada la taxonomía completa, la pregunta operativa es cómo seleccionar el subconjunto de KPIs que cada cliente debe efectivamente medir. La tentación habitual —reportar todas las métricas disponibles para demostrar exhaustividad— produce dashboards que el cliente no lee y conversaciones de revisión que se pierden en detalles. La selección debe seguir tres criterios.

El primero es la madurez analítica del cliente. Una organización que aún no ha distinguido Mention Rate de Citation Rate no está preparada para gestionar Reasoning Depth Ratio: empezar por el desglose básico, consolidar el lenguaje de las dos métricas primarias, y solo entonces introducir capas adicionales. Un dashboard sobrecargado en la fase inicial degrada la conversación en lugar de elevarla.

El segundo es la fase del proyecto. Las métricas de visibilidad —Mention Rate, Citation Rate, Share of Voice— son indicadores tempranos: cambian rápido cuando se ejecutan acciones de optimización y permiten validar que las mejoras técnicas y de contenido están produciendo efecto. Las métricas de impacto de negocio —tráfico referido, conversión diferencial, pipeline atribuido— son indicadores tardíos: cambian con un retraso de tres a seis meses respecto a las acciones, pero son los que justifican la continuidad de la inversión. Una hoja de ruta de medición bien diseñada empieza reportando los indicadores tempranos en los primeros 30–60 días y va incorporando los tardíos a partir del trimestre, no al revés.

El tercero es la audiencia del reporting. La dirección general necesita Share of Voice y atribución a pipeline; el equipo de marketing necesita Citation Rate por plataforma y por topic cluster; el equipo técnico necesita Citation Stability y Source Distribution para detectar regresiones. Un único dashboard universal no sirve a las tres audiencias: un sistema de reporting maduro produce tres vistas derivadas de la misma base de datos, cada una con la granularidad y el lenguaje que su audiencia demanda.

Cierre

La capa de medición que GEO/AEO exige no es una sofisticación opcional para marcas avanzadas: es la condición mínima para que la inversión en optimización pueda evaluarse con honestidad. Una agencia que vende auditoría sin proponer instrumentación posterior está vendiendo una fotografía sin la cámara que permitirá tomar las siguientes —y sin esas fotografías sucesivas, ni la marca ni la agencia tienen forma de saber si las acciones que están financiando están funcionando.
El campo está en una fase peculiar: las métricas existen, las herramientas existen, pero la cultura de medición está rezagada respecto a la cultura de optimización. Muchas organizaciones aceptan invertir en GEO sin instrumentar su seguimiento porque la lógica anterior —donde Search Console y GA4 cubrían lo esencial sin coste adicional— sigue operando como expectativa implícita. Esa expectativa hay que recalibrarla: en GEO/AEO, la medición es un componente del coste, no un subproducto gratuito de la actividad.
La pregunta que define la madurez de una operación GEO/AEO no es qué métricas se reportan, sino qué decisiones cambiarían si esas métricas mostraran un resultado distinto. Si la respuesta es "ninguna" —si el dashboard se mira pero no orienta acciones— el sistema de medición no está funcionando, por bonito que sea el reporting. Si la respuesta es "estas tres acciones específicas en los próximos treinta días" —el sistema cumple su función, y el coste de la instrumentación está justificado por el coste de no tomar esas decisiones a tiempo.

Cuáles son los KPIs y métricas clave de GEO/AEO