Un número compuesto entre 0 y 100 tiene una propiedad peligrosa: comunica certeza con independencia de cómo se haya producido. Cuando una agencia presenta a su cliente una "puntuación GEO de 62", ese número adquiere una autoridad que rara vez se cuestiona —aunque el método que lo ha generado sea opaco, las dimensiones que lo componen estén ponderadas sin justificación, o la auditoría ejecutada dos veces sobre el mismo dominio en la misma semana produzca resultados materialmente distintos. El problema de los sistemas de puntuación en GEO/AEO no es que existan demasiados, sino que la mayoría comunica una precisión que su método no respalda. En un campo donde la propia medición es no determinista —los LLMs devuelven respuestas distintas a prompts idénticos— construir un score que pretenda agregar esa variabilidad en un único valor entero exige un nivel de honestidad metodológica que pocos sistemas actuales explicitan.
Este capítulo analiza los modelos de scoring más utilizados en 2025–2026, identifica sus debilidades estructurales, y propone los principios que un sistema de puntuación debe cumplir para ser tanto metodológicamente riguroso como comunicable. La conclusión que orientará el análisis es que la diferencia entre una puntuación de 62 y una de 71 solo tiene valor si tres condiciones se cumplen simultáneamente: el sistema es reproducible, las dimensiones están ponderadas con criterio justificable, y el resultado se acompaña de un nivel de confianza explícito. Sin estas tres condiciones, el score no es un instrumento de diagnóstico —es un dispositivo retórico cuya función real es producir la sensación de objetividad.
Las dos familias de sistemas de puntuación: por qué no son intercambiables
Antes de comparar sistemas concretos conviene establecer una distinción que la literatura comercial GEO/AEO frecuentemente confunde: existen dos familias de sistemas de puntuación que responden a preguntas diferentes y que, por tanto, no pueden compararse directamente entre sí.
La primera familia son las puntuaciones de visibilidad observada, generadas por plataformas de monitorización que muestrean prompts reales contra los motores generativos y miden la frecuencia con la que la marca aparece. Semrush AI Visibility Score, Otterly GEO Audit 2.0, HubSpot AI Search Grader y los benchmarks de BrightEdge AI Catalyst pertenecen a esta familia. Su unidad de análisis es el comportamiento real de los motores frente a una biblioteca de prompts, y su variable dependiente es la presencia o ausencia de la marca en las respuestas. Lo que miden es, en esencia, dónde está la marca ahora en el ecosistema generativo.
La segunda familia son las puntuaciones de preparación auditada, generadas por marcos de auditoría que evalúan factores estructurales del dominio —rastreabilidad técnica, schema, extractabilidad, entidad, huella externa— y los agregan en una puntuación compuesta. Geoptie, Juma, SEOgrow y Discovered Labs operan en esta familia. Su unidad de análisis no es el comportamiento de los motores, sino las características del dominio que la investigación correlaciona con citabilidad. Lo que miden es, en esencia, en qué medida el dominio está estructuralmente preparado para ser citado, con independencia de si lo está siendo en este momento.
La distinción no es académica. Tiene tres consecuencias operativas que cualquier auditoría debe reconocer. Primero, las puntuaciones de visibilidad observada son inherentemente volátiles: BrightEdge documentó una rotación de citaciones del 40 al 60% mensual en ChatGPT y AI Mode, lo que significa que un score de visibilidad puede caer 20 puntos en un mes sin que el dominio haya cambiado nada. Segundo, las puntuaciones de preparación pueden ser altas mientras la visibilidad observada es baja: un dominio puede estar técnicamente preparado y no ser citado todavía porque su huella de citación externa es incipiente o porque su entidad de marca aún no ha sido absorbida por los grafos de conocimiento. Tercero, ningún score de una familia puede sustituir al de la otra: presentar una puntuación de visibilidad como diagnóstico de preparación es un error de categoría, igual que presentar un score de preparación como evidencia de visibilidad real.
Una auditoría completa requiere ambas familias. La conversación honesta con el cliente exige distinguirlas explícitamente.
Análisis crítico de los principales sistemas de puntuación de visibilidad
Semrush AI Visibility Score
El AI Visibility Score de Semrush es probablemente el sistema de puntuación de visibilidad observada con mayor adopción comercial en 2025. Combina tres componentes —Presencia de Marca (si la IA menciona la marca), Posición (dónde aparece dentro de la respuesta) y Tasa de Citación (si la URL es enlazada como fuente)— en una puntuación normalizada de 0 a 100, alimentada por una base de datos propietaria de más de 239 millones de prompts que cubre Google AI Overviews, AI Mode, Gemini y ChatGPT, actualizada diariamente.
La fortaleza estructural del score de Semrush es la magnitud del muestreo: a partir de un volumen de 239 millones de prompts, los efectos de la no determinación de las respuestas tienden a promediarse en agregado, lo que reduce la volatilidad inherente al muestreo de prompts a pequeña escala. Su Sistema de Extracción de Marca de IA, diseñado para desambiguar entidades, es uno de los componentes técnicos más sofisticados disponibles públicamente en 2025.
Las limitaciones del score, sin embargo, son consustanciales a su diseño. La ponderación interna entre Presencia, Posición y Citación no está documentada públicamente, lo que significa que dos marcas con perfiles diferentes —una muy mencionada pero raramente citada, otra raramente mencionada pero siempre citada cuando lo es— pueden recibir puntuaciones similares por razones estructuralmente diferentes. Esta opacidad de la ponderación es un problema general de los scores propietarios y limita su utilidad como instrumento de diagnóstico: el score dice dónde está la marca pero no por qué está donde está. Adicionalmente, la cobertura no incluye Perplexity, Claude ni Copilot en igual medida, lo que sesga el diagnóstico hacia las plataformas mejor representadas en su base de datos.
Otterly GEO Audit 2.0 y HubSpot AI Search Grader
Otterly GEO Audit 2.0, lanzado en julio de 2025 y reconocido como Gartner Cool Vendor 2025, puntúa páginas en más de 25 factores organizados en tres bloques: Velocidad de Página/SEO, Preparación para IA (unicidad, citas, estadísticas) y Datos Estructurados. Su valor diferencial es la mezcla deliberada entre factores de visibilidad observada y factores de preparación auditada en una sola puntuación, lo que produce un score más estable que los puramente observacionales pero más concreto que los puramente estructurales.
HubSpot AI Search Grader (gratuito) y HubSpot AEO (50 €/mes) puntúan marcas en cinco dimensiones validadas con GPT-5.2, Perplexity y Gemini, produciendo una puntuación compuesta sobre 100. Su atractivo principal es la accesibilidad —el grader gratuito convierte el score en un instrumento de captación de leads— pero esa misma accesibilidad implica una superficie de muestreo limitada: una herramienta gratuita que ejecuta un puñado de prompts contra tres motores no produce una visibilidad observada estadísticamente robusta. Tratar su output como una medición fiable del posicionamiento real es un error que muchos clientes cometen, y que las agencias deberían contextualizar en lugar de amplificar.
Frase Auditor y BrightEdge AI Catalyst
Frase Auditor ejecuta auditorías de visibilidad en ocho plataformas —ChatGPT, Perplexity, Claude, Gemini, AI Overviews, Grok, Copilot y DeepSeek— produciendo una puntuación dual SEO+GEO. Su cobertura multiplataforma es la más amplia disponible en 2025 y resuelve parcialmente el problema del sesgo por plataforma que afecta a Semrush y HubSpot. Sin embargo, ejecutar auditorías en ocho motores con un muestreo limitado por motor produce un score por plataforma de menor robustez estadística que un score concentrado en menos motores con mayor profundidad de muestreo. La elección entre amplitud y profundidad es legítima en ambas direcciones, pero debe ser explicitada al cliente.
BrightEdge AI Catalyst opera en el extremo opuesto: ejecuta decenas de miles de prompts semanales en cinco motores (ChatGPT, Perplexity, Gemini, AI Overviews y AI Mode) en nueve o diez industrias, exponiendo cuota de citación y métricas de estabilidad/volatilidad. La contribución más útil de BrightEdge a la conversación sobre scoring no es su puntuación compuesta —que comparte las limitaciones de opacidad de los demás— sino la documentación pública de la volatilidad estructural del campo: el 96,8% de los dominios citados no experimentaron cambios semana a semana, pero el 87% de los cambios que sí se produjeron fueron descensos. Este dato debería forzar una reflexión que pocos sistemas de puntuación incorporan: una puntuación que no se acompaña de su tendencia es una fotografía de un sistema en movimiento.
Análisis crítico de los sistemas de puntuación de preparación
Geoptie y Juma: dos enfoques de comunicación distintos
El sistema de Geoptie produce una Puntuación GEO de Preparación de 0 a 100 a partir de seis dimensiones —Autoridad, Técnico, Estructura de Contenido, Diferenciación, Citabilidad y Frescura— con tres umbrales explícitos: 85–100 indica un sitio optimizado para IA, 70–84 un sitio listo con fricciones, y por debajo de 60 una situación que requiere remediación urgente. La fortaleza del sistema es la claridad de los umbrales: un cliente que recibe una puntuación de 58 sabe que está en zona roja, no necesita interpretar el número. Esta claridad convierte el score en un instrumento eficaz de captación, porque traslada al cliente la urgencia de actuar sin requerir comprensión técnica del sistema subyacente.
Juma ofrece un enfoque diferente. En lugar de una puntuación compuesta única, produce un gráfico de radar con seis dimensiones —Acceso de Crawlers, Schema, Citabilidad, Señales Técnicas, Autoridad, Presencia de Marca— y una lista de correcciones ordenadas por impacto frente a esfuerzo. La salida de Juma es más útil para guiar la implementación porque visibiliza desequilibrios entre dimensiones que un score único oculta —un dominio con 65 puede tener Acceso de Crawlers a 90 y Schema a 40, lo que es una conversación operativa muy distinta a la de un dominio con 65 que tiene todas las dimensiones a 65. Sin embargo, en una primera reunión comercial, un radar es más difícil de capturar visualmente que un número con un semáforo.
La elección entre los dos enfoques no es absoluta sino contextual. Geoptie funciona mejor para auditorías iniciales gratuitas en funnels de captación; Juma funciona mejor para auditorías de trabajo con cliente firmado donde la implementación es la siguiente conversación. Una agencia rigurosa puede usar ambos: el formato Geoptie en la entrega comercial y el formato Juma en el documento técnico de trabajo.
El SEOgrow de 20 reglas y el problema de la complejidad
El sistema de SEOgrow opera con un motor propietario basado en 20 reglas agrupadas en cuatro pilares, produciendo una única puntuación AEO objetiva. Su atractivo es la economía: 20 reglas son lo suficientemente granulares para ser informativas y lo suficientemente acotadas para ser comprensibles. La pregunta que SEOgrow plantea implícitamente —¿cuántas reglas son las óptimas para un sistema de scoring?— es metodológicamente más profunda de lo que parece.
Un sistema con pocas reglas (5–10) es necesariamente grueso: agrupa factores heterogéneos bajo etiquetas amplias y pierde capacidad de diagnóstico granular. Un sistema con muchas reglas (40–50, como el checklist de AirOps) es exhaustivo pero genera un problema diferente: tratado como base de scoring con igual peso por regla, produce puntuaciones que reflejan la cobertura del checklist más que el impacto real de cada factor. Un dominio que cumple 35 de 48 factores menores pero falla en 3 de los 5 factores críticos puede recibir una puntuación alta que oculta su disfunción central. La elección entre granularidad y representatividad de impacto es un dilema metodológico que cada sistema resuelve de forma distinta y que rara vez se explicita en la documentación comercial.
Los siete principios de un sistema de puntuación bien diseñado
A partir del análisis comparativo anterior emergen siete principios que un sistema de puntuación GEO/AEO debe satisfacer para ser metodológicamente defensible y comercialmente comunicable. No todos los sistemas analizados los cumplen; la propuesta es que cualquier sistema que se construya o se adopte debería ser evaluado contra ellos antes de ser presentado a un cliente.
Principio 1 — Reproducibilidad
El mismo sistema aplicado al mismo dominio por dos analistas distintos en la misma semana debe producir puntuaciones materialmente coincidentes —con un margen de variación que la documentación del sistema debe explicitar, habitualmente ±3 puntos para sistemas observacionales y ±5 puntos para sistemas con componentes de juicio cualitativo. Si esta condición no se cumple, el sistema no está midiendo el dominio: está midiendo al analista.
Principio 2 — Ponderación justificable
Cada dimensión del sistema debe tener un peso explícito y una justificación trazable de por qué tiene ese peso y no otro. La ponderación arbitraria —"acceso técnico vale 15, schema vale 15, contenido vale 20"— sin referencia a la evidencia que la respalda es la primera señal de que un sistema es retórico más que metodológico. Un sistema bien diseñado puede explicar por qué la huella de citación externa pesa más que el schema en su modelo, citando los estudios o los datos internos que sustentan esa decisión.
Principio 3 — Nivel de confianza explícito
Toda puntuación debe acompañarse de un nivel de confianza derivado de la calidad de los datos que la alimentan. Una auditoría inicial anónima sin acceso a Search Console, Bing Webmaster Tools, GA4 o logs del servidor es estructuralmente menos fiable que una auditoría de trabajo con acceso completo. Presentar el score como si tuviera el mismo nivel de confianza en ambos contextos es un acto de inflación metodológica que protege la credibilidad de la agencia hasta que el cliente descubre, durante el trabajo posterior, que el diagnóstico inicial era mucho menos preciso de lo que parecía.
Principio 4 — Lectura por motor, no solo composite
Dado que el 71% de las fuentes citadas aparecen en una única plataforma según ZipTie.dev, una puntuación universal que agrega todos los motores oculta variaciones críticas. Un dominio puede tener un score compuesto de 70 con un rendimiento de 85 en AI Overviews y 45 en Perplexity. Si la estrategia del cliente prioriza Perplexity por su tasa de conversión superior, el score compuesto le induce a una decisión equivocada. Un sistema riguroso entrega siempre el desglose por plataforma junto al composite.
Principio 5 — Marca temporal y tendencia
Una puntuación sin fecha es información incompleta en un campo donde la rotación mensual de citaciones se sitúa entre el 40 y el 60%. El score debe acompañarse de la fecha de medición y, cuando exista histórico, de la tendencia. Un dominio con 65 estable en seis meses tiene un perfil estratégico distinto a un dominio con 65 que ha bajado desde 78 en el mismo período, aunque la fotografía actual sea idéntica.
Principio 6 — Granularidad acorde a la audiencia
Un score para dirección general es un número con semáforo; un score para equipo de marketing es un radar con desglose por dimensión; un score para equipo técnico es un checklist con desglose por factor con su impacto y esfuerzo asociados. Un sistema bien diseñado entrega los tres niveles desde la misma base de datos, no fuerza al cliente a elegir entre el número que entiende dirección y el detalle que necesita el equipo de implementación.
Principio 7 — Honestidad en los umbrales
Los umbrales del sistema —85, 70, 60 en Geoptie; 80, 60, 40 en el modelo de cuatro semáforos— no son matemáticos sino normativos: son juicios sobre qué nivel de preparación se considera aceptable. Esa decisión normativa debe explicitarse en la documentación, no presentarse como propiedad emergente del sistema. Un cliente que recibe un 78 y entiende que está en "zona amarilla" merece saber que ese umbral fue elegido por el sistema, no descubierto en los datos.
El argumento contra el score único opaco
La consecuencia práctica de aplicar estos siete principios es una recomendación que algunas agencias rechazarán por motivos comerciales legítimos: el score único compuesto, presentado de forma aislada y sin contexto metodológico, debería abandonarse en favor de un sistema multinivel que mantiene el número agregado como dispositivo de comunicación inicial pero lo subordina a un desglose explícito por dimensiones, plataformas, nivel de confianza y marca temporal.
La objeción comercial es comprensible: un número con semáforo es más eficaz en una primera reunión que un panel con seis indicadores y un nivel de confianza. Pero esta objeción confunde dos funciones que el sistema de puntuación debe cumplir simultáneamente. La función de captación —generar urgencia y producir una conversación comercial— se sirve eficazmente con el número compuesto. La función de diagnóstico —proporcionar al cliente la base sobre la que se va a invertir tiempo y presupuesto— exige el sistema multinivel. Tratar de cumplir las dos funciones con el mismo instrumento empobrece la segunda en favor de la primera.
La solución que la mayor parte de las agencias rigurosas están adoptando en 2025 es lo que podríamos llamar el modelo de "score visible / metodología disponible": el cliente ve el score compuesto en la parte superior del informe, pero la metodología completa —ponderaciones, dimensiones, fuentes, nivel de confianza— está documentada en un anexo que cualquier interlocutor exigente puede consultar. Esta arquitectura preserva la eficacia comunicativa del número compuesto sin renunciar a la transparencia metodológica que sostiene la credibilidad a largo plazo. Para una agencia que aspira a relaciones duraderas con sus clientes, esta es la única arquitectura coherente con la promesa de rigor que la diferenciación GEO/AEO supuestamente implica.
Una propuesta de scoring para auditorías GEO/AEO en 2026
A modo de síntesis operativa, y aplicando los siete principios anteriores a la práctica concreta de una agencia, un sistema de puntuación bien diseñado para auditorías GEO/AEO en el contexto actual contempla siete bloques de evaluación con ponderaciones derivadas del peso de evidencia disponible para cada uno: rastreabilidad técnica para bots de IA (15%), entidad de marca y autoridad (15%), datos estructurados y schema (10%), estructura de contenido y extractabilidad (20%), señales E-E-A-T y autores verificables (10%), huella de citación externa (20%) y diagnóstico específico por plataforma (10%). La elevada ponderación de extractabilidad y huella externa —40% combinado— refleja la evidencia empírica de que estos dos factores son las palancas de mayor impacto causal en la citabilidad real, mientras que el peso comparativamente menor del schema y de E-E-A-T refleja su carácter de habilitadores necesarios pero insuficientes.
La salida del sistema es un score compuesto de 0–100 con cuatro umbrales —Verde 80–100, Amarillo 60–79, Naranja 40–59, Rojo 0–39— acompañado de seis sub-scores por bloque, una lectura por plataforma diferenciada (ChatGPT, Perplexity, AI Overviews, Claude, Copilot, Gemini), un nivel de confianza explícito de 1 a 5 según los datos disponibles, y una marca temporal con tendencia cuando existe histórico. La hoja de ruta de mejoras se entrega como anexo del score, ordenada por impacto frente a esfuerzo, con la indicación expresa de qué dimensiones del score son afectadas por cada acción —para que el cliente pueda construir mentalmente la conexión entre las acciones que va a financiar y la evolución del score que medirá su progreso.
Este sistema no es la única arquitectura defendible. Es una arquitectura que cumple los siete principios anteriores y que es razonablemente reproducible, comunicable y honesta. Otras arquitecturas que cumplan los mismos principios son igualmente legítimas. Lo que no es defendible es construir un sistema que falle alguno de los principios en nombre de la simplicidad comercial.
El campo GEO/AEO no necesita más sistemas de puntuación. Necesita sistemas con metodología documentada, ponderaciones justificables, niveles de confianza explícitos y la honestidad de reconocer que un número entre 0 y 100, en un campo donde la propia medición es no determinista, es siempre una abstracción —útil cuando se entiende como tal, peligrosa cuando se presenta como verdad.
La pregunta que un cliente debería hacer ante cualquier puntuación que reciba no es si el número es alto o bajo. La pregunta es cómo se ha producido ese número, con qué nivel de confianza, y qué pasaría si la auditoría se ejecutara de nuevo el mes que viene. Un sistema que no puede responder esas tres preguntas no merece la confianza que el número que produce reclama implícitamente.