Por qué esto importa: el imperativo de la auditoría
El cambio que impulsa la demanda de auditorías GEO/AEO está ahora bien documentado:
- Los AI Overviews de Google aparecían en aproximadamente el 25% de las búsquedas en 2025 (según el análisis de Conductor sobre 21,9 millones de búsquedas en 2025), con algunos estudios que muestran presencia en más del 30% de las consultas a fin de año, y BrightEdge rastreando su expansión en nueve industrias.
- Un estudio de Ahrefs de 2025 sobre 300.000 palabras clave mostró que la tasa de clics en la posición 1 cayó un 58% cuando aparecía un AI Overview.
- ChatGPT procesa aproximadamente 2.500 millones de consultas diarias (más de 800 millones de usuarios activos semanales en 2025), y Perplexity procesó 780 millones de consultas solo en mayo de 2025, un crecimiento interanual del 239%.
- Gartner ha proyectado que el volumen de búsquedas en motores tradicionales caerá un ~25% para 2026 debido a los chatbots de IA.
- Los LLMs suelen citar entre 2 y 7 dominios por respuesta —muchos menos que los 10 resultados orgánicos de Google—, lo que hace que cada slot de citación sea desproporcionadamente valioso.
- El estudio de benchmarks de Conductor para 2026 (3.300 millones de sesiones, más de 100 millones de citaciones de IA en 13.770 dominios) encontró que las conversiones del tráfico referido desde IA son aproximadamente el doble que las de las fuentes tradicionales, y la investigación de Semrush sugiere que los visitantes procedentes de búsqueda en IA tienen ~4,4 veces más probabilidades de convertir que los de búsqueda orgánica.
Estas condiciones explican por qué las agencias se han movido con rapidez para añadir las auditorías GEO/AEO como línea de servicio, típicamente con un incremento del 20–30% sobre los retainers de SEO existentes. Las auditorías independientes oscilan entre 1.500 y 7.500 dólares, y los programas gestionados entre 3.000 y más de 50.000 dólares al mes (Demand Local).
Qué evalúa realmente una auditoría GEO/AEO
Aunque la terminología varía entre proveedores, los criterios evaluados en las auditorías se agrupan en seis o siete pilares recurrentes. Los marcos más referenciados incluyen el checklist AEO de 48 factores de AirOps, el Marco de 7 Pilares B2B de NAV43, la Auditoría Técnica AEO de 47 puntos de Relixir, el modelo de puntuación de seis dimensiones de Geoptie, la rúbrica de seis dimensiones de Juma y la metodología "CITABLE" de Discovered Labs.
Pilar 1 — Rastreabilidad técnica para bots de IA
- Acceso de crawlers de IA: verificación del robots.txt para GPTBot (OpenAI), OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, Perplexity-User, Google-Extended, Bingbot/MSNBot, Applebot-Extended y Meta-ExternalAgent. Muchos sitios bloquean inadvertidamente estos rastreadores.
- Archivo llms.txt (un estándar propuesto en Markdown ubicado en /llms.txt que lista los recursos canónicos para los LLMs). Aún no es un factor de posicionamiento confirmado por ninguna plataforma, pero se trata como una mejora de bajo coste en la mayoría de las auditorías, y es verificado explícitamente por Juma, Geoptie y Otterly.
- Contenido renderizado en servidor: los crawlers de IA tienen dificultades con el renderizado exclusivo de JavaScript; Site Audit de Semrush y otras herramientas detectan sitios con mucho JS donde el contenido principal no está en el HTML inicial.
- IndexNow / envío de sitemap: Microsoft Bing ofrece IndexNow para un descubrimiento más rápido —relevante porque la búsqueda de ChatGPT está construida sobre el índice de Bing.
- Core Web Vitals e INP: la métrica INP de Google (sustituyó a FID en marzo de 2024) se incorpora en las auditorías AEO como señal fundamental, ya que los AI Overviews siguen extrayendo información de páginas indexadas. La auditoría de 47 puntos de Relixir se alinea explícitamente con los umbrales técnicos de INP y SGE.
Pilar 2 — Datos estructurados y schema markup
El schema se evalúa de forma universal, aunque su efecto causal preciso está debatido. Confirmaciones clave de 2025:
- Fabrice Canel de Microsoft (SMX Munich, marzo de 2025) confirmó que Bing/Copilot usa schema para ayudar a sus LLMs a entender el contenido.
- El equipo de Google Search (abril de 2025) afirmó que los datos estructurados aportan una ventaja en los resultados de búsqueda.
- Un estudio de Search/Atlas de diciembre de 2024 no encontró correlación directa entre la cobertura de schema markup por sí sola y las tasas de citación por IA, lo que sugiere que el schema es necesario pero no suficiente.
- Schema App y otros señalan que Schema.org es datos estructurados —una capa de conocimiento legible por máquinas que ayuda a desambiguar entidades y reducir alucinaciones, especialmente cuando los LLMs lo usan para "rellenar un formulario" de campos predefinidos (hallazgo de Nature Communications, febrero de 2024).
Tipos de schema prioritarios en las auditorías: **Organization, Person, Article/BlogPosting, FAQPage, HowTo, Product, Offer, Review, Speakable, BreadcrumbList, WebPage, ContactPoint**, y enlaces `sameAs` que conectan las entidades de marca con LinkedIn, Crunchbase, Wikidata y perfiles oficiales.
Pilar 3 — Entidad de marca y señales de autoridad
Esta es la dimensión que los equipos de SEO pasan por alto con más frecuencia. Las auditorías comprueban:
- Si la marca existe como una entidad claramente desambiguada en el Knowledge Graph de Google y en Wikidata.
- Consistencia del NAP (Nombre, Dirección, Teléfono) y de los descriptores de marca en el sitio, Google Business Profile, Wikipedia, Crunchbase, LinkedIn y plataformas de reseñas.
- Schema de Autor/Persona en biografías, con credenciales verificables y enlaces `sameAs` a LinkedIn, ORCID, Crunchbase y directorios universitarios.
- Co-ocurrencia de la marca y los atributos de producto en fuentes de terceros (el estudio de AI Overviews de Wellows identificó una densidad de entidades del Knowledge Graph de 15 o más entidades conectadas como correlacionada con un aumento de 4,8 veces en las citaciones).
- Un estudio de factores de posicionamiento de Wellows de 2025 identificó siete factores principales para AI Overview: completitud semántica (r=0,87), integración multimodal (+156% de selección), verificación factual en tiempo real (+89%), alineación de vector embedding (r=0,84), E-E-A-T (el 96% de las citaciones incluyen credenciales de experto), densidad de entidades (aumento de 4,8×) y schema explícito (+73%). Estas son correlaciones de estudios observacionales, no ponderaciones confirmadas por Google.
Pilar 4 — Estructura de contenido y extractabilidad ("pasabilidad")
La búsqueda de IA moderna recupera pasajes, no páginas. AirOps (Aleyda Solis) lo enmarca así: "Con la búsqueda de IA, esto ocurre a nivel de pasaje o fragmento de relevancia." Las auditorías evalúan:
- Formato answer-first / BLUF (Bottom Line Up Front): respuesta directa en las primeras 30–50 palabras de cada página o sección. La investigación de BrightEdge encontró que el 44% de las citaciones de ChatGPT provienen del primer tercio del contenido.
- Chunking semántico: pasajes autónomos de aproximadamente 100–400 palabras, cada uno abordando una sola pregunta o idea para que puedan extraerse en respuestas sin perder contexto. La investigación de NVIDIA citada por Search Engine Land confirmó que el chunking a nivel de página/pasaje proporciona la mayor precisión para la recuperación RAG.
- Cajas de TL;DR / Puntos Clave: las etiquetas explícitas mejoran la probabilidad de extracción por IA.
- Jerarquía de encabezados (H1→H2→H3): encabezados descriptivos con estructura de pregunta (p. ej., "¿Qué es X?") que coincidan con la forma en que los usuarios redactan prompts para los LLMs.
- Secciones FAQ con preguntas en H3 y respuestas inmediatamente después, más schema FAQPage. (Nota: Google redujo los rich results de FAQ, pero la estructura FAQ sigue ayudando a la extracción por IA.)
- Listas, tablas y matrices comparativas: los motores generativos extraen preferentemente diseños estructurados sobre bloques de prosa.
- Estadísticas, citas y referencias: el paper de Princeton de Aggarwal et al. (KDD 2024) —el estudio académico GEO de referencia— probó nueve métodos de optimización en GEO-bench (10.000 consultas en 10 motores generativos). Añadir estadísticas mejoró la visibilidad ~41%; añadir citas ~28%; citar fuentes externas ~115% para contenidos de menor posicionamiento; los métodos combinados alcanzaron ganancias relativas del 30–40%. Las páginas de menor posicionamiento fueron las más beneficiadas.
- Evitar pasajes dependientes de pronombres ("esto," "ese enfoque") que hacen referencia a contenido anterior y pierden significado al extraerse.
Pilar 5 — E-E-A-T, autoridad y citabilidad
Los motores de IA no disponen de backlinks como votos al estilo Google, pero infieren confianza a través de proxies que reflejan estrechamente el E-E-A-T (Experiencia, Pericia, Autoridad, Confianza):
- Bylines de autor visibles con schema Person y credenciales verificables; la búsqueda de IA penaliza el contenido anónimo.
- Marcadores de experiencia de primera mano ("lo probé," "medimos"), datos originales e investigaciones propias.
- Citas outbound a fuentes primarias (documentos regulatorios, papers revisados por pares, documentación oficial) —el hallazgo GEO de Princeton de que "Citar Fuentes" produjo el mayor aumento de visibilidad (+115%) es el ancla empírica más sólida.
- Frescura del contenido: los datos de BrightEdge muestran que el contenido actualizado en los últimos 30 días recibe ~3,2 veces más citaciones en motores de tiempo real como ChatGPT.
- Validación de terceros: cobertura en publicaciones especializadas, hilos de Reddit, Wikipedia, G2, Trustpilot, comparativas/"mejores de". El análisis de SearchIntel de estima que ~85% de las menciones de marca en la búsqueda de IA provienen de páginas de terceros, y los sitios web de las marcas representan solo ~9% de los dominios citados.
Pilar 6 — Auditoría de huella de citación externa
Dado que las respuestas de IA se nutren en gran medida de fuentes de terceros, las auditorías modernas incluyen una **auditoría de citación externa**:
- Presencia en Reddit en subreddits relevantes para la categoría. Estudios citados por Search Engine Land y Am I Cited sitúan a Reddit en aproximadamente el 40% de las citaciones de LLMs en general y el 46,7% de las principales citaciones de Perplexity.
- Cobertura y precisión en Wikipedia (47,9% de las principales citaciones de ChatGPT según el estudio de ingeniería inversa de Pallas Advisory de 2025; 26,3% del total de citaciones).
- YouTube: promediando ~20% de cuota de citación en plataformas de IA; 200 veces más citado que cualquier otra plataforma de vídeo según BrightEdge (2024–2025).
- LinkedIn: BrightEdge encontró que solo los cursos de LinkedIn Learning y los artículos educativos de Pulse son citados; los posts de liderazgo intelectual y las actualizaciones de empresa son ampliamente ignorados.
- Plataformas de reseñas (G2, Trustpilot, Capterra), artículos comparativos/"mejores de", y cobertura en noticias/PR de publicaciones especializadas.
Pilar 7 — Capas de auditoría específicas por plataforma
Dado que ChatGPT, Perplexity, Claude, Gemini, AI Overviews y AI Mode utilizan diferentes arquitecturas de recuperación e índices distintos, las auditorías maduras incluyen verificaciones específicas por plataforma. Los datos de BrightEdge AI Catalyst (analizando decenas de miles de prompts en más de 10 industrias) y el análisis de ZipTie.dev muestran:
- ChatGPT — índice Bing; distribución plana de fuentes (los 10 principales dominios representan el 18,5% de las citaciones); con gran peso de Wikipedia (47,9% de las principales citaciones); prácticamente sin UGC (0,5%); favorece fuentes .gov/.org (~32% combinado). La adecuación contenido-respuesta impulsa ~55% de las decisiones de citación; el 28,3% de las páginas más citadas de ChatGPT tienen cero visibilidad orgánica en Google.
- Perplexity — sistema RAG de tres capas que puede descartar conjuntos completos de resultados; el 46,7% de las principales citaciones provienen de Reddit; 0% de Wikipedia en las principales citaciones; premia el schema FAQPage, los PDFs públicos y el contenido reciente (60–90 días).
- Claude — usa Brave Search; favorece los blogs (~43,8% de las principales citaciones); el motor más editorial y orientado a la precisión.
- Google AI Overviews — índice Google; favorece YouTube (~23,3%) y el contenido multimodal (+156% de tasa de citación); mayor correlación con las señales de SEO tradicional; los datos de Conductor muestran un crecimiento del 32% al 54% en el solapamiento con el top-10 orgánico en 16 meses.
- Google AI Mode — utiliza query fan-out (10–20 sub-consultas por entrada) que requiere amplitud temática y extractabilidad de fragmentos.
- Microsoft Copilot — índice Bing más IndexNow; uso de schema confirmado explícitamente.
- Gemini — fuerte peso institucional (universidades, gobierno, marcas establecidas); menor solapamiento con los otros productos de IA de Google.
El hallazgo llamativo de ZipTie.dev: **solo el 11% de los dominios son citados tanto por ChatGPT como por Perplexity para la misma consulta, y el 71% de las fuentes citadas aparecen en una sola plataforma** —lo que significa que una única auditoría debe detectar las brechas plataforma por plataforma.
Marcos de trabajo y sistemas de puntuación establecidos
Un "estándar de industria" real aún no ha cristalizado, pero varios sistemas de puntuación ya están ampliamente adoptados o referenciados:
Princeton GEO / GEO-bench (referencia académica)
El marco de referencia de Aggarwal et al. (KDD 2024), desarrollado conjuntamente por Princeton, Georgia Tech, el Allen Institute for AI y el IIT Delhi. Introdujo tres constructos de medición de los que se nutre todo marco posterior:
- Puntuación de impresión (cuánto de una fuente aparece en una respuesta de IA, ponderado por posición)
- Recall de citación (proporción del contenido elegible que es citado)
- Precisión de citación (proporción de citaciones que respaldan con precisión las afirmaciones)
Se probaron nueve métodos de optimización en 10.000 consultas, siendo "Citar Fuentes", "Añadir Citas" y "Añadir Estadísticas" los que produjeron mayores ganancias. AutoGEO (ICLR) amplió esto con extracción automática de reglas, reportando una mejora del 50,99% sobre la línea base de Princeton; C-SEO Bench (2025) encontró que la mayoría de las manipulaciones de contenido a nivel de prosa son ineficaces en comparación con la infraestructura (robots.txt, llms.txt, schema, metadatos).
Marcos de agencias y proveedores
- Marco GEO de 10 Pasos de Profound (usado por marcas enterprise; enfatiza la autoridad de citación, el share-of-model y la Tasa de Conversión por Conversación).
- Marco AEO de 7 Pilares de NAV43 (específico para B2B): (1) Autoridad de Entidad y Marca, (2) Schema/Datos Estructurados, (3) Estructura de Contenido y Extractabilidad, (4) Optimización Específica por Plataforma, (5) Rastreabilidad Técnica para Bots de IA, (6) Huella de Citación, (7) Medición.
- Auditoría de 6 Dimensiones de Geoptie: Autoridad, Técnico, Estructura de Contenido, Diferenciación, Citabilidad y Frescura —cada una puntuada de 0 a 100 con ponderaciones respaldadas por investigación, combinadas en una única Puntuación GEO de Preparación (85–100 = Optimizado para IA; 70–84 = Listo para IA; <60 = remediación prioritaria).
- Rúbrica de 6 Dimensiones de Juma (metodología abierta en geo.juma.ai/methodology): Acceso de Crawlers, Schema, Citabilidad, Señales Técnicas, Autoridad, Presencia de Marca —salida como gráfico de radar con lista de correcciones ordenadas por impacto frente a esfuerzo.
- Checklist AEO de 48 Factores de AirOps — Acceso Técnico, Estructura de Contenido, Señales de Autoridad, Schema, Frescura, Medición.
- Auditoría Técnica AEO de 47 Puntos de Relixir — con los umbrales de INP/SGE de Google.
- Auditoría AEO de 20 Reglas de SEOgrow — motor propietario basado en reglas agrupadas en cuatro pilares que produce una única puntuación AEO objetiva.
- Marco "CITABLE" de Discovered Labs — Claridad (BLUF), Identidad (validación de entidad), Confianza (autoridad), Adyacencia (validación de terceros), Brevedad (chunking a nivel de pasaje), Enlazabilidad (citas), Evidencia (estadísticas/datos) —utilizado para llevar a clientes B2B SaaS de tasas de citación del 5–15% al 40–50% en seis meses.
- NAV43, Hashmeta, RevvGrowth, Stackmatix y 201 Creative — cada uno publica checklists de auditoría abiertos estructurados en cuatro a siete pilares, pero los criterios subyacentes son en gran medida coincidentes.
Puntuaciones de herramientas enterprise
- Semrush AI Visibility Toolkit publica una Puntuación de Visibilidad en IA de 0–100 que combina (1) Presencia de Marca (si la IA menciona la marca), (2) Posición (dónde aparece en la respuesta) y (3) Tasa de Citación (enlace como fuente). Usa una base de datos propietaria de más de 239 millones de prompts que cubre Google AI Overviews, AI Mode, Gemini y ChatGPT, actualizada diariamente, más un Sistema de Extracción de Marca de IA para la desambiguación de entidades.
- BrightEdge AI Catalyst ejecuta decenas de miles de prompts semanales en ChatGPT, Perplexity, Gemini, AI Overviews y AI Mode en nueve o diez industrias; expone tanto la cuota de citación como métricas de estabilidad/volatilidad (el 96,8% de los dominios citados no experimentaron cambios semana a semana; el 87% de los cambios fueron descensos).
- Profound mantiene el mayor conjunto de datos de ChatGPT y realiza seguimiento del Conversation Explorer / share-of-model.
- GEO Audit 2.0 de Otterly.AI (julio de 2025; Gartner Cool Vendor 2025) puntúa páginas en más de 25 factores de visibilidad en IA organizados en torno a Velocidad de Página/SEO, Preparación para IA (unicidad, citas, estadísticas) y Datos Estructurados.
- AI Search Grader de HubSpot (gratuito) y HubSpot AEO (50 $/mes) puntúan marcas en cinco dimensiones validadas con GPT-5.2, Perplexity y Gemini, produciendo una puntuación compuesta sobre 100.
- Frase Auditor ejecuta auditorías de visibilidad en ocho plataformas (ChatGPT, Perplexity, Claude, Gemini, AI Overviews, Grok, Copilot, DeepSeek) con puntuación dual SEO+GEO.
- Informe de Benchmarks AEO/GEO de Conductor (Search Engine Journal, 2025) proporciona benchmarks por sector para 13.770 dominios.
KPIs y métricas clave de GEO/AEO
Existe un consenso aproximado entre proveedores en que los KPIs de SEO tradicional (posicionamiento, CTR orgánico, posiciones de palabras clave) son cada vez más insuficientes, y que GEO requiere una capa de medición paralela. Las métricas más citadas —según Similarweb, Profound, Otterly, ELCA, Interactgen, LLM Pulse y BrightEdge— son:
Métricas de visibilidad
- AI Visibility Score / AI Visibility Index — benchmark normalizado de 0–100 sobre la frecuencia de mención relativa a la mediana del sector (Semrush, Otterly, HubSpot y Geoptie publican versiones propietarias).
- AI-Generated Visibility Rate (AIGVR) — porcentaje de prompts objetivo en los que la marca aparece en alguna respuesta de IA.
- Mention Rate / Brand Coverage Rate — recuento bruto o % de prompts monitorizados que producen una mención.
- Citation Rate / Citation Frequency — frecuencia con la que la URL de la marca es citada como fuente (señal más fuerte que la mención solo de texto; la investigación de Semrush encontró que menos del 25% de las marcas mencionadas por la IA son realmente citadas).
- Share of Voice / Share of Answer / Share of Model — tus menciones vs. competidores en un conjunto fijo de prompts; el SoV de Semrush (2025) pondera la prominencia de la posición.
- Posición en la respuesta — dónde aparece la mención dentro de la respuesta (al inicio tiene mayor peso).
Métricas de calidad y sentimiento
- Sentiment Score — valoración positiva/neutra/negativa de la marca en las respuestas de IA.
- Citation Accuracy / Hallucination Rate — la prueba del Tow Center (Columbia Journalism Review) encontró que los motores de búsqueda de IA daban respuestas incorrectas en más del 60% de 1.600 consultas; DeepSeek tuvo una tasa de atribución errónea del 57,5%. JMIR Mental Health encontró que ~63% de las citaciones de GPT-4o eran fabricadas o contenían errores. Las auditorías comprueban cada vez más si los motores de IA describen la marca con precisión.
- Reasoning Depth Ratio (RDR) / Visibility Depth Index (VDI) — métricas propietarias de GEOReport.ai que miden la profundidad con la que la IA integra el contenido en su razonamiento, no solo el recuento de menciones.
Métricas de cobertura y diversidad
- Platform Variance — rendimiento de citación desglosado por motor (Otterly, Frase, BrightEdge).
- Source Distribution / Source Diversity Score — el AI Visibility Index de Semrush usa una métrica de fuentes únicas por prompt para comparar motores.
- Citation Stability / Volatility — la investigación de AirOps mostró que solo ~30% de las marcas permanecen visibles de una respuesta a la siguiente, y apenas el 20% en cinco ejecuciones consecutivas; BrightEdge mostró una brecha de volatilidad de 70× entre dominios citados frecuentemente y raramente. Esto hace que el seguimiento longitudinal sea esencial.
- Topic / Prompt Coverage — % de prompts relevantes de la categoría en los que aparece la marca.
Métricas de impacto de negocio
- Tráfico referido desde IA — sesiones procedentes de chat.openai.com, perplexity.ai, gemini.google.com, etc., rastreadas en GA4 (aún imperfecto porque los AI Overviews de Google no se separan del orgánico en Search Console). Los datos de Conductor sitúan el tráfico referido desde IA en ~1,08% del total del tráfico web (2025), con un crecimiento de ~1% mensual.
- Conversion-to-Conversation Rate / LLM Conversion Rate — Semrush encontró que los visitantes de búsqueda de IA son ~4,4 veces más valiosos por visita; Webflow reportó un 24% de conversión desde ChatGPT vs. 4% desde búsqueda de no-marca; Frase cita 6,8 veces más tiempo en el sitio.
- Brand search lift — volumen de consultas de marca y picos de tráfico directo correlacionados con fechas de mención en IA.
- Pipeline / atribución de ingresos — casos de estudio al estilo AthenaHQ (126.000 $ de valor mediático, 10× crecimiento en citaciones, 50% de aumento en demos; caso Ramp de Profound con 7× de aumento de visibilidad en IA).
KPIs técnicos y de contenido
- Semantic Relevance Score (SRS), Schema Markup Effectiveness (SME), Prompt Alignment Efficiency (PAE), Real-Time Adaptability Score (RTAS) y Content Extraction Rate (CER) — utilizados por ELCA, Go Fish Digital y otros como proxies de calidad de contenido.
- Distribución de fuentes de citación — qué URLs del sitio generan citaciones (informa la priorización de contenido).
El marco de Avinash Kaushik —que los motores de respuesta requieren una nueva capa de "Answer Engine Analytics (AEA)"— recoge el consenso: la atribución tradicional en GA4/Search Console es insuficiente, y las marcas añaden ahora una herramienta de monitorización de IA especializada (Profound, Otterly, Semrush AI Toolkit, BrightEdge AI Catalyst, Frase, AirOps, Peec AI, AthenaHQ, Brandlight, ZipTie.dev, Knowatoa, SE Visible, Superlines, Promptmonitor o Scrunch AI) con precios desde 29 hasta más de 3.000 $/mes.
Qué hace que el contenido sea "citable" por los modelos de IA
Sintetizando el estudio GEO de Princeton, BrightEdge AI Catalyst, los benchmarks de Conductor, los análisis de ZipTie, la ingeniería inversa de Perplexity de Pallas Advisory, y las auditorías de SearchIntel/AirOps, los "factores de citabilidad" recurrentes son:
1. Formato directo con respuesta al inicio. Una frase BLUF de 2–3 oraciones que nombre explícitamente la entidad y declare la respuesta. Los sistemas RAG extraen el contexto del párrafo inicial para determinar la relevancia.
2. Estadísticas y evidencia cuantitativa. El hallazgo individual más importante del estudio de Princeton: las afirmaciones respaldadas con datos se citan entre un 30 y un 41% más frecuentemente.
3. Citas y voces expertas atribuidas (+28% en el estudio de Princeton).
4. Referencias outbound a fuentes primarias — el mayor aumento individual en el paper de Princeton (+115% para páginas de menor posicionamiento). Paradójicamente, citar otras autoridades aumenta la probabilidad de ser citado.
5. Completitud semántica — contenido que responde completamente una pregunta sin requerir referencias externas; correlacionado a r=0,87 con el posicionamiento en AI Overview en el estudio de Wellows de 2025.
6. Parsabilidad estructural — encabezados H2/H3 claros, párrafos cortos, listas, tablas, pares FAQ, cajas TL;DR.
7. Claridad de entidad — la marca, los productos y las personas están definidos de forma inequívoca y son consistentes en toda la web (Knowledge Graph, Wikipedia, Wikidata).
8. Señales de frescura — una fecha "Última actualización" visible y contenido renovado en los últimos 30–90 días; se recomienda ampliamente una cadencia de actualización de 30 días.
9. Validación de terceros — conversaciones en Reddit, reseñas en G2, artículos comparativos/"mejores de", cobertura en publicaciones especializadas, citas de expertos vía HARO. ~85% de las menciones de marca en IA proceden de páginas externas, por lo que una auditoría que ignore la huella de citación pasa por alto la mayor parte del palanca real.
10. Complementos multimodales — incorporar imágenes, diagramas, tablas comparativas y vídeos de YouTube aumenta la selección en AI Overview en ~156% según el estudio de Wellows.
11. Independencia y especificidad — los avales vagos ("fueron útiles") son penalizados; los resultados específicos ("incremento de leads cualificados un 34% en Q3") se extraen de forma fiable.
12. Schema markup que desambigúa entidades (Organization, Person, Product, FAQPage, Speakable, Article, sameAs) — confirmado para Bing/Copilot, probable para Google AI Overviews, indirecto para ChatGPT/Perplexity.
Un hallazgo contraintuitivo de ZipTie.dev: la autoridad de dominio (la métrica SEO) tiene solo una correlación "moderada" con la probabilidad de citación por IA. Un sitio de nicho con datos originales densos y estadísticas puede superar a un sitio de marca con alto DA en ChatGPT y Perplexity —una inversión de la dinámica habitual del SEO. Los AI Overviews de Google siguen siendo los más próximos a las señales de SEO tradicional, mientras que ChatGPT y Perplexity divergen más.
El flujo de trabajo estándar de auditoría GEO en agencias
A partir del recorrido de 7 pasos de Demand Local, el marco de NAV43, la metodología de AirOps, el checklist de agencia de Wellows y la cadencia de reporting de Otterly, el proceso práctico de auditoría ha convergido aproximadamente en esta secuencia:
1. Definir alcance y biblioteca de prompts. Construir 50–100 prompts en lenguaje natural relevantes para el cliente (informativos, comerciales, comparativos, de marca) y un conjunto de 3–5 marcas competidoras.
2. Establecer líneas base. Ejecutar los prompts en ChatGPT (con y sin navegación), Perplexity, Claude, Gemini, AI Overviews, AI Mode y Copilot; registrar mención/citación/posición/sentimiento por prompt y por plataforma. Esto produce el Share of Voice y la Puntuación de Visibilidad de partida.
3. Auditoría de preparación técnica. robots.txt para crawlers de IA, llms.txt, renderizado en servidor, INP/Core Web Vitals, sitemap/IndexNow, etiquetas canónicas, implementación y validación de schema.
4. Auditoría de preparación de contenido/citación. Análisis página por página del formato BLUF, chunking semántico, densidad de estadísticas, densidad de citas, densidad de referencias, estructura FAQ/HowTo, fechas de frescura, markup de autor/Person.
5. Auditoría de entidad. Presencia en Knowledge Graph/Wikidata, cobertura en Wikipedia, consistencia de marca en Google Business Profile, Crunchbase, LinkedIn, plataformas de reseñas, enlaces sameAs.
6. Auditoría externa / de huella de citación. Presencia en Reddit, reseñas en G2/Trustpilot, inclusión en comparativas/"mejores de", contenido en YouTube, cobertura en publicaciones especializadas.
7. Benchmarking competitivo. Identificar "oportunidades de topic" (prompts donde aparecen los competidores y la marca no) y "oportunidades de fuente" (dominios de terceros que citan a los competidores pero no a la marca) — ambas son informes principales en el AI Visibility Toolkit de Semrush.
8. Entregable puntuado. La mayoría de las agencias producen una puntuación compuesta de 0–100, sub-puntuaciones por dimensión, un gráfico de radar y una lista de mejoras prioritarias ordenadas por impacto frente a esfuerzo.
9. Hoja de ruta 30/60/90 días. Packaging estándar de agencia que convierte la auditoría en un retainer gestionado.
10. Monitorización continua. Seguimiento semanal de los 20 principales prompts, re-ejecución mensual de la biblioteca completa, auditorías profundas trimestrales —ya que los datos de BrightEdge muestran que la rotación de citaciones promedia entre el 40 y el 60% mensual en ChatGPT y AI Mode.
Advertencias, debates abiertos y limitaciones del campo
El encuadre honesto —capturado en la cita de Rand Fishkin de que "estamos construyendo el avión mientras volamos"— es que GEO/AEO sigue siendo una disciplina en maduración con varios problemas sin resolver:
- Opacidad de la medición. Ninguna plataforma de IA expone un equivalente a "Search Console". El seguimiento depende del muestreo de prompts y respuestas, que es no determinista (los LLMs devuelven respuestas diferentes a prompts idénticos) y varía según la plataforma.
- La precisión de las citaciones es deficiente. La prueba del Tow Center/Columbia Journalism Review encontró que más del 60% de las citaciones de búsqueda en IA eran incorrectas, y JMIR encontró que ~63% de las citaciones de GPT-4o eran fabricadas o erróneas. Las auditorías deberían incluir una comprobación de precisión de citaciones.
- El impacto directo del schema está en debate. Microsoft ha confirmado que Bing/Copilot usa schema; los AI Overviews de Google probablemente también; para ChatGPT y Perplexity, la evidencia es indirecta. El estudio de Search/Atlas de diciembre de 2024 no encontró correlación entre la cobertura de schema por sí sola y las tasas de citación.
- Muchas "mejores prácticas GEO" son mejores prácticas de SEO. Los análisis de Search Engine Journal y la investigación de Conductor señalan que la claridad semántica, el contenido estructurado, el schema y el E-E-A-T son en gran medida los mismos fundamentos. Los añadidos genuinamente novedosos son la consistencia de entidad, la huella de citación externa, llms.txt, el acceso de crawlers de IA y la monitorización específica por plataforma.
- La terminología no está consolidada. GEO, AEO, GAIO, AIO, LLMO, GSO e IA SEO se usan de forma intercambiable; ~59% de los influyentes de SEO usan "GEO" según un análisis de LinkedIn de Search Engine Land, pero Profound y otros siguen prefiriendo "AEO". Los compradores deben esperar solapamientos.
- La volatilidad es alta. La investigación de AirOps mostró que solo el 30% de las marcas permanecen visibles de una respuesta a la siguiente; BrightEdge mostró que el 96,8% de los dominios citados son estables semana a semana, pero cuando se producen cambios, el 87% son descensos. La consolidación, no la redistribución, es el patrón dominante —lo que significa que quienes se muevan primero acumulan ventajas.
- La crítica de "solo SEO". Algunos profesionales argumentan que gran parte de GEO es SEO rebautizado. Los datos lo respaldan parcialmente: Conductor encontró que las marcas fuertes en búsqueda orgánica también tienden a hacerlo bien en citaciones de IA, especialmente para AI Overviews. Pero ChatGPT y Perplexity divergen lo suficiente de Google como para que el trabajo específico por plataforma sea genuinamente necesario.
Conclusión: qué debe producir una auditoría en 2025–2026
Una auditoría GEO/AEO sólida y actualizada de un sitio web debe producir —como mínimo— los siguientes entregables:
- Un informe de visibilidad de línea base multiplataforma (ChatGPT, Perplexity, Claude, Gemini, AI Overviews, AI Mode, Copilot) con tasa de mención, tasa de citación, posición y sentimiento por prompt y por motor, comparado con 3–5 competidores nombrados.
- Una ficha de puntuación de preparación técnica que cubra acceso de crawlers de IA (robots.txt para GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, Applebot-Extended, etc.), llms.txt, renderizado en servidor, validación de INP/Core Web Vitals, schema y sitemap/IndexNow.
- Una ficha de puntuación de preparación de contenido que audite las 20–50 páginas principales en BLUF, chunking semántico, densidad de estadísticas, citas, referencias, estructura FAQ, frescura y schema Person/Autor.
- Una auditoría de entidad de la consistencia Knowledge Graph / Wikidata / Wikipedia / Crunchbase / LinkedIn, con enlace sameAs.
- Una auditoría de citación externa de Reddit, G2/Trustpilot, artículos comparativos/"mejores de", YouTube y cobertura en publicaciones especializadas.
- Una puntuación compuesta de 0–100 con desglose por dimensiones (la mayoría de los marcos usa 5–7 dimensiones ponderadas).
- Una lista de mejoras prioritadas por impacto frente a esfuerzo con una hoja de ruta de 30/60/90 días.
- Un plan de medición que combine métricas internas a la IA (Puntuación de Visibilidad, Share of Voice, Tasa de Citación, Sentimiento) con métricas de negocio (tráfico referido desde IA en GA4, aumento de conversión, volumen de búsqueda de marca).