GEO

Qué evalúa realmente una auditoría GEO/AEO

Los criterios evaluados en las auditorías GEO/AEO de 2025–2026 se agrupan en siete pilares recurrentes que aparecen, con variaciones terminológicas, en todos los marcos de referencia del sector: desde el modelo académico GEO-bench de Princeton hasta los sistemas propietarios de NAV43, AirOps, Geoptie, Juma y Relixir. Esta convergencia no es casual. Refleja que la comunidad de práctica, partiendo de enfoques distintos, ha llegado a conclusiones similares sobre qué determina la citabilidad en los motores generativos actuales. Sin embargo, antes de desglosar cada pilar, conviene establecer una distinción crítica que la mayoría de los informes del mercado evita hacer explícita: no todos los factores que se evalúan tienen el mismo tipo de evidencia que los respalda, y confundir impacto causal confirmado con correlación observacional es precisamente lo que convierte una auditoría rigurosa en una lista de recomendaciones de credibilidad incierta.

Qué evalúa realmente una auditoría GEO/AEO

La primera pregunta que debería hacerse cualquier agencia antes de vender una auditoría GEO/AEO —y cualquier marca antes de contratar una— no es cuánto cuesta ni en cuánto tiempo se entrega. La primera pregunta es qué se evalúa exactamente y por qué esos factores y no otros. En un campo tan joven como la optimización para motores generativos, la respuesta a esa pregunta separa los diagnósticos con valor operativo real de los informes que reciclan terminología nueva sobre análisis SEO convencionales. Este capítulo responde esa pregunta con la precisión que el campo ya permite —y con la honestidad que exige reconocer dónde la evidencia es sólida y dónde sigue siendo correlacional.

La distinción que las agencias evitan hacer: causal versus correlacional

Existe una diferencia fundamental entre un factor que, al modificarse, produce de forma demostrable un cambio en las citaciones de IA, y un factor que aparece frecuentemente en sitios bien citados sin que se haya podido aislar su contribución independiente. El acceso de crawlers de IA es causal en sentido estricto: si GPTBot está bloqueado en robots.txt, ChatGPT no puede recuperar ese contenido, y el dominio es invisible para ese motor con independencia de cualquier otra variable. El formato BLUF —responder directamente en las primeras 50 palabras— es causal en el sentido de que los sistemas RAG extraen el contexto del párrafo inicial para determinar la relevancia del pasaje, lo que hace que las páginas sin respuesta directa al inicio sean descartadas con mayor frecuencia en la fase de recuperación.

El schema markup, en cambio, ocupa una posición más matizada. Microsoft ha confirmado explícitamente que Bing y Copilot utilizan los datos estructurados para ayudar a sus modelos de lenguaje a entender el contenido y desambiguar entidades. Google ha afirmado que el schema aporta ventajas en los resultados de búsqueda, lo que sugiere un impacto indirecto en los AI Overviews. Sin embargo, un estudio de Search/Atlas de diciembre de 2024 sobre la correlación entre cobertura de schema markup y tasas de citación en IA no encontró correlación directa cuando el schema se analiza como variable aislada, lo que sugiere que su función es de necesidad —facilita la comprensión sin ser suficiente por sí solo— más que de palanca independiente. Una auditoría honesta debe presentar este matiz, no porque el schema sea irrelevante, sino porque implementarlo sin resolver las deficiencias de extractabilidad del contenido produce una mejora técnica sin impacto real en las citaciones.

Esta distinción no es académica. Tiene consecuencias directas en cómo se priorizan las acciones de la hoja de ruta: las correcciones causales generan resultados en semanas; las mejoras correlacionales son apuestas a medio plazo cuyo impacto individual es difícil de aislar. Ambas tienen su lugar en una auditoría, pero en posiciones distintas de la lista de prioridades.

Pilar 1 — Rastreabilidad técnica para bots de IA

El primer pilar evalúa si los crawlers de los principales motores generativos pueden acceder, leer y recuperar el contenido del dominio auditado. Es el punto de partida lógico de cualquier auditoría porque sin acceso de rastreo no existe citabilidad posible, con independencia de la calidad del contenido. Y sin embargo, un número sorprendentemente alto de dominios bloquean inadvertidamente algunos de estos crawlers —a veces como consecuencia de reglas robots.txt añadidas para bloquear bots de scraping de contenido, que por su sintaxis también excluyen a GPTBot o ClaudeBot.

Los crawlers que toda auditoría debe verificar incluyen GPTBot y OAI-SearchBot de OpenAI —el primero para entrenamiento, el segundo para las respuestas de ChatGPT Search—, ChatGPT-User para acciones iniciadas por el usuario, ClaudeBot y Claude-SearchBot de Anthropic, PerplexityBot y Perplexity-User de Perplexity AI, Google-Extended para los productos de IA de Google, y Applebot-Extended para los servicios de búsqueda de Apple. La distinción entre estos bots no es trivial: OpenAI diferencia explícitamente entre el crawler de entrenamiento y el de búsqueda, lo que significa que un sitio puede haber bloqueado GPTBot por motivos legítimos de propiedad intelectual y seguir siendo accesible para ChatGPT Search si ha permitido OAI-SearchBot —una configuración que la mayoría de robots.txt actuales no contempla con ese nivel de granularidad.

Más allá del robots.txt, este pilar evalúa el renderizado del contenido en servidor: los crawlers de IA tienen dificultades estructurales con el contenido que solo existe tras la ejecución de JavaScript, por lo que un sitio cuyo contenido crítico no esté presente en el HTML inicial —como ocurre frecuentemente en SPAs y plataformas headless mal configuradas— será parcialmente invisible para los modelos generativos aunque el crawler tenga acceso técnico al dominio. El pilar también contempla la implementación de IndexNow para el descubrimiento rápido en Bing, relevante porque la búsqueda de ChatGPT está construida sobre el índice de Bing, y la correcta configuración del sitemap, que afecta directamente a la velocidad con la que los cambios de contenido se reflejan en las respuestas generativas.

Pilar 2 — Datos estructurados y schema markup

El segundo pilar evalúa la implementación de datos estructurados bajo el vocabulario Schema.org, con un enfoque que va más allá de la comprobación técnica de si el JSON-LD está bien formado. La función estratégica del schema en el contexto generativo no es la misma que en el SEO clásico: no se trata de habilitar rich results en los SERPs, sino de proporcionar a los modelos de lenguaje una capa de desambiguación semántica que reduce la probabilidad de alucinaciones y aumenta la precisión con la que el modelo puede describir la marca, sus productos y sus autores.

Los tipos de schema con mayor relevancia en auditorías GEO/AEO son Organization —que define la entidad corporativa con sus atributos fundamentales—, Person —aplicado a los autores del contenido con credenciales verificables—, Article y BlogPosting, FAQPage y HowTo, Product con sus atributos Offer y Review, y los enlaces sameAs que conectan la entidad de marca con sus perfiles en LinkedIn, Crunchbase, Wikidata y directorios académicos o profesionales. Estos enlaces sameAs merecen atención especial porque son el puente entre el schema del dominio propio y el Knowledge Graph de Google, y por tanto el mecanismo por el que un modelo puede verificar de forma independiente que la información del sitio es coherente con fuentes externas.

La auditoría de schema no concluye con la validación técnica en el Rich Results Test: debe incluir también una verificación de coherencia entre el marcado y el contenido visible, porque un schema que describe atributos que no aparecen en el texto de la página no aporta información adicional al modelo —simplemente duplica lo que ya está implícito en el HTML— y en casos de incoherencia puede generar confusión en la fase de recuperación.

Pilar 3 — Entidad de marca y señales de autoridad

El tercer pilar es, sistemáticamente, el que los equipos de SEO pasan por alto con mayor frecuencia, y es también el que tiene mayor impacto estratégico a medio plazo en la visibilidad generativa. Evalúa si la marca existe como una entidad claramente desambiguada en los grafos de conocimiento —fundamentalmente el Knowledge Graph de Google y Wikidata— y si esa entidad está conectada de forma coherente y verificable a través de las principales fuentes de datos estructurados de la web.

La razón por la que esto importa tanto en GEO/AEO es que los modelos de lenguaje no construyen su conocimiento sobre las marcas exclusivamente desde el contenido del dominio propio: lo construyen de forma distribuida a partir de todas las fuentes en las que la entidad aparece mencionada, descrita y relacionada con otras entidades. Un estudio de Wellows de 2025 identificó una densidad de entidades del Knowledge Graph de 15 o más entidades conectadas como correlacionada con un aumento de 4,8 veces en las citaciones en AI Overviews —una magnitud de efecto que ninguna mejora técnica de robots.txt o schema puede igualar de forma aislada. El mecanismo subyacente es que un modelo que puede verificar los atributos de una entidad desde múltiples fuentes independientes la cita con mayor confianza que una entidad que solo describe sus propios atributos desde su propio dominio.

La auditoría de entidad evalúa la presencia y coherencia de la marca en el Knowledge Graph de Google, la completitud del registro en Wikidata con atributos verificables y referencias a fuentes primarias, la consistencia del NAP —nombre, dirección, teléfono— y los descriptores de marca en Google Business Profile, Wikipedia, Crunchbase y LinkedIn, y la implementación de schema de Autor y Persona en las páginas de contenido, incluyendo credenciales verificables y enlaces sameAs a perfiles profesionales. Esta última dimensión tiene una implicación directa en la detección de E-E-A-T: el estudio de AI Overviews de Wellows encontró que el 96% de las páginas citadas incluían credenciales de experto verificables, lo que convierte al schema de autor en uno de los factores de mayor respaldo empírico en auditorías GEO.

Pilar 4 — Estructura de contenido y extractabilidad

El cuarto pilar refleja el cambio más profundo que introduce la búsqueda generativa respecto al SEO tradicional: los motores generativos no recuperan páginas, recuperan pasajes. Un sistema RAG no evalúa si una URL es relevante para una consulta; evalúa si un fragmento de texto concreto, extraído de esa URL, contiene la información que el modelo necesita para construir su respuesta. Este cambio de unidad de análisis —de página a pasaje— tiene consecuencias radicales en cómo debe estructurarse el contenido para ser citable.

El formato BLUF —Bottom Line Up Front— es la primera y más impactante de estas consecuencias. Cada página y cada sección debe comenzar con una respuesta directa, en las primeras 30 a 50 palabras, que nombre explícitamente la entidad y declare la conclusión principal. La investigación de BrightEdge (febrero de 2026) encontró que el 44% de las citaciones de ChatGPT proceden del primer tercio del contenido, lo que sugiere que los sistemas de recuperación asignan mayor peso al contexto inicial de cada sección como señal de relevancia. Un contenido que llega a su punto central tras tres párrafos de contextualización es un contenido que el modelo recuperará con menor frecuencia, independientemente de su calidad en el conjunto.

El chunking semántico —la organización del contenido en pasajes autónomos de aproximadamente 100 a 400 palabras, cada uno centrado en una sola pregunta o idea— es el segundo factor estructural de mayor impacto. La investigación de NVIDIA citada por Search Engine Land confirmó que el chunking a nivel de página y pasaje proporciona la mayor precisión en la recuperación RAG, precisamente porque permite al sistema indexar y recuperar fragmentos independientes sin perder el contexto que les da sentido. Un contenido que no puede fragmentarse sin perder coherencia —porque sus ideas están entrelazadas en una argumentación continua que requiere leer el artículo completo— es un contenido que los sistemas RAG penalizan estructuralmente.

La auditoría de este pilar evalúa también la jerarquía de encabezados H1 a H3 formulados como preguntas que coincidan con la forma en que los usuarios redactan prompts para los LLMs, las secciones FAQ con preguntas en H3 y respuestas inmediatamente a continuación, las cajas TL;DR y los bloques de puntos clave con etiquetas explícitas, las listas y tablas comparativas que los motores generativos extraen con preferencia sobre la prosa continua, y la densidad de estadísticas, citas atribuidas y referencias a fuentes primarias. Este último aspecto merece especial atención: el paper de Princeton (Aggarwal et al., KDD 2024), que probó nueve métodos de optimización GEO en 10.000 consultas, encontró que añadir estadísticas mejoraba la visibilidad en los motores generativos aproximadamente un 41%, añadir citas atribuidas un 28%, y citar fuentes externas primarias hasta un 115% en páginas de menor posicionamiento inicial.

Pilar 5 — E-E-A-T y señales de citabilidad

El quinto pilar evalúa las señales que los modelos de lenguaje utilizan para inferir confianza y autoridad en ausencia de los backlinks que articulan la autoridad en el SEO tradicional. Los motores generativos no disponen de un grafo de enlaces como mecanismo de votación; en su lugar, infieren confianza a través de proxies que reflejan de forma estrecha los cuatro componentes del E-E-A-T de Google: Experiencia, Pericia, Autoridad y Confianza.

Los bylines de autor visibles con credenciales verificables son el primer proxy. La búsqueda generativa penaliza el contenido anónimo de forma más severa que el SEO clásico, porque un modelo que no puede atribuir el contenido a una fuente identificable no puede evaluar su autoridad —y por tanto tiende a priorizar contenido atribuido incluso cuando el contenido anónimo tiene mayor densidad informativa. Los marcadores de experiencia de primera mano —"medimos", "lo implementamos", "observamos en nuestros clientes"— son el segundo proxy: señalan al modelo que el contenido no es una reformulación de otras fuentes sino conocimiento primario generado por quien lo escribe.

La frescura del contenido tiene un impacto cuantificable y directo en los motores de búsqueda en tiempo real. Los datos de BrightEdge muestran que el contenido actualizado en los últimos 30 días recibe aproximadamente 3,2 veces más citaciones en plataformas como ChatGPT, cuyo índice de Bing se actualiza con frecuencia. La investigación de Kevin Indig (State of AI Search Optimization, 2026) encontró que el contenido con menos de tres meses de antigüedad tiene tres veces más probabilidades de ser citado que el contenido más antiguo. Una fecha de "Última actualización" visible no es solo un elemento de diseño: es una señal funcional que los modelos utilizan para decidir si el contenido es suficientemente reciente para ser fiable en consultas con componente temporal.

Pilar 6 — Huella de citación externa

El sexto pilar es estructuralmente diferente a los cinco anteriores porque su objeto de análisis no es el dominio propio sino el ecosistema de fuentes de terceros en las que la marca aparece mencionada, descrita y evaluada. Este pilar responde a un hallazgo que tiene implicaciones estratégicas profundas: aproximadamente el 85% de las menciones de marca en los motores de IA generativos proceden de páginas externas al dominio corporativo, según el análisis de SearchIntel de 2026, y los sitios web de las marcas representan solo alrededor del 9% de los dominios citados en respuestas donde la marca aparece.

La implicación es directa: una auditoría GEO/AEO que evalúa únicamente el dominio propio está analizando el 9% de la palanca real disponible e ignorando el 91% restante. Reddit merece una atención desproporcionada dentro de este pilar porque aparece en aproximadamente el 40% de las citaciones de LLMs en general y en el 46,7% de las principales citaciones de Perplexity, según estudios citados por Search Engine Land y Am I Cited. Esto no es un detalle operativo secundario: significa que una marca sin presencia orgánica en los subreddits relevantes de su categoría tiene una desventaja estructural en Perplexity que ninguna mejora del dominio propio puede compensar completamente.

Wikipedia representa el 47,9% de las principales citaciones de ChatGPT según el estudio de ingeniería inversa de Pallas Advisory de 2025, y un 26,3% del total de citaciones de esa plataforma. YouTube promedia aproximadamente el 20% de cuota de citación en plataformas de IA y es 200 veces más citado que cualquier otra plataforma de vídeo según BrightEdge. LinkedIn, en contraste, ofrece una dinámica contraintuitiva: BrightEdge encontró que solo los cursos de LinkedIn Learning y los artículos educativos de Pulse son citados con regularidad, mientras que los posts de liderazgo intelectual y las actualizaciones corporativas son ampliamente ignorados por los motores generativos. La auditoría de este pilar también contempla la presencia en plataformas de reseñas como G2, Trustpilot y Capterra, la inclusión en artículos comparativos y "mejores de" del sector, y la cobertura en publicaciones especializadas y medios de referencia de la industria.

Pilar 7 — Diagnóstico específico por plataforma

El séptimo pilar es el que más claramente diferencia una auditoría GEO/AEO madura de una inicial: evalúa el rendimiento del dominio de forma diferenciada para cada motor generativo, reconociendo que ChatGPT, Perplexity, Google AI Overviews, Google AI Mode, Microsoft Copilot, Claude y Gemini utilizan índices de recuperación, arquitecturas RAG y criterios de citación distintos que producen resultados que no son intercambiables entre plataformas.

El hallazgo de ZipTie.dev que lo fundamenta empíricamente —solo el 11% de los dominios son citados tanto por ChatGPT como por Perplexity para la misma consulta, y el 71% de las fuentes citadas aparecen en una única plataforma— no es una anomalía estadística. Es la consecuencia lógica de que cada motor opera sobre un índice diferente con criterios de selección diferentes. ChatGPT opera sobre el índice de Bing con distribución plana de fuentes, donde los diez dominios más citados representan solo el 18,5% del total de citaciones, con gran peso de Wikipedia y prácticamente sin contenido generado por usuarios. Perplexity emplea un sistema RAG de tres capas que puede descartar conjuntos completos de resultados y que, como se ha señalado, otorga un peso excepcional a Reddit. Claude utiliza Brave Search y favorece blogs y contenido editorial de calidad, siendo el motor con criterio más editorial y orientado a la precisión. Google AI Overviews mantiene la correlación más alta con las señales de SEO tradicional y favorece el contenido multimodal con un aumento del 156% en la tasa de citación respecto al contenido solo textual. Microsoft Copilot hereda el índice de Bing con uso confirmado de schema por parte de su equipo.

La auditoría por plataforma identifica para cada motor el estado actual de citación —con y sin browsing en el caso de ChatGPT—, los factores de bloqueo específicos, y las oportunidades de mayor impacto dado el índice y la arquitectura de recuperación que utiliza. Esta granularidad no es prescindible en 2025: es la diferencia entre una estrategia GEO que asigna recursos de forma eficiente y una que trata todos los motores generativos como si fueran equivalentes.

Los siete pilares como sistema, no como lista

Una conclusión que emerge con fuerza del análisis comparativo de los marcos de auditoría más rigurosos es que los siete pilares no son independientes entre sí: operan como un sistema en el que las deficiencias en un pilar pueden limitar el impacto de las mejoras en otro. Un dominio con contenido perfectamente estructurado en formato BLUF y chunking semántico, pero cuyos bots de IA están bloqueados en robots.txt, no produce citaciones. Un dominio técnicamente accesible con schema impecable pero sin entidad de marca desambiguada en Wikidata genera respuestas del modelo que pueden ser imprecisas o incoherentes, lo que reduce la confianza del modelo en ese dominio para futuras citaciones. Un dominio con excelente preparación técnica y de contenido pero sin huella en Reddit estará estructuralmente limitado en Perplexity, independientemente de cualquier otra mejora.

Esta interdependencia tiene una implicación directa en cómo debe presentarse el diagnóstico al cliente: no como una lista de siete áreas de mejora independientes, sino como un mapa de relaciones donde las prioridades se determinan tanto por el impacto individual de cada pilar como por los efectos de bloqueo que ciertas deficiencias ejercen sobre el conjunto. Una auditoría que no representa esta interdependencia no solo produce un diagnóstico incompleto —produce una hoja de ruta subóptima que puede generar meses de trabajo sin impacto real porque las correcciones se aplican en el orden equivocado


Cierre
Saber qué evalúa una auditoría GEO/AEO no es suficiente para ejecutarla con rigor: es el punto de partida para no ejecutarla mal. La diferencia entre un diagnóstico que produce una hoja de ruta accionable y un informe que acumula hallazgos sin jerarquía se decide aquí, en la comprensión de qué factores tienen evidencia causal, cuáles tienen evidencia correlacional y cómo los siete pilares se relacionan entre sí como sistema.
El campo GEO/AEO tiene hoy suficiente investigación empírica para abandonar el pensamiento mágico —schema, llms.txt o cualquier otra táctica aislada como solución universal— y operar desde una lógica de priorización rigurosa basada en evidencia. Las marcas y agencias que adopten ese enfoque antes que sus competidores no solo producirán mejores auditorías: acumularán ventajas de posicionamiento en motores generativos que, dado el patrón de consolidación documentado por BrightEdge, tienden a ser persistentes y difíciles de revertir.
La pregunta relevante no es si tu dominio tiene todos los pilares optimizados. La pregunta es cuál de ellos está actuando como cuello de botella que limita el impacto de todo lo demás —y si tu auditoría actual está diseñada para responder esa pregunta con precisión.
FAQ

Preguntas frecuentes

¿Cuáles son los factores más importantes para aparecer citado en motores de IA generativos?

Los factores con mayor impacto causal confirmado son, por orden de prioridad: el acceso de crawlers de IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) en robots.txt, el formato BLUF con respuesta directa en las primeras 50 palabras de cada sección, el chunking semántico en pasajes autónomos de 100 a 400 palabras, la densidad de estadísticas verificables y referencias a fuentes primarias —con mejoras de visibilidad de hasta un 115% documentadas en el paper de Princeton (KDD 2024)—, y la huella de citación externa en Reddit, Wikipedia y publicaciones especializadas. El schema markup y la entidad de marca en Wikidata son factores de habilitación necesarios pero insuficientes por sí solos: amplifican el impacto de los factores anteriores cuando estos ya están presentes, pero no los sustituyen.

¿Por qué Reddit es tan importante para la visibilidad en motores generativos de IA?

Reddit representa aproximadamente el 40% de las citaciones de LLMs en general y el 46,7% de las principales citaciones de Perplexity, según estudios de Search Engine Land y Am I Cited. La razón es estructural: los sistemas RAG de motores como Perplexity valoran el contenido generado por usuarios reales en contextos de discusión auténtica como señal de relevancia y confianza, precisamente porque ese contenido refleja cómo los usuarios describen sus problemas y evalúan las soluciones disponibles en lenguaje natural. Una marca sin presencia orgánica en los subreddits relevantes de su categoría tiene una desventaja estructural en Perplexity que ninguna mejora del dominio propio puede compensar completamente, porque el 85% de las menciones de marca en la búsqueda generativa proceden de fuentes externas al dominio corporativo.

¿Qué es el chunking semántico y por qué mejora la citabilidad en búsqueda generativa?

El chunking semántico es la organización del contenido en pasajes autónomos —habitualmente de 100 a 400 palabras— donde cada fragmento aborda una sola pregunta o idea y puede comprenderse de forma completa sin necesidad de leer el resto del artículo. Los motores generativos no recuperan páginas completas: recuperan pasajes específicos mediante sistemas RAG (Retrieval-Augmented Generation) que indexan y seleccionan fragmentos de texto en función de su relevancia para la consulta del usuario. Un contenido estructurado en pasajes autónomos es recuperable en múltiples consultas distintas, porque cada fragmento puede ser relevante para una pregunta diferente. Un contenido cuyas ideas están entrelazadas en una argumentación continua solo puede ser recuperado en su conjunto, lo que reduce drásticamente su probabilidad de citación.

¿Cómo afecta la entidad de marca en Wikidata a las citaciones de ChatGPT y Google AI?

La presencia y completitud de la entidad de marca en Wikidata —con atributos verificables y enlaces sameAs a LinkedIn, Crunchbase, Google Business Profile y Wikipedia— influye en la citabilidad generativa a través de dos mecanismos. El primero es la desambiguación: un modelo que puede verificar los atributos de una entidad desde múltiples fuentes independientes la describe con mayor precisión y la cita con mayor confianza. El segundo es la densidad de entidades conectadas: el estudio de Wellows de 2025 encontró que dominios con 15 o más entidades conectadas en el Knowledge Graph de Google reciben 4,8 veces más citaciones en AI Overviews que dominios con menor densidad de entidad. El 96% de las páginas citadas en ese estudio incluían credenciales de experto verificables, lo que convierte la construcción de entidad en uno de los factores GEO con mayor respaldo empírico disponible.

¿Qué diferencia hay entre ser mencionado y ser citado por un motor de IA generativo?

Ser mencionado significa que el modelo incluye el nombre de la marca en su respuesta, generalmente como referencia contextual o en una lista de opciones. Ser citado significa que el motor incluye un enlace a una URL específica del dominio como fuente verificable de la información que ha utilizado para construir su respuesta. La diferencia estratégica es sustancial: la mención posiciona la marca como conocida; la citación la posiciona como autoridad verificable y genera tráfico referido directo. Menos del 25% de las marcas mencionadas por motores de IA son también citadas como fuente, según datos de Semrush. La brecha se explica principalmente por deficiencias en la extractabilidad del contenido —ausencia de formato BLUF, falta de estadísticas verificables, carencia de referencias a fuentes primarias— más que por problemas de acceso técnico o de autoridad de dominio.