AI Overviews, el asistente de búsqueda impulsado por Gemini, responde correctamente el 91% del tiempo. Lo que nadie dice es que el otro 9% se multiplica en decenas de millones de errores diarios que los usuarios consumen sin cuestionarlos.
Imagina hacerle una pregunta a alguien que sabe casi todo, pero que una de cada diez veces simplemente inventa la respuesta con total confianza. Así es, en esencia, AI Overviews: la inteligencia artificial que ahora encabeza los resultados de búsqueda de Google cada vez que escribes algo en su buscador.
Desde su lanzamiento en 2024, esta herramienta, impulsada por el modelo Gemini de Google, ha sido tanto admirada como criticada. Y un reciente análisis publicado por The New York Times acaba de ponerle números a algo que muchos ya sospechaban: la IA de Google se equivoca con una frecuencia que, a escala global, resulta difícil de ignorar.
Resultados de búsqueda de Google: una nueva era con viejos problemas
Durante décadas, buscar en Google significaba recibir una lista de enlaces azules que tú mismo debías evaluar. Hoy, la dinámica cambió radicalmente. AI Overviews aparece en la parte superior de la página de resultados y te ofrece una respuesta directa, sintetizada, lista para consumir. No tienes que hacer clic en nada. No tienes que leer varias fuentes. La IA lo hizo por ti.
El problema es que ese modelo de conveniencia esconde un riesgo sistémico. Cuando los enlaces azules eran el centro de la experiencia, el usuario tenía la última palabra: leía, contrastaba, decidía. Ahora, la arquitectura de los resultados anima a aceptar el resumen de la IA sin pasar por ese proceso de verificación. Y si ese resumen está equivocado, el error llega sin etiqueta de advertencia.
El análisis del Times, realizado con apoyo de la startup de modelos de IA Oumi, utilizó la evaluación SimpleQA: una prueba desarrollada por OpenAI en 2024 que consiste en más de 4,000 preguntas con respuestas objetivas y verificables. La metodología tiene sus limitaciones (la propia IA generativa fue parte del proceso de evaluación), pero los resultados son elocuentes.
Cuando Oumi comenzó sus pruebas el año pasado, Gemini 2.5 era el modelo más avanzado de Google. En ese momento, la precisión de AI Overviews alcanzaba el 85%. Con la llegada de Gemini 3, la cifra subió al 91%. Una mejora real, sin duda. Pero que la IA acierte 9 de cada 10 veces también significa que, de cada 10 búsquedas, una produce una respuesta incorrecta. Y cuando hablamos de Google, los volúmenes hacen que ese 9% sea todo menos irrelevante.
Errores de la inteligencia artificial: cuando la confianza supera a la precisión
Los casos de error documentados en el informe del Times no son fallos menores ni ambigüedades interpretables. Son confusiones concretas, verificables, con fuentes citadas que no respaldan lo que la IA afirma.
Al preguntarle a AI Overviews sobre la fecha en que la antigua casa de Bob Marley se convirtió en museo, el sistema citó tres páginas como fuentes. Dos de ellas no mencionaban ninguna fecha. La tercera (Wikipedia) listaba dos años contradictorios. La IA eligió con seguridad el incorrecto.
Ante la pregunta sobre cuándo Yo-Yo Ma fue incluido en el Salón de la Fama de la Música Clásica, AI Overviews citó el sitio oficial de la organización que confirmaba la fecha de ingreso. Luego afirmó que dicho salón de la fama no existe.
Lo que revelan estos ejemplos no es solo un problema técnico. Es un problema de arquitectura de confianza. La IA no presenta sus respuestas con duda ni con matices: las presenta con la misma firmeza que tendría si estuviera en lo correcto. Ese tono autoritario, sin advertencias visibles, sin señales de incertidumbre, es parte del diseño del producto. Y es precisamente lo que lo hace peligroso cuando falla.
Una parte del problema tiene raíces técnicas. AI Overviews no opera con un único modelo de IA. Según explicó Google al medio especializado Ars Technica, el sistema selecciona el modelo más adecuado según el tipo de consulta. Para mantener la velocidad de carga (algo crítico para la experiencia de búsqueda), con frecuencia recurre a versiones más ligeras y rápidas de Gemini en lugar del modelo más potente. Más velocidad puede significar, en ciertos casos, menos precisión.
A esto se añade que evaluar modelos de IA generativa es, en sí mismo, una tarea imprecisa. Los sistemas no deterministas pueden responder correctamente una consulta y fallar en la misma pregunta formulada de manera ligeramente distinta momentos después. Incluso las herramientas de evaluación (como las que usó Oumi) dependen de otros modelos de IA, que también cometen errores. El problema se mide con las mismas imprecisiones que busca cuantificar.
La respuesta de Google ante los hallazgos del Times fue la de quien sabe que los números, en contexto, no son tan malos. La empresa señaló que muchos de sus modelos base, sin acceso a la web, obtienen tasas de veracidad de entre 60 y 80% en pruebas de referencia. Que AI Overviews llegue al 91% gracias al acceso a información en línea es, desde esa perspectiva, un logro. Lo que Google omitió responder con claridad es cómo afecta ese 9% restante a los usuarios que nunca llegan a verificar las respuestas que reciben.
Al final de cada resumen generado por AI Overviews aparece, en letra pequeña, una advertencia que Google incluye de manera sistemática: “La IA puede cometer errores, así que revisa bien las respuestas”. Es un reconocimiento honesto. También es una invitación a volver a los enlaces azules que la propia herramienta reemplazó. La paradoja es perfecta: el sistema que promete ahorrarte el trabajo de verificar te pide, al final, que lo verifiques.
La cuestión de fondo no es si el 91% es suficientemente bueno. Es si hemos construido una interfaz de búsqueda que invita a los usuarios a confiar en un sistema cuya tasa de error, por pequeña que parezca en porcentaje, se convierte en un volumen masivo de desinformación a escala planetaria. Cada minuto, cada hora, cada día.
La IA de Google mejora. Eso es innegable. Pero mientras el diseño del producto siga priorizando la confianza sobre la transparencia, el 9% que falla no es solo un dato técnico. Es una decisión editorial.









