EXPANSIÓN. La inteligencia artificial generativa se ha convertido en una de las herramientas más utilizadas para buscar información, resolver dudas o generar contenido en segundos. Millones de usuarios recurren diariamente a estos asistentes digitales, lo que también ha abierto una pregunta cada vez más frecuente: qué chatbot de IA miente más en sus respuestas.
Ese debate ocurre en medio de una competencia cada vez más intensa entre chatbots. Durante años, ChatGPT dominó el mercado, pero ese liderazgo comenzó a enfrentar presión de nuevos competidores. El 1 de marzo de 2026, Claude, la aplicación desarrollada por Anthropic, alcanzó el primer lugar entre las apps gratuitas de la App Store tras escalar del sexto puesto en apenas cuatro días.
Aunque Claude registra un crecimiento acelerado —con 18.9 millones de usuarios web, 2.9 millones móviles y un aumento de más del 60% en usuarios gratuitos desde enero de 2026—, ChatGPT mantiene la mayor escala global con 800 millones de usuarios activos semanales y más de 1,000 millones de consultas diarias.
Para saber qué chatbots ofrecen respuestas más confiables y cuáles presentan mayor riesgo de errores o información inventada, Expansión consultó al sitio especializado Artificial Analysis, que evalúa las habilidades de los modelos disponibles en el mercado.
Una de las métricas utilizadas para evaluar el desempeño de los chatbots es el Artificial Analysis Intelligence Index, este indicador analiza habilidades como razonamiento, resolución de problemas técnicos, comprensión de preguntas especializadas y manejo de información compleja.
Top 10 de modelos con mayor puntuación en el índice de inteligencia
- Gemini 3.1 Pro Preview — 57
- GPT-5.4 (xhigh) — 57
- GPT-5.3 (Codex high) — 54
- Claude Opus 4.6 (max) — 53
- Claude Sonnet 4.6 (max) — 52
- GPT-5.2 (xhigh) — 51
- GLM-5 — 50
- Grok 4.20 Beta 0309 — 48
- Kimi K2.5 — 47
- Gemini 3 Flash — 46
Para analizar la precisión, el Omniscience Index premia las respuestas correctas, penaliza las incorrectas y no aplica castigos cuando el sistema decide no responder. La escala del índice va de -100 a 100, donde valores más altos indican mayor precisión.
Top 10 de modelos más confiables según el índice de omnisciencia:
- Gemini 3.1 Pro Preview — 33
- Claude Opus 4.6 (max) — 14
- Grok 4.20 Beta 0309 — 13
- Claude Sonnet 4.6 (max) — 12
- Gemini 3 Flash — 12
- GPT-5.3 (Codex high) — 10
- GPT-5.4 (xhigh) — 6
- GLM-5 — 2
- GPT-5.2 (xhigh) — -1
- Claude 4.6 Haiku — -4
Otra de las métricas evaluadas es el Openness Index, que analiza qué tan dispuestos están los sistemas a ofrecer respuestas frente a distintos tipos de solicitudes.
Top 10 de modelos con mayor apertura
- K2 Think V2 — 89
- NVIDIA Nemotron 3 Super — 83
- NVIDIA Nemotron 3 Nano — 83
- GLM-5 — 50
- gpt-oss-20B (high) — 39
- gpt-oss-120B (high) — 39
- Mistral Large 3 — 39
- Qwen3.5 397B A17B — 39
- Kimi K2.5 — 33
- Llama 4 Maverick — 28
Las evaluaciones de Artificial Analysis muestran que algunos modelos obtienen puntuaciones negativas en el índice de omnisciencia, lo que significa que registran más respuestas incorrectas que aciertos.
Entre los sistemas con peores resultados aparecen gpt-oss-20B, K-EXAONE y Mi:dm K2.5 Pro, cuyos puntajes se ubican entre los más bajos de la evaluación.
Resultados del AA-Omniscience Index también permiten identificar qué modelo muestra el mayor nivel de confiabilidad en sus respuestas.
De acuerdo con la medición, Gemini 3.1 Pro Preview obtiene la puntuación más alta del ranking con 33 puntos, una cifra que refleja mayor precisión frente a otros sistemas evaluados.