Comparativa de Modelos de IA
Los grandes modelos generativos frente a frente: benchmarks, precios y capacidades reales. Actualizado cada vez que hay un nuevo lanzamiento.
¿Qué mide cada benchmark?
Massive Multitask Language Understanding
Mide el conocimiento general del modelo en 57 materias: matemáticas, historia, derecho, medicina, entre otras. Mayor puntaje = mejor conocimiento general.
HumanEval (OpenAI)
Evalúa la capacidad del modelo para generar código Python correcto y funcional. Mayor puntaje = mejor programador.
MATH Benchmark
Resolución de problemas de matemáticas de competencia escolar y universitaria. Mayor puntaje = mejor en razonamiento matemático.
Graduate-Level Google-Proof Q&A
Preguntas de nivel posgrado en química, biología y física diseñadas para ser difíciles incluso para humanos expertos.
LMSYS Chatbot Arena ELO
Rating de Elo calculado a partir de millones de comparaciones humanas entre modelos. Mide preferencia real de usuarios.
Última actualización: 2026-03-01
Comparativa visual
Benchmarks
| Modelo | MMLU | HumanEval | MATH | GPQA | Arena ELO | Contexto | Precio/1M |
|---|---|---|---|---|---|---|---|
GPT-4.1 OpenAI | 90.2 | 92.4 | 79.6 | 72.1 | 1312 | 1M | $2/$8 |
Gemini 2.5 Pro Google | 91.5 ★ | 87 | 91.6 ★ | 84 ★ | 1350 ★ | 1M | $1.25/$10 |
Claude 3.7 Sonnet Anthropic | 88.4 | 93.7 ★ | 78.2 | 78.1 | 1280 | 200K | $3/$15 |
Llama 3.3 70B Meta | 86 | 79 | 77 | 50.5 | 1169 | 131K | Gratis |
Grok 3 xAI | 87.5 | 80.4 | 83.9 | 75 | 1230 | 131K | $3/$15 |