Comparativa de Modelos de IA

Los grandes modelos generativos frente a frente: benchmarks, precios y capacidades reales. Actualizado cada vez que hay un nuevo lanzamiento.

¿Qué mide cada benchmark?

MMLU

Massive Multitask Language Understanding

Mide el conocimiento general del modelo en 57 materias: matemáticas, historia, derecho, medicina, entre otras. Mayor puntaje = mejor conocimiento general.

HumanEval

HumanEval (OpenAI)

Evalúa la capacidad del modelo para generar código Python correcto y funcional. Mayor puntaje = mejor programador.

MATH

MATH Benchmark

Resolución de problemas de matemáticas de competencia escolar y universitaria. Mayor puntaje = mejor en razonamiento matemático.

GPQA

Graduate-Level Google-Proof Q&A

Preguntas de nivel posgrado en química, biología y física diseñadas para ser difíciles incluso para humanos expertos.

Arena ELO

LMSYS Chatbot Arena ELO

Rating de Elo calculado a partir de millones de comparaciones humanas entre modelos. Mide preferencia real de usuarios.

Última actualización: 2026-03-01

Comparativa visual

Benchmarks

Modelo	MMLU	HumanEval	MATH	GPQA	Arena ELO	Contexto	Precio/1M
GPT-4.1 OpenAI	90.2	92.4	79.6	72.1	1312	1M	$2/$8
Gemini 2.5 Pro Google	91.5 ★	87	91.6 ★	84 ★	1350 ★	1M	$1.25/$10
Claude 3.7 Sonnet Anthropic	88.4	93.7 ★	78.2	78.1	1280	200K	$3/$15
Llama 3.3 70B Meta	86	79	77	50.5	1169	131K	Gratis
Grok 3 xAI	87.5	80.4	83.9	75	1230	131K	$3/$15

★ Mejor en esa categoría · Precios: input/output por 1M tokens · Fuente: benchmarks públicos

GPT-4.1OpenAI

CódigoRazonamiento largoAgentes

✓ Contexto de 1M tokens

✓ Excelente en código

− Costo elevado en output

Gemini 2.5 ProGoogle

STEM y matemáticasAnálisis multimodalDeep Research

✓ Mejor en matemáticas y ciencias

✓ Integración con Google Search

− Velocidad menor en prompts largos

Claude 3.7 SonnetAnthropic

Escritura y creatividadCódigo complejoAnálisis ético

✓ Mejor escritura creativa

✓ Muy preciso en instrucciones complejas

− Contexto menor (200K vs 1M)

Llama 3.3 70BMeta

Open sourceSelf-hostingBajo costo masivo

✓ Completamente gratuito y open source

✓ Puede ejecutarse localmente

− Capacidades menores vs. modelos propietarios

Grok 3xAI

Información en tiempo realRazonamiento científico

✓ Acceso a datos de X en tiempo real

✓ Fuerte en razonamiento STEM

− API limitada geo