Comparativa de Modelos de IA

Los grandes modelos generativos frente a frente: benchmarks, precios y capacidades reales. Actualizado cada vez que hay un nuevo lanzamiento.

¿Qué mide cada benchmark?

MMLU

Massive Multitask Language Understanding

Mide el conocimiento general del modelo en 57 materias: matemáticas, historia, derecho, medicina, entre otras. Mayor puntaje = mejor conocimiento general.

HumanEval

HumanEval (OpenAI)

Evalúa la capacidad del modelo para generar código Python correcto y funcional. Mayor puntaje = mejor programador.

MATH

MATH Benchmark

Resolución de problemas de matemáticas de competencia escolar y universitaria. Mayor puntaje = mejor en razonamiento matemático.

GPQA

Graduate-Level Google-Proof Q&A

Preguntas de nivel posgrado en química, biología y física diseñadas para ser difíciles incluso para humanos expertos.

Arena ELO

LMSYS Chatbot Arena ELO

Rating de Elo calculado a partir de millones de comparaciones humanas entre modelos. Mide preferencia real de usuarios.

Última actualización: 2026-03-01

Comparativa visual

Benchmarks

ModeloMMLUHumanEvalMATHGPQAArena ELOContextoPrecio/1M
GPT-4.1
OpenAI
90.292.479.672.113121M$2/$8
Gemini 2.5 Pro
Google
91.58791.68413501M$1.25/$10
Claude 3.7 Sonnet
Anthropic
88.493.778.278.11280200K$3/$15
Llama 3.3 70B
Meta
86797750.51169131KGratis
Grok 3
xAI
87.580.483.9751230131K$3/$15
★ Mejor en esa categoría · Precios: input/output por 1M tokens · Fuente: benchmarks públicos
GPT-4.1OpenAI
CódigoRazonamiento largoAgentes
Contexto de 1M tokens
Excelente en código
Costo elevado en output
Gemini 2.5 ProGoogle
STEM y matemáticasAnálisis multimodalDeep Research
Mejor en matemáticas y ciencias
Integración con Google Search
Velocidad menor en prompts largos
Claude 3.7 SonnetAnthropic
Escritura y creatividadCódigo complejoAnálisis ético
Mejor escritura creativa
Muy preciso en instrucciones complejas
Contexto menor (200K vs 1M)
Llama 3.3 70BMeta
Open sourceSelf-hostingBajo costo masivo
Completamente gratuito y open source
Puede ejecutarse localmente
Capacidades menores vs. modelos propietarios
Grok 3xAI
Información en tiempo realRazonamiento científico
Acceso a datos de X en tiempo real
Fuerte en razonamiento STEM
API limitada geo