Gemma 4 de Google: Qué es y qué puede hacer por ti

Google ha lanzado Gemma 4, su familia de modelos de inteligencia artificial abierta más avanzada hasta la fecha. Construida sobre la misma investigación que sustenta a Gemini 3.1 Pro, Gemma 4 representa un salto significativo: lograr capacidades de frontera con modelos más pequeños y eficientes.

El anuncio oficial llegó en abril de 2026, y los resultados no pasaron desapercibidos: el modelo Gemma 4 de 31.000 millones de parámetros (31B) se posicionó en el puesto #1 del ranking de LMSYS Chat Arena, mientras que el modelo de 26B alcanzó el puesto #6. En ambos casos, Gemma 4 superó a modelos de hasta 20 veces su tamaño.

Lo que distingue a Gemma 4 no es solo su rendimiento en benchmarks, sino su filosofía: modelos que puedes ejecutar en tu propio hardware, desde teléfonos Android hasta workstations con GPUs de consumo, sin depender de APIs costosas ni infraestructura en la nube.

Los 4 tamaños de Gemma 4: cuál te conviene?

Gemma 4 llega en cuatro variantes diseñadas para escenarios de despliegue muy distintos.

Modelos Dense (estándar)

Especificación E2B E4B 31B
Parámetros efectivos 2.3B (5.1B con embeddings) 4.5B (8B con embeddings) 30.7B
Capas 35 42 60
Ventana deslizante 512 tokens 512 tokens 1024 tokens
Contexto máximo 128K tokens 128K tokens 256K tokens
Modalidades Texto, Imagen, Audio Texto, Imagen, Audio Texto, Imagen

Modelo MoE (Mixture of Experts)

Especificación 26B A4B MoE
Parámetros totales 25.2B
Parámetros activos 3.8B
Capas 30
Expertos activos / totales 8 / 128 + 1 compartido
Contexto máximo 256K tokens
Modalidades Texto, Imagen

Benchmarks oficiales de Gemma 4

Benchmarks de texto y razonamiento

Benchmark Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B
MMLU Pro 85.2% 82.6% 69.4% 60.0%
AIME 2026 (no tools) 89.2% 88.3% 42.5% 37.5%
LiveCodeBench v6 80.0% 77.1% 52.0% 44.0%
Codeforces ELO 2150 1718 940 633

Benchmarks de visión

Benchmark Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B
MMMU Pro 76.9% 73.8% 52.6% 44.2%
MATH-Vision 85.6% 82.4% 59.5% 52.4%

Long context (MRCR v2)

Modelo MRCR v2 avg
Gemma 4 31B 66.4%
Gemma 4 26B A4B 44.1%
Gemma 4 E4B 25.4%
Gemma 4 E2B 19.1%

Qué puede hacer Gemma 4

Razonamiento (Thinking): Todos los modelos incluyen un modo de razonamiento incorporado que permite al modelo pensar paso a paso antes de responder.

Procesamiento de imagen: Detección de objetos, parsing de documentos y PDFs, comprensión de UI/pantallas, OCR multilingüe, reconocimiento de escritura a mano.

Procesamiento de audio (solo E2B y E4B): Reconocimiento automático de voz (ASR) y traducción de voz a texto en múltiples idiomas.

Código: Generación, completado y corrección de código. El benchmark LiveCodeBench v6 muestra resultados de 80% para el 31B.

Idiomas: 35+ idiomas out-of-the-box, pre-entrenado en 140+ idiomas.

Precio: cuánto cuesta Gemma 4?

Gemma 4 es un modelo abierto bajo licencia Apache 2.0. Puedes descargar los pesos del modelo gratis desde Hugging Face y Kaggle, ejecutarlos en tu propio hardware sin pagar nada a Google, y fine-tunarlos para tus propios casos de uso.

Comparativa de precios

Servicio Precio mensual
ChatGPT Plus $20 USD/mes
Claude Pro $20 USD/mes
Google AI Pro (Gemini) $20 USD/mes
Perplexity Pro $20 USD/mes
Gemma 4 (open weights) Gratis (descarga directa)

Limitaciones conocidas de Gemma 4

  1. No tiene acceso a internet en tiempo real — los modelos proprietary como ChatGPT o Claude pueden conectarse a la web; Gemma 4 no lo hace nativamente.
  2. Los modelos pequeños (E2B y E4B) tienen capacidades limitadas en tareas de razonamiento complejo.
  3. Fine-tuning requiere experiencia técnica — no es un proceso plug-and-play.

Cómo empezar con Gemma 4 (explicado paso a paso)

¿Nunca programaste en Python? No hay problema. Esta guía te lleva de la mano paso a paso.

Paso 0: Qué necesitás antes de empezar

1. Instalar Python

Descargalo de python.org/downloads/ (Python 3.10 o superior). Durante la instalación, marcá “Add Python to PATH”.

2. Instalar las librerías

Abrí una terminal y copiá esto:

pip install torch transformers accelerate

3. Tener una GPU (opcional pero recomendado)

Sin GPU dedicada (tarjeta gráfica NVIDIA), el código funcionará pero será muy lento.

El código (versión simple)

Este código hace 3 cosas: carga el modelo, hace una pregunta, y muestra la respuesta.

# 1. Cargar el modelo
from transformers import AutoProcessor, AutoModelForCausalLM

# 2. Elegir cuál modelo usar
modelo = 'google/gemma-4-31B-it'

# 3. Descargar y preparar
processor = AutoModelForCausalLM.from_pretrained(modelo)
modelo = AutoModelForCausalLM.from_pretrained(modelo)

# 4. Hacer una pregunta
pregunta = '¿Qué es un modelo MoE?'

# 5. Obtener respuesta
resultado = modelo.generate(**processor(pregunta, return_tensors='pt'))
respuesta = processor.decode(resultado[0])
print(respuesta)

¿Qué hace cada parte?

Comando Qué hace Analogía
from transformers import... Importa las herramientas necesarias Abrir una caja de herramientas
AutoModelForCausalLM.from_pretrained() Descarga y carga el modelo de IA Descargar el cerebro
modelo.generate() Genera una respuesta a tu pregunta La calculadora procesa
processor.decode() Convierte la respuesta a texto legible Leer el resultado

Si no tenés GPU

El código funcionará igual, pero muy lento. Podés usar un modelo más pequeño:

# Cambiar esta línea:
modelo = 'google/gemma-4-31B-it'

# Por esta (más pequeña, más rápida):
modelo = 'google/gemma-4-2b-it'

Requisitos para ejecutar

  • Python 3.10+
  • PyTorch: pip install torch
  • Transformers: pip install transformers
  • GPU: Recomendado (mínimo 24GB VRAM para el modelo de 31B)

Es para ti?

Gemma 4 vale la pena si:

  • Tenés una GPU dedicada y querés independencia de APIs externas
  • Estás construyendo aplicaciones que deben correr on-premise por regulaciones de datos
  • Desarrollás para Android o dispositivos móviles y necesitás un modelo eficiente
  • Estás investigando en fine-tuning de LLMs para dominios específicos

Gemma 4 puede no ser lo mejor si:

  • No tenés GPU adecuada para los modelos grandes (31B, 26B)
  • Necesitás acceso a internet en tiempo real integrado
  • Querés la experiencia más plug-and-play sin configuración técnica

Fuentes

  1. Google Blog — “Gemma 4: Our most capable open models to date” (abril 2026)
  2. Hugging Face Model Card — google/gemma-4-31B-it
  3. Google AI — Documentación de Gemma

Artículo para Paradoja.io. Abril 2026.