Gemma 4 de Google: Qué es y qué puede hacer por ti
Google ha lanzado Gemma 4, su familia de modelos de inteligencia artificial abierta más avanzada hasta la fecha. Construida sobre la misma investigación que sustenta a Gemini 3.1 Pro, Gemma 4 representa un salto significativo: lograr capacidades de frontera con modelos más pequeños y eficientes.
El anuncio oficial llegó en abril de 2026, y los resultados no pasaron desapercibidos: el modelo Gemma 4 de 31.000 millones de parámetros (31B) se posicionó en el puesto #1 del ranking de LMSYS Chat Arena, mientras que el modelo de 26B alcanzó el puesto #6. En ambos casos, Gemma 4 superó a modelos de hasta 20 veces su tamaño.
Lo que distingue a Gemma 4 no es solo su rendimiento en benchmarks, sino su filosofía: modelos que puedes ejecutar en tu propio hardware, desde teléfonos Android hasta workstations con GPUs de consumo, sin depender de APIs costosas ni infraestructura en la nube.
Los 4 tamaños de Gemma 4: cuál te conviene?
Gemma 4 llega en cuatro variantes diseñadas para escenarios de despliegue muy distintos.
Modelos Dense (estándar)
| Especificación | E2B | E4B | 31B |
|---|---|---|---|
| Parámetros efectivos | 2.3B (5.1B con embeddings) | 4.5B (8B con embeddings) | 30.7B |
| Capas | 35 | 42 | 60 |
| Ventana deslizante | 512 tokens | 512 tokens | 1024 tokens |
| Contexto máximo | 128K tokens | 128K tokens | 256K tokens |
| Modalidades | Texto, Imagen, Audio | Texto, Imagen, Audio | Texto, Imagen |
Modelo MoE (Mixture of Experts)
| Especificación | 26B A4B MoE |
|---|---|
| Parámetros totales | 25.2B |
| Parámetros activos | 3.8B |
| Capas | 30 |
| Expertos activos / totales | 8 / 128 + 1 compartido |
| Contexto máximo | 256K tokens |
| Modalidades | Texto, Imagen |
Benchmarks oficiales de Gemma 4
Benchmarks de texto y razonamiento
| Benchmark | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% |
| AIME 2026 (no tools) | 89.2% | 88.3% | 42.5% | 37.5% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 |
Benchmarks de visión
| Benchmark | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% |
Long context (MRCR v2)
| Modelo | MRCR v2 avg |
|---|---|
| Gemma 4 31B | 66.4% |
| Gemma 4 26B A4B | 44.1% |
| Gemma 4 E4B | 25.4% |
| Gemma 4 E2B | 19.1% |
Qué puede hacer Gemma 4
Razonamiento (Thinking): Todos los modelos incluyen un modo de razonamiento incorporado que permite al modelo pensar paso a paso antes de responder.
Procesamiento de imagen: Detección de objetos, parsing de documentos y PDFs, comprensión de UI/pantallas, OCR multilingüe, reconocimiento de escritura a mano.
Procesamiento de audio (solo E2B y E4B): Reconocimiento automático de voz (ASR) y traducción de voz a texto en múltiples idiomas.
Código: Generación, completado y corrección de código. El benchmark LiveCodeBench v6 muestra resultados de 80% para el 31B.
Idiomas: 35+ idiomas out-of-the-box, pre-entrenado en 140+ idiomas.
Precio: cuánto cuesta Gemma 4?
Gemma 4 es un modelo abierto bajo licencia Apache 2.0. Puedes descargar los pesos del modelo gratis desde Hugging Face y Kaggle, ejecutarlos en tu propio hardware sin pagar nada a Google, y fine-tunarlos para tus propios casos de uso.
Comparativa de precios
| Servicio | Precio mensual |
|---|---|
| ChatGPT Plus | $20 USD/mes |
| Claude Pro | $20 USD/mes |
| Google AI Pro (Gemini) | $20 USD/mes |
| Perplexity Pro | $20 USD/mes |
| Gemma 4 (open weights) | Gratis (descarga directa) |
Limitaciones conocidas de Gemma 4
- No tiene acceso a internet en tiempo real — los modelos proprietary como ChatGPT o Claude pueden conectarse a la web; Gemma 4 no lo hace nativamente.
- Los modelos pequeños (E2B y E4B) tienen capacidades limitadas en tareas de razonamiento complejo.
- Fine-tuning requiere experiencia técnica — no es un proceso plug-and-play.
Cómo empezar con Gemma 4 (explicado paso a paso)
¿Nunca programaste en Python? No hay problema. Esta guía te lleva de la mano paso a paso.
Paso 0: Qué necesitás antes de empezar
1. Instalar Python
Descargalo de python.org/downloads/ (Python 3.10 o superior). Durante la instalación, marcá “Add Python to PATH”.
2. Instalar las librerías
Abrí una terminal y copiá esto:
pip install torch transformers accelerate3. Tener una GPU (opcional pero recomendado)
Sin GPU dedicada (tarjeta gráfica NVIDIA), el código funcionará pero será muy lento.
El código (versión simple)
Este código hace 3 cosas: carga el modelo, hace una pregunta, y muestra la respuesta.
# 1. Cargar el modelo
from transformers import AutoProcessor, AutoModelForCausalLM
# 2. Elegir cuál modelo usar
modelo = 'google/gemma-4-31B-it'
# 3. Descargar y preparar
processor = AutoModelForCausalLM.from_pretrained(modelo)
modelo = AutoModelForCausalLM.from_pretrained(modelo)
# 4. Hacer una pregunta
pregunta = '¿Qué es un modelo MoE?'
# 5. Obtener respuesta
resultado = modelo.generate(**processor(pregunta, return_tensors='pt'))
respuesta = processor.decode(resultado[0])
print(respuesta)¿Qué hace cada parte?
| Comando | Qué hace | Analogía |
|---|---|---|
from transformers import... |
Importa las herramientas necesarias | Abrir una caja de herramientas |
AutoModelForCausalLM.from_pretrained() |
Descarga y carga el modelo de IA | Descargar el cerebro |
modelo.generate() |
Genera una respuesta a tu pregunta | La calculadora procesa |
processor.decode() |
Convierte la respuesta a texto legible | Leer el resultado |
Si no tenés GPU
El código funcionará igual, pero muy lento. Podés usar un modelo más pequeño:
# Cambiar esta línea:
modelo = 'google/gemma-4-31B-it'
# Por esta (más pequeña, más rápida):
modelo = 'google/gemma-4-2b-it'Requisitos para ejecutar
- Python 3.10+
- PyTorch:
pip install torch - Transformers:
pip install transformers - GPU: Recomendado (mínimo 24GB VRAM para el modelo de 31B)
Es para ti?
Gemma 4 vale la pena si:
- Tenés una GPU dedicada y querés independencia de APIs externas
- Estás construyendo aplicaciones que deben correr on-premise por regulaciones de datos
- Desarrollás para Android o dispositivos móviles y necesitás un modelo eficiente
- Estás investigando en fine-tuning de LLMs para dominios específicos
Gemma 4 puede no ser lo mejor si:
- No tenés GPU adecuada para los modelos grandes (31B, 26B)
- Necesitás acceso a internet en tiempo real integrado
- Querés la experiencia más plug-and-play sin configuración técnica
Fuentes
- Google Blog — “Gemma 4: Our most capable open models to date” (abril 2026)
- Hugging Face Model Card — google/gemma-4-31B-it
- Google AI — Documentación de Gemma
Artículo para Paradoja.io. Abril 2026.