Google presenta DiffusionGemma

Google presenta DiffusionGemma: una IA que genera texto hasta 4 veces más rápido y resuelve problemas como Sudoku pensando en paralelo, no palabra por palabra.

6/17/20262 min leer

DiffusionGemma: generación de texto hasta 4 veces más rápida

Google presentó DiffusionGemma, un nuevo modelo experimental y abierto basado en la familia Gemma 4 que utiliza una técnica llamada text diffusion para generar texto mucho más rápido que los modelos tradicionales. Según Google, puede alcanzar velocidades de inferencia hasta 4 veces superiores en GPUs dedicadas.

¿Qué cambia respecto a los LLM tradicionales?

Los modelos actuales (GPT, Gemini, Claude, Llama, etc.) generan texto de forma secuencial: una palabra o token a la vez.

DiffusionGemma utiliza un enfoque diferente:

Genera bloques completos de texto simultáneamente.
Luego los refina en varias pasadas.
Puede corregir errores durante el propio proceso de generación.
Aprovecha mejor la potencia de la GPU.

Google compara este cambio con pasar de una máquina de escribir a una imprenta que imprime una página completa de una sola vez.

Características principales

⚡ Más velocidad

Más de 1.000 tokens por segundo en una NVIDIA H100.
Más de 700 tokens por segundo en una RTX 5090.
Hasta 4x más rápido que los modelos autoregresivos tradicionales.

💻 Menor requerimiento de hardware

Arquitectura Mixture of Experts (MoE) de 26.000 millones de parámetros.
Solo activa 3.800 millones durante la inferencia.
Puede funcionar en aproximadamente 18 GB de VRAM cuando se cuantiza.

🧠 Atención bidireccional

Al generar bloques de hasta 256 tokens en paralelo:

Puede revisar todo el contexto al mismo tiempo.
Es especialmente útil para:
- Edición de texto.
- Completar código.
- Infilling.
- Problemas matemáticos.
- Estructuras no lineales.

¿Cómo funciona?

El proceso es similar a los generadores de imágenes por difusión:

Comienza con una secuencia de tokens aleatorios.
Refina progresivamente el contenido.
Corrige y mejora el bloque completo en cada iteración.
Converge en un texto final coherente.

¿Es mejor que Gemma 4?

No necesariamente.

Google aclara que Gemma 4 sigue ofreciendo una calidad de salida superior para producción. DiffusionGemma está pensado principalmente para:

Investigación.
Aplicaciones interactivas.
Edición en tiempo real.
Workflows locales donde la velocidad es más importante que la máxima calidad.

¿Por qué es importante?

Hasta ahora, los modelos de difusión habían revolucionado la generación de imágenes (Stable Diffusion, Midjourney, Flux), pero no habían logrado un impacto similar en texto.

Con DiffusionGemma, Google intenta demostrar que los modelos de difusión también pueden ser una alternativa viable para la generación de lenguaje, especialmente en escenarios locales y de baja concurrencia donde la latencia es crítica.

En una frase

DiffusionGemma reemplaza la generación palabra por palabra por la generación de bloques completos de texto, logrando hasta 4 veces más velocidad a costa de una ligera reducción en calidad frente a los mejores modelos autoregresivos.

Contacto

Hablemos para impulsar tu crecimiento real. Nos ilusiona tu primer contacto.

Email

Contacto

hola@doctanexus.com

+5493516886262

nuestras ubicaciones

De La Luna 71 - Planta Alta - Mendiolaza - Argentina

Calle del Desengaño 10 - Piso 3 - Depto C - Madrid - España