El 3 de junio, Google DeepMind lanzó el modelo de pesos abiertos Gemma 4 12B, con aproximadamente 12 mil millones de parámetros, bajo la licencia Apache 2.0. Solo requiere un mínimo de 16 GB de VRAM o memoria unificada para ejecutarse localmente en una computadora portátil común. Su mayor atractivo es la arquitectura “unificada” sin codificador: las entradas visuales y de audio se inyectan directamente en el tronco del modelo de lenguaje, sin necesidad de un codificador multimodal independiente, convirtiéndose en el primer modelo mediano de Google compatible con entrada de audio nativa. Google afirma que su rendimiento de referencia se acerca al del modelo MoE más grande de 26B, mientras que su uso de memoria es menos de la mitad.
Al momento del anuncio, la serie Gemma 4 ya había superado los 150 millones de descargas. Los pesos del modelo ya están disponibles en Hugging Face y Kaggle, con soporte nativo para frameworks de inferencia populares como vLLM, SGLang, MLX y llama.cpp, y también se pueden ejecutar con un solo clic a través de LM Studio y Ollama. Google también ha lanzado el repositorio de habilidades Gemma Skills como código abierto, que proporciona un conjunto de herramientas estandarizado para agentes de IA basados en Gemma. Además, la aplicación macOS de Google AI Edge Gallery se lanzó el mismo día, permitiendo a los usuarios experimentar flujos de trabajo de agentes multimodales localmente.