Gemma 4 soll künftig schneller reagieren, wenn Entwickler die offenen KI-Modelle von
Google in Anwendungen einsetzen. Wie Google
mitteilt, veröffentlicht das Unternehmen dafür Multi-Token-Prediction-Drafter, kurz MTP-Drafter.
Der Ansatz soll ein typisches Problem grosser Sprachmodelle lösen. Diese erzeugen Antworten normalerweise Schritt für Schritt und berechnen jeden nächsten Textteil einzeln. Die neuen Drafter bereiten dagegen mehrere mögliche nächste Textteile vor. Das eigentliche Gemma-4-Modell prüft diese Vorschläge anschliessend und übernimmt nur jene, die passen.
Laut Google lässt sich die Antwortausgabe dadurch um bis zu den Faktor drei beschleunigen. Die Qualität und die Argumentationslogik sollen dabei erhalten bleiben, weil weiterhin das Hauptmodell die abschliessende Prüfung übernimmt.
Profitieren sollen vor allem Anwendungen, bei denen kurze Reaktionszeiten wichtig sind. Der Konzern nennt unter anderem Chatbots, Programmierassistenten, KI-Agenten sowie lokale Anwendungen auf PCs und Mobilgeräten.
Die neuen MTP-Drafter sind ab sofort für Gemma 4 verfügbar. Sie stehen wie die Modellfamilie selbst unter der Apache-2.0-Lizenz und können unter anderem über Hugging Face und Kaggle heruntergeladen werden. Unterstützt werden zudem Transformers, MLX, vLLM, SGLang und Ollama.
(dow)