KI-Pionier
OpenAI hat drei neue Echtzeit-Audio-Modelle für Entwickler angekündigt. Bei den neuen Modellen handelt es sich um GPT-Realtime-2, GPT-Realtime-Translate sowie GPT-Realtime-Whisper. Sie verstehen sich mit natürlichen Sprachinteraktionen, Live-Übersetzungen oder Sprach-Transkriptionen mit geringer Verzögerung.
Wie der Konzern in einem
Blog Post ausführt, soll GPT-Realtime-2 in der Lage sein, mit komplexen Anfragen umzugehen und eine Konversation natürlich voranzubringen. Im verlinkten Blog-Beitrag wird ein Demo-Applet zur Verfügung gestellt, über das man GPT-Realtime-2 testen kann. Bei GPT Realtime Translate handelt es sich weiter um ein Modell für Live-Übersetzungen, das über 70 Sprachen in 13 Sprachen in Echtzeit zu übersetzen vermag. Ebenfalls um ein Live-Modell handelt es sich bei GPT-Realtime-Whisper, das Gesprochenes in Texte umwandelt.
Alle drei neuen Sprachmodelle werden über OpenAIs Realtime API zur Verfügung gestellt. Für GPT Realtime 2 bezahlt man 32 Dollar für eine Million Audio Input Tokens und 64 Dollar für dieselbe Menge Output Tokens. GPT Realtime Translate schlägt mit 3,4 Cents und GPT Realtime Whisper mit 1,7 Cent pro Minute zu Buche.
(rd)