Yapay zeka devi OpenAI, Perşembe günü yaptığı duyuruyla sesli yapay zeka teknolojisinde çıtayı bir üst seviyeye taşıdı. Geliştiricilerin kullanıcılarla çok daha doğal, akıcı ve işlevsel diyaloglar kurabilen uygulamalar geliştirmesine olanak tanıyan yeni ses paketleri, "Realtime API" bünyesinde kullanıma açıldı.
GPT-5 Sınıfı Muhakeme Yeteneği Geldi
Lansmanın en dikkat çeken parçası olan GPT-Realtime-2, selefi 1.5 sürümünden farklı olarak çok daha karmaşık kullanıcı taleplerini analiz edebiliyor. OpenAI, bu modelin sadece ses taklidi yapmadığını, GPT-5 sınıfı muhakeme (reasoning) yeteneği sayesinde kullanıcının ne demek istediğini derinlemesine anlayarak mantıklı çözümler ürettiğini vurguluyor.
Dil Bariyerleri Gerçek Zamanlı Olarak Aşılıyor
Yeni duyurulan GPT-Realtime-Translate özelliği, uluslararası iletişimde yeni bir dönem başlatmayı hedefliyor. Konuşma hızına "ayak uydurabilen" bu sistem:
70’ten fazla giriş dilini anlayabiliyor.
13 farklı dilde anlık sesli çıktı verebiliyor.
Ayrıca, GPT-Realtime-Whisper ile gelen canlı transkripsiyon özelliği, konuşmaları saniyeler içinde hatasız bir şekilde metne dökerek dijital kayıtlara dönüştürüyor.
"Basit Yanıttan Aksiyona Geçiş"
OpenAI yetkilileri yaptıkları açıklamada, yeni modellerin vizyonunu şu sözlerle özetledi:
Bu modellerle ses teknolojisini basit bir 'soru-cevap' mekanizmasından çıkarıp; dinleyen, muhakeme eden, çeviren ve konuşma akarken aksiyon alabilen gerçek birer sesli arayüze dönüştürüyoruz.
Güvenlik ve Ücretlendirme
Yeni özelliklerin müşteri hizmetlerinden eğitime, medyadan organizasyon yönetimine kadar geniş bir yelpazede kullanılması bekleniyor. OpenAI, olası kötüye kullanım (spam, dolandırıcılık) risklerine karşı sisteme gelişmiş "koruma mekanizmaları" yerleştirdiğini; zararlı içerik tespit edildiğinde görüşmenin sistem tarafından otomatik olarak sonlandırılacağını bildirdi.
Ücretlendirme Modeli: GPT-Realtime-2: Token (veri birimi) tüketimi üzerinden, Translate ve Whisper: Kullanılan süre (dakika) üzerinden faturalandırılacak.
