Alihan Çelik
Alihan, 6 yıldır teknoloji ve oyunlar ile alakalı editörlük yapıyor. Telefonlar, tabletler, son çıkan uygulamalar hakkında içerikler düzenliyor. Özellikle mobil gelişmeleri yakından takip ediyor.
Apple, iOS 26, iPadOS 26 ve macOS Tahoe ile yeni ses transkripsiyon API’lerini tanıttı. Bu yeni araçlar, Whisper gibi çözümlere kıyasla çok daha hızlı sonuçlar sunsa da, doğruluk oranı açısından henüz geride kalıyor.
Apple, test sürecindeki macOS Tahoe, iOS 26 ve iPadOS 26 sürümleriyle birlikte yeni nesil ses transkripsiyon API'lerini kullanıma sundu. Şirketin kendi uygulamalarında (Notlar, Sesli Mesajlar, çağrı transkripsiyonu vb.) kullandığı altyapıya dayanan bu araçlar, artık geliştiricilere de açılıyor.
Yeni ses tanıma sistemleri, Apple’ın "SpeechAnalyzer" ve "SpeechTranscriber" adını verdiği bileşenlere dayanıyor. Bu sayede sesli içerikler cihaz üzerinde yerel olarak işlenebiliyor ve hızlıca yazıya dökülebiliyor.
Örneğin yapılan ilk testlerde, 34 dakikalık ve 7 GB boyutundaki bir video Apple’ın yeni araçlarıyla sadece 45 saniyede yazıya döküldü. Aynı video, MacWhisper üzerinden çalışan OpenAI’nin Whisper modeliyle 1 dakika 41 saniyede işlenebildi. Apple’ın çözümü, bu testte yaklaşık %55 daha hızlı çalıştı.
Her ne kadar hız etkileyici olsa da, Apple’ın sunduğu metinlerin doğruluğu rakiplerine göre daha düşük. VoiceInk uygulamasının geliştiricisi Prakash Joshi Pax, Apple’ın yeni API’lerini OpenAI Whisper Large V3 Turbo ve ElevenLabs Scribe v1 ile karşılaştırdı.
15 adet İngilizce ses örneğiyle yapılan testte kelime hata oranları (WER) şöyleydi.
ElevenLabs Scribe v1: %3,42
Whisper Large V3 Turbo: %3,95
Apple API: %7,63
Bu sonuçlar, Apple’ın transkripsiyon teknolojisinin doğruluk açısından henüz rakipleriyle yarışamadığını gösteriyor. Özellikle karmaşık cümlelerde ve net olmayan seslerde hatalar belirginleşiyor.
Apple’ın yeni transkripsiyon araçları, hız konusunda önemli bir adım atmış durumda. Gerçek zamanlı transkripsiyon gereken uygulamalar için bu büyük bir avantaj olabilir. Ancak doğruluk söz konusu olduğunda, hâlen Whisper gibi çözümler öne çıkıyor.
Özellikle röportajlar, toplantı notları veya akademik içeriklerin doğru şekilde yazıya dökülmesi gerekiyorsa, Apple’ın çözümü henüz yeterli değil. Ancak gelişen altyapısıyla Apple, ilerleyen günlerde daha güçlü bir alternatif haline gelebilir. Şimdilik hız isteyenler Apple’ı, doğruluk isteyenler ise Whisper’ı tercih edebilir.
E-posta adresiniz yayınlanmayacaktır. Zorunlu alanlar * ile işaretlenmiştir.