Meta ayrıca SeamlessM4T’nin üzerinde eğitildiği veri setini de yayınladı. SeamlessAlign olarak adlandırılan bu veri seti toplam 270.000 saatlik veriyi içeriyor ve Meta’ya göre bugüne kadarki en büyük açık çok modlu çeviri veri seti konumunda.
Meta ayrıca 4.000’den fazla konuşma dilini tanımlayabilen ve 1.100’den fazla dilde konuşma tanıma, dil tanımlama ve konuşma sentezleme teknolojisi sağlayan Massively Multilingual Speech modelini de piyasaya sürdü.
Evrensel dil çevirisi
Bu alanda bir öncü olan Google, bir metni çevirmek ya da konuşmayı bir dilden diğerine dönüştürmek için çoğu kişinin başvurduğu bir adres. Teknoloji devi şimdi de sınırlı sayıda insan tarafından konuşulan dilleri desteklemek için Evrensel Konuşma Modeli’ni (USM) geliştiriyor. Yapay zeka destekli model, 12 milyon saatlik konuşma ve 28 milyar metin cümlesi üzerinde eğitilmiş 2B parametre ile 1.000 dili destekleyecek. Bu aynı zamanda YouTube’un altyazı oluşturmak için kullanılan otomatik konuşma tanıma yazılımını da geliştirecek.
SeamlessM4T tüm küresel dillerin yalnızca bir kısmını kapsadığından model, evrensel bir dil çevirmenine doğru atılmış bir adım olarak düşünülebilir. Öte yandan ChatGPT, 95 dilde ve Bard ise 40 dilde konuşabiliyor.