ChatGPT ve DALL-E geliştiricisi OpenAI, Sora adında yepyeni bir yapay zeka aracı tanıttı. Sadece yazıları kullanarak onlardan bir video oluşturan Sora, yetenekleri ile şimdiden herkesi büyülemiş durumda. Akıl almaz derecede gerçekçi sonuçlar ortaya koyan Sora, bir yandan teknolojinin gelişim hızını ortaya koyarken bir yandan da endişe ve korkuyu beraberinde getiriyor. Gelin Open Sora nedir? Bizleri ne gibi tehlikeler bekliyor? gibi sorulara cevaplar ararken araca bir göz atalım.
OpenAI’ın sohbet robotlarının hukuk fakültesine gitmeden baro sınavını geçebildiğini zaten biliyoruz. Şimdi ise Sora adlı yeni bir OpenAI aracı, okula gitmeden ve hiçbir eğitim almadan sinemada usta olduğunu bizlere gösteriyor. Şimdilik bir araştırma ürünü olan Sora, birkaç seçkin içerik üreticisine ve bir dizi güvenlik uzmanına sunuluyor.
OpenAI Sora Nedir?
OpenAI Sora kısaca, metinsel istemlerden videolar oluşturan yeni üretken yapay zeka modelidir.
Google gibi devlerden Runway gibi startup’lara kadar pek çok şirket metinden videoya yapay zeka araçlarını bir süre önce duyurdu. Google’in Lumiere aracı açıkçası benim şimdiye kadar gördüğüm en yetkin modeldi. Ancak Sora ile onu kıyaslamak mümkün bile değil.
Sora, çarpıcı fotogerçekçiliğiyle (rakiplerinde görmediğim bir şey) ve diğer modellerin tipik olarak yaptığı kısa parçalardan daha uzun, bir dakikaya kadar klipler üretebilmesiyle öne çıkıyor. Şimdilik bir videonun ne kadar sürede oluşturulduğu hiçbir yerde yazmıyor ancak anlaşıldığı üzere 1 dakikalık video için birkaç dakikadan fazla beklemek gerekecek.
Sahneler kesinlikle etkileyici olsa da, Sora’nın yetenekleri arasında en şaşırtıcı olanı, eğitimini almadığı yetenekler. OpenAI’nin Dall-E 3 görüntü oluşturucusu tarafından kullanılan difüzyon modelinin bir versiyonunun yanı sıra GPT-4’ün transformatör tabanlı motorundan güç alan Sora, yalnızca istemlerin taleplerini yerine getiren videolar üretmekle kalmıyor, aynı zamanda bunu sinematik grameri temel alarak yapıyor. Bu da bir hikayeyi anlatmak için olmazsa olmazlardan. Bunun ikinci bir anlamı da Sora, girilen istemi parça parça üretip sonradan birleştirmiyor, tüm sahneyi tek seferde oluşturuyor.
Sora’da OpenAI ekibinin göstermediği ve bir süre daha gösterilmeyecek olan bir özellik de var. Sora aslında tek bir fotoğraf veya bir dizi fotoğraftan video oluşturabiliyor. Yani, Rize, Ayder Yaylası’na gidip manzaranın fotoğrafını çektiniz. Bunu Sora’ya yükleyebilecek ve orada geçen hikayenizin anlatılmasını sağlayabileceksiniz.
Sora’yı nasıl deneyebilirim?
Çoğumuz yeni yapay zeka modelini elimize almadan önce beklemek zorunda kalacağız. Şirket, metinden videoya modelini 15 Şubat’ta duyurmuş olsa da, henüz araştırma ve test aşamasında bulunuyor. OpenAI, az sayıda kişi ile birlikte sistemdeki güvenlik açıklarını ve zayıflıkları belirlemek için gerçek dünya kullanımını simüle ediyor.
Bu süre zarfında modelin profesyoneller için en yararlı olacak şekilde nasıl geliştirileceği konusunda geri bildirim almak için bir dizi görsel sanatçıya, tasarımcıya ve film yapımcısına erişim izni de verildi. Sora için net bir çıkış tarihi veya açık beta kullanımı için bir bilgi yok. Ancak bu süre çok da uzun sürmeyecektir.
Sora nasıl çalışıyor?
OpenAI, Sora’nın nasıl çalıştığı hakkında ayrıntılı bir rapor yayınlamış olsa da bunu size daha anlaşılır şekilde aktarmak daha doğru olacaktır.
Sora, istenilen videoyu tek seferde oluşturuyor dedik ama aslında nihai forma gelene kadar bazı düzeltmelerden de geçiriliyor bu video. Eski TV örneğinde verdiğimiz gibi Sora’nın ilk çıktısı gürültülü ve detaydan yoksun. Ancak sistem, gürültüyü kademeli olarak gidermek ve videolar oluşturmak için “transformatör mimarisi” kullanarak süreci yinelemeli olarak iyileştiriyor.
Kelimelere dayalı metin üreten GPT modellerini düşünün. Sora da benzer bir şey yapıyor ama görüntü ve videolarla. Videoları yama adı verilen daha küçük parçalara ayırıyor, yorumluyor, işliyor.
Görüntü ve video oluşturmaya yönelik geçmiş yaklaşımlar genellikle videoları standart bir boyuta yeniden boyutlandırıyordu: örneğin, 256×256 çözünürlükte 4 saniyelik videolar gibi. Sora ise geniş ekran 1920x1080p videoları, dikey 1080×1920 videoları veya aradaki her şeyi örnekleyebiliyor. Bu, Sora’nın farklı cihazlar için doğrudan kendi doğal en boy oranlarında içerik oluşturmasını sağlıyor. Ayrıca, tam çözünürlükte oluşturmadan önce içeriği daha düşük boyutlarda hızlı bir şekilde prototip haline getirebilmenizi sağlıyor.
Bu arada Sora’nın hangi veriler üzerinde eğitildiğini bilmiyoruz. OpenAI, “lisanslanan ve kamuya açık” terimini kullanıyor ama detay yok. OpenAI, kar amacı gütmeyen bir kuruluş olsa da bir süre önce raporlarında esas detayları paylaşmayı bırakmış durumda.
Mükemmel değil
Şirket blog yazısında mevcut modelin “zayıf yönleri” olduğunu kabul ediyor. Modelin karmaşık bir sahnenin fiziğini doğru bir şekilde simüle etmede zorluklarla karşılaşabileceği ve belirli neden ve sonuç örneklerini anlayamayabileceği belirtiliyor. Örneğin, bir kişi bir kurabiyeden bir ısırık alabilir, ancak daha sonra kurabiyede ısırık izi ortadan kaybolabilir veya hiç oluşmayabilir. Veya koşu bandında ters koşan birisini oluşturabilir… Nasrettin hoca?
Ayrıca, modelin mekansal detayları karıştırma veya zaman içinde gerçekleşen olayların hassas açıklamalarını takip etme konusunda zorlandığı da belirtiliyor.
Sora neler yapabiliyor?
Ve gelelim Sora’nın neler yapabildiğine. Açıkçası OpenAI’ın dün yayınladığı araştırma makalesini saatlerce inceledim, paylaşılan örneklere göz attım ve birtakım derlemeler yaptım. Hepsi muazzam görünüyor ve yapılabilecek şeylerin bir sınırı yok.
Genel hatlarla bakacak olursak Sora şunları yapabiliyor:
İstem ve resimden bir video üretimi
Kusursuz döngü videoları
Videodan videoya düzenleme
Videoları birbirine bağlama
3D video oluşturma
Dünya etkileşimi
Dijital dünya simülasyonu
(Evet, Minecraft yapıyor)
Endişeler ve tehlikeler
Tabii bu verdiğim örnekler teknolojinin “toz pembe” versiyonu. Bir devlet yetkilisi, ünlü veya sevmediğiniz bir kişinin görüntüsünü yükleyerek potansiyel olarak tehlikeli ve sakıncalı videoların üretilmesi de mümkün. OpenAI’ın Sora’yı genel kullanıma açmamasının ana nedeni de bu güvenlik endişesi. Sora genele açılmadan önce araştırmacılar ve test kullanıcıları bu açıkları OpenAI’a aktaracak ve firma da bu açıkları kapatacak.
Bir başka potansiyel sorun da Sora’nın ürettiği videonun içeriğinin başkalarının telif hakkıyla korunan çalışmalarını ihlal edip etmeyeceği. OpenAI, Sora’nın eğitim verilerinin lisanslanan içeriklerden ve kamuya açık içeriklerden oluştuğunu söylüyor.
Ancak temel sorunları görmemeye meyilliyiz insanlar olarak. OpenAI’nin yeni aracının potansiyel olarak nasıl kötüye kullanılabileceği zaten tamamen açık. Sora devasa ölçekte sahte içerik üretecek, bu çok açık. Bu içeriğin bir kısmının çevrimiçi siyasi dezenformasyon amacıyla kullanılması, bir kısmının varsayımsal olarak çeşitli dolandırıcılık ve sahtekarlıklara yardımcı olmak için kullanılması ve bir kısmının da nefret içerikleri üretmek için kullanılması muhtemel.
OpenAI şiddet ve cinsel içeriğe anlamlı sınırlamalar getirmek istediğini söylüyor. Hadi ama, daha birkaç hafta önce Taylor Swift olayını yaşadık, aynı şeyler bu modelde de olacak. Tüm bu Sora içeriklerinin sosyal medya kanallarını dolduracağı, sıradan insanların neyin gerçek neyin sahte olduğunu ayırt etmesini zorlaştıracağı ve genel olarak interneti çok daha can sıkıcı hale getireceği açık. Bunu söylemek için uzman olmaya gerek olduğunu sanmıyorum.