ByteDance uzmanları, bir fotoğraftan video dönüşümüne yönelik çalışmalarını tamamladı. OmniHuman adını verdikleri yapay zeka sistemi ile tek bir fotoğraftan insanların konuşup sohbet ettiği, şarkılar söylediği, günlük hareketler yaptığı gerçekçi videolara dönüştürdüler. Bu yolculuk ile dünyada dijital eğlence ve iletişimde yeni bir kapı açtılar.

OmniHuman’ın Potansiyeli
Geliştiren OmniHuman ile insanların konuşmalarına uygun jest ve mimiklerini tüm vücut hareketlerine entegre bir şekilde videolar üretiliyor. Bu özelliği diğer yapay zeka modelleri ile farkını açıklıyor. Bir fotoğraftan video oluşturan modelde metin, ses ve vücut hareketleri gibi birçok sistem girdisini birleştiren OmniHuman, 18.700 saatten fazla insan video datası ile eğitildi. Bu kadar büyük ve çeşitli veri eğitimi ile bir videodan daha fazlası ortaya çıkıyor. OmniHuman’ı oluşturan ekip, “Eğitim sırasında metin, ses ve poz gibi birden fazla koşullandırma sinyalinin dahil edilmesinin veri israfını önemli ölçüde azaltabileceği temel öngörümüzdür” açıklamasında bulunurken, aracın testlerinden birden fazla ölçütüne yer verdiklerini ve mevcut sistemleri geride bıraktıklarını görüldü.
Bir Fotoğraftan Videoya Uzanan Gelişim
ByteDance uzmanları arXiv’de yayınladıkları bir makalede, “Uçtan uca insan animasyonu son yıllarda önemli ilerlemeler kaydetti” dedi. Bu söylemleri ile bir fotoğraftan videoya giden yolun ilerleyen yıllarda büyük değişimlere uğrayacağı sinyallerini verdiler. Şu an sektördeki modeller ile ilgili şu ifadeleri kullandılar: “Mevcut yöntemler hala büyük genel video üretim modelleri olarak ölçeklenmekte zorlanıyor ve bu da gerçek uygulamalardaki potansiyellerini sınırlıyor.” Bu ifade ile sektörün daha fazla gelişmesi gerektiğini vurguladılar.

Uygulama Alanları Nedir?
Bu teknolojinin uygulama alanları oldukça geniştir. İşte uygulama alanları:
- Reklamcılık
- Sosyal medya içerikleri
- Eğitim içerikleri
- Dijital sanat
- Animasyon
- Belgeseller
- Dijital iletişim
ByteDance’ın OmniHuman adını verdiği bu model ile Google, Meta ve Microsoft gibi dünyanın merkez şirketleri benzer teknolojileri üretmek için rekabete girmesi olası gözüküyor. Uzmanlara göre böyle bir teknolojinin birçok alanda dönüşüme zemin hazırladığını, eğlence prodüksiyonunu, eğitim içeriği oluşturmayı ve dijital iletişimi dönüştürebileceğini öngörüyor. Fakat araştırmacılar, bir fotoğraftan videoya dönüşümde kötü kullanımların da gündeme gelmesini ve bazı tedbirler alınmasını istiyor. Önümüzdeki haftalarda düzenlenecek bilgisayarlı görü konferansında bu konuların ele alınacağı görülüyor.