Ilustrasi teknologi AI milik Google (Foto: AI.Google)

Buat Foto jadi Hidup dengan Fitur AI Terbaru Google, VLOGGER

Publish by Redaksi on 21 March 2024

NEWS, IDenesia.id - Raksasa teknologi Google tidak mengenal kata berhenti dalam inovasinya merilis berbagai fitur canggih. Kali ini, perusahaan tersebut datang dengan sebuah fitur video blogger (vlogger) terbaru berbasis kecerdasan buatan atau AI. Dengan teknologi ini, nantinya pengguna akan dapat membuat foto biasa menjadi ‘hidup’.

Secara sederhana, fitur yang diberi nama VLOGGER AI ini mengandalkan teknologi kecerdasan buatan untuk mengubah gambar statis menjadi avatar yang dapat bergerak dan dikontrol menggunakan suara.

Fitur serupa sebenarnya sudah dimiliki oleh beberapa perusahaan lain, namun, VLOGGER AI diklaim memiliki hasil yang sangat realistis, simpel, dan dengan bandwidth yang lebih rendah.

Saat ini, VLOGGER belum tersedia untuk dicoba, namun Google telah merilis sejumlah demo dari fitur tersebut untuk memancing rasa penasaran para penggila teknologi. Disadur IDenesia dari laman Toms Guide, Rabu, 21 Maret 2024, jika nantinya fitur ini telah rilis secara resmi, pengguna dapat membuat sebuah avatar bergerak dari gambar diam, dan menyertakan audio untuk membuatnya semakin realistis.

Model AI ini juga disebut mampu menciptakan gerakan kepala, ekspresi wajah, tatapan mata, kedipan, hingga gerakan tangan yang natural hanya dengan modal gambar statis dan audio.

 

Bagaimana cara kerja VLOGGER?

Model AI ini dibuat berdasarkan arsitektur difusi yang mendukung model teks-ke-gambar, video, dan bahkan 3D seperti MidJourney atau Runway, tetapi terdapat sejumlah mekanisme kontrol tambahan untuk membuatnya menjadi lebih realistis.

Untuk mendapatkan hasil yang diinginkan, VLOGGER harus melewati beberapa langkah terlebih dahulu. Pertama, dibutuhkan audio dan gambar sebagai masukan, kemudian gambar dan audio tadi pun akan memasuki proses pembuatan gerakan 3D serta model "difusi temporal" untuk menentukan waktu dan pergerakan. Terakhir, gambar dan audio yang telah diproses ini pun ditingkatkan skalanya dan baru kemudian diubah menjadi output avatar bergerak.

Pada dasarnya, proses ini seolah seperti sedang membangun jaringan saraf untuk memprediksi gerakan wajah, tubuh, pose, tatapan, dan ekspresi dari waktu ke waktu dari sebuah gambar tidak bergerak dan audio.

Dalam mengembangkan model AI ini, Google menggunakan kumpulan data yang disebut MENTOR, berisi 800.000 video dengan total durasi 2.200 jam dari berbagai orang yang tengah berbicara, yang kemudian melatih VLOGGER untuk mengenali dan menggerakkan berbagai macam foto orang-orang dari berbagai etnis, usia, pakaian, dan sebagainya.

Hingga saat ini, fitur VLOGGER masih dalam tahap pengembangan dengan sejumlah keterbatasan. Disampaikan para peneliti Google dalam laporannya, VLOGGER mungkin tidak selalu mampu meniru gerakan alami seseorang dengan sempurna, terutama ketika mengambil video dengan durasi lama.

#Topik Terkait

cropped-FAVICON-1.png
IDenesia Daily
hello world!
cross