Ubah Teks Jadi Video, Sora Dianggap Inovasi AI Visioner
Senin, 19 Februari 2024 - 09:07 WIB
JAKARTA - OpenAI membuat inovasi kecerdasan buatan yang mengubah materi tekstual menjadi video beresolusi tinggi. Fitur ini diberi nama Sora.
OpenAI memerlihatkan beberapa cuplikan video sampel yang sangat mengesankan, mulai dari sepasang orang yang berjalan melintasi lanskap bersalju hingga drone yang mengikuti mobil SUV vintage putih di jalanan tanah.
Perkembangan ini dianggap inovasi signifikan untuk teknologi kecerdasan buatan generatif. Bahkan, OpenAI sudah menyebut fitur Sora ini sebagai "simulator dunia" yang mampu memahami aspek penting dari dunia tiga dimensi dan bisa mengeluarkan adegan mirip CGI dari lanskap digital.
"Hasil simulasi kami menunjukkan bahwa memperbesar model generasi video menjadi jalan menjanjikan menuju pembangunan simulator tujuan umum dari dunia fisik," tulis OpenAI melalui siaran pers dilansir dari Wired, Senin (19/2/2024).
Kemampuan Sora tersebut mendukung pembacaan terhadap geometri 3D dan konsistensi sejumlah data. Tak ayal, Sora disebut sebagai evolusi alami dari model pengubah difusi yang sejauh ini sebagian besar digunakan untuk menghasilkan gambar beresolusi tinggi.
Model difusi tadi bekerja dengan secara bertahap menambahkan noise ke gambar asli dan kemudian secara progresif mempelajari cara menghilangkan noise ini, sehingga menciptakan gambar baru. Untuk melatih Sora, OpenAI memberikan sejumlah besar video yang dilengkapi dengan keterangan untuk membangun hubungan antara cuplikan video dan input teks.
Selain menghasilkan cuplikan baru sepenuhnya dari prompt, Sora juga dapat memperpanjang klip atau mengubah gambar yang dihasilkan kecerdasan buatan menjadi video.
Saat mengembangkan Sora, peneliti OpenAI mengamati sejumlah kemampuan muncul yang menarik saat dilatih dalam skala besar. Misalnya, cara menyimulasikan beberapa aspek dari orang, hewan, dan lingkungan dari dunia fisik. Cuplikan video yang dihasilkan menunjukkan bahwa Sora dapat menghasilkan pergeseran kamera yang dinamis dan sangat halus saat memindai, melacak, atau memperbesar serta menunjukkan tingkat pemahaman 3D yang nyata.
OpenAI memerlihatkan beberapa cuplikan video sampel yang sangat mengesankan, mulai dari sepasang orang yang berjalan melintasi lanskap bersalju hingga drone yang mengikuti mobil SUV vintage putih di jalanan tanah.
Perkembangan ini dianggap inovasi signifikan untuk teknologi kecerdasan buatan generatif. Bahkan, OpenAI sudah menyebut fitur Sora ini sebagai "simulator dunia" yang mampu memahami aspek penting dari dunia tiga dimensi dan bisa mengeluarkan adegan mirip CGI dari lanskap digital.
"Hasil simulasi kami menunjukkan bahwa memperbesar model generasi video menjadi jalan menjanjikan menuju pembangunan simulator tujuan umum dari dunia fisik," tulis OpenAI melalui siaran pers dilansir dari Wired, Senin (19/2/2024).
Kemampuan Sora tersebut mendukung pembacaan terhadap geometri 3D dan konsistensi sejumlah data. Tak ayal, Sora disebut sebagai evolusi alami dari model pengubah difusi yang sejauh ini sebagian besar digunakan untuk menghasilkan gambar beresolusi tinggi.
Model difusi tadi bekerja dengan secara bertahap menambahkan noise ke gambar asli dan kemudian secara progresif mempelajari cara menghilangkan noise ini, sehingga menciptakan gambar baru. Untuk melatih Sora, OpenAI memberikan sejumlah besar video yang dilengkapi dengan keterangan untuk membangun hubungan antara cuplikan video dan input teks.
Selain menghasilkan cuplikan baru sepenuhnya dari prompt, Sora juga dapat memperpanjang klip atau mengubah gambar yang dihasilkan kecerdasan buatan menjadi video.
Saat mengembangkan Sora, peneliti OpenAI mengamati sejumlah kemampuan muncul yang menarik saat dilatih dalam skala besar. Misalnya, cara menyimulasikan beberapa aspek dari orang, hewan, dan lingkungan dari dunia fisik. Cuplikan video yang dihasilkan menunjukkan bahwa Sora dapat menghasilkan pergeseran kamera yang dinamis dan sangat halus saat memindai, melacak, atau memperbesar serta menunjukkan tingkat pemahaman 3D yang nyata.
tulis komentar anda