OpenAI Luncurkan o1: Model AI yang Dapat Bernalar Seperti Manusia

A A A

Akses pengembang ke o1 sangat mahal: Dalam API, o1-preview adalah USD15 per 1 juta token input, atau potongan teks yang diuraikan oleh model, dan USD60 per 1 juta token output. Sebagai perbandingan, GPT-4o berharga USD5 per 1 juta token input dan USD15 per 1 juta token output.

Pelatihan di Balik o1

Pelatihan di balik o1 secara fundamental berbeda dari pendahulunya, kata pemimpin penelitian OpenAI, Jerry Tworek. Dia mengatakan, o1 telah dilatih menggunakan algoritma pengoptimalan yang sama sekali baru dan kumpulan data pelatihan baru yang khusus disesuaikan untuknya.

OpenAI mengajarkan model GPT sebelumnya untuk meniru pola dari data pelatihannya. Dengan o1, OpenAI melatih model untuk memecahkan masalah sendiri menggunakan teknik yang dikenal sebagai pembelajaran penguatan, yang mengajarkan sistem melalui penghargaan dan hukuman.

Kemudian menggunakan "rantai pemikiran" untuk memproses pertanyaan, mirip dengan cara manusia memproses masalah dengan menjalaninya langkah demi langkah.

Hasil Pelatihan Baru

Sebagai hasil dari metodologi pelatihan baru ini, OpenAI mengatakan bahwa model tersebut akan lebih akurat.

Hal utama yang membedakan model baru ini dari GPT-4o adalah kemampuannya untuk mengatasi masalah kompleks, seperti pengkodean dan matematika, jauh lebih baik daripada pendahulunya sekaligus juga menjelaskan alasannya, menurut OpenAI.

"Model ini jelas lebih baik dalam menyelesaikan tes matematika AP daripada saya, dan saya mengambil jurusan matematika di perguruan tinggi," kata kepala petugas penelitian OpenAI, Bob McGrew. Dia mengatakan OpenAI juga menguji o1 terhadap ujian kualifikasi untuk Olimpiade Matematika Internasional, dan sementara GPT-4o hanya menyelesaikan 13 persen masalah dengan benar, o1 mendapat skor 83 persen.

Dalam kontes pemrograman online yang dikenal sebagai kompetisi Codeforces, model baru ini mencapai persentil ke-89 peserta, dan OpenAI mengklaim pembaruan model berikutnya ini akan berkinerja "mirip dengan mahasiswa PhD pada tugas benchmark yang menantang dalam fisika, kimia, dan biologi."

Keterbatasan o1

Pada saat yang sama, o1 tidak sehebat GPT-4o di banyak bidang. Model ini tidak bekerja sebaik pada pengetahuan faktual tentang dunia. Model ini juga tidak memiliki kemampuan untuk menjelajahi web atau memproses file dan gambar. Namun, perusahaan percaya bahwa model ini mewakili kelas kemampuan baru. Model ini diberi nama o1 untuk menunjukkan "mengatur ulang penghitung kembali ke 1."