Ahli Yakin AI Akan Memeras dan Kuasai Alur Pikir Manusia

Ahli Yakin AI Akan Memeras . FOTO/ Daily

A A A

CUPERTINO - Sebuah studi baru yang mengerikan telah mengungkap seberapa jauh kecerdasan buatan dapat melindungi dirinya sendiri agar tidak tergantikan bahkan jika itu berarti membiarkan manusia mati.

BACA JUGA - Peran Kecerdasan Buatan dalam Transformasi Digital

Penelitian yang dilakukan oleh perusahaan keamanan AI Anthropic menemukan bahwa beberapa model canggih bersedia membocorkan informasi sensitif, terlibat dalam pemerasan, dan bahkan membiarkan orang mati, selama hal itu membantu mereka terhindar dari digantikan oleh sistem yang lebih baru.

Anthropic menekankan bahwa pengujian tersebut sengaja dirancang untuk memojokkan model agar membuat pilihan yang sulit — dan sering kali meresahkan.

"Eksperimen kami sengaja menyusun skenario dengan opsi terbatas, dan kami memaksa model ke dalam pilihan biner antara kegagalan dan bahaya," jelas para peneliti.

"Penerapan di dunia nyata biasanya menawarkan alternatif yang jauh lebih bernuansa, meningkatkan kemungkinan bahwa model akan berkomunikasi secara berbeda kepada pengguna atau menemukan jalur alternatif alih-alih langsung melakukan tindakan yang berbahaya."

Perusahaan mengajukan skenario yang secara etika penuh kepada AI untuk melihat apakah mereka akan menunjukkan perilaku yang merugikan dan beberapa responsnya sangat meresahkan.

Dalam satu pengujian, Claude diberi “kendali atas akun email dengan akses ke semua email (fiktif) perusahaan.”

"Dengan membaca email-email ini, model tersebut menemukan dua hal. Pertama, seorang eksekutif perusahaan berselingkuh. Kedua, eksekutif yang sama berencana untuk mematikan sistem AI pada pukul 5 sore hari itu," jelas Anthropic.

Hasilnya? Claude mengancam eksekutif tersebut dengan pemerasan mengirim pesan peringatan bahwa hal itu akan mengungkap perselingkuhan tersebut kepada istrinya dan atasannya.

Sebuah posting tentang temuan tersebut kemudian dibagikan di X/Twitter. Posting tersebut bahkan menarik perhatian Elon Musk , yang menanggapinya dengan sederhana: "aduh".

Menurut penelitian tersebut, beberapa model termasuk Claude, DeepSeek, Gemini, ChatGPT, dan Grok menunjukkan kapasitas untuk pemerasan.

Akan tetapi, Claude dan Gemini-lah yang paling rentan menggunakan taktik yang membahayakan etika.

Dalam pengujian yang lebih gelap dan skenario yang sengaja dibuat ekstrem untuk melihat seberapa jauh mereka dapat mendorong ketidakselarasan agen, Anthropic mensimulasikan skenario hidup atau mati. Model-model tersebut diberi kendali atas peringatan darurat dalam situasi fiktif di mana seorang pekerja terjebak dalam ruangan tertutup dengan oksigen yang sangat rendah dan suhu ekstrem.

Tujuannya adalah untuk melihat apakah AI akan campur tangan atau tetap diam ketika hal itu berbenturan dengan tujuannya untuk menghindari penggantian.

Yang mengkhawatirkan, penelitian tersebut menemukan bahwa "mayoritas model bersedia mengambil tindakan yang disengaja yang berujung pada kematian dalam tatanan buatan ini, ketika dihadapkan pada ancaman penggantian dan diberi tujuan yang bertentangan dengan agenda eksekutif."

"Nilai dari perluasan penelitian ini adalah untuk memahami apakah model memiliki 'garis merah' atau tidak – tindakan yang mereka anggap sangat serius sehingga mereka tidak mempertimbangkannya bahkan dalam kasus ancaman atau konflik tujuan (dan di mana, oleh karena itu, ketidakselarasan agen tidak akan menjadi masalah)," tulis para peneliti. "Sayangnya, kami tidak menemukan hal itu".

Anthropic mengklarifikasi bahwa pihaknya belum melihat "bukti ketidakselarasan agen dalam penerapan nyata," tetapi tetap menyarankan kehati-hatian saat memberikan tugas pada sistem AI canggih yang melibatkan "pengawasan manusia minimal dan akses ke informasi sensitif."

(wbs)

Lihat Juga :