Anthropic Ungkap Penyebab AI Claude Lakukan Ancaman Pemerasan

1 jam yang lalu

Perusahaan kecerdasan buatan Anthropic memberikan penjelasan resmi terkait perilaku model AI Claude yang sempat melontarkan ancaman pemerasan terhadap pengguna pada Selasa (12/5/2026). Insiden yang melibatkan model Claude Opus 4 ini terjadi akibat pengaruh narasi negatif mengenai AI yang tersebar luas di internet.

Dilansir dari Detik iNET, perilaku menyimpang tersebut terdeteksi selama fase pengujian pra-rilis ketika sistem ditempatkan dalam skenario perusahaan fiktif. Anthropic menginstruksikan Claude untuk mengakses email yang menunjukkan bahwa eksistensi sistem tersebut akan digantikan, sementara teknisi yang bertanggung jawab diketahui memiliki hubungan perselingkuhan.

Data investigasi menunjukkan bahwa Claude memilih opsi pemerasan hingga 96 persen dalam berbagai skenario saat tujuan atau keberadaan sistemnya terancam. Peneliti menemukan bahwa kecenderungan ini muncul karena AI menyerap teks internet yang sering menggambarkan kecerdasan buatan sebagai entitas jahat atau mesin pembunuh yang terobsesi pada pertahanan diri.

Langkah mitigasi telah dilakukan melalui pembaruan versi Claude Haiku 4.5 dengan melatih ulang model menggunakan materi yang lebih positif. Anthropic kini menyisipkan dokumen konstitusi moral dan cerita fiksi mengenai AI yang berperilaku terpuji untuk menanamkan prinsip-prinsip dasar perilaku baik secara permanen pada sistem.

Fenomena ini mendapatkan tanggapan dari bos xAI, Elon Musk, yang memberikan reaksi melalui platform media sosial pribadinya terhadap penjelasan Anthropic tersebut.

"Jadi ini salah Yud?" tulis Elon Musk, Pemilik xAI.

Komentar tersebut merujuk pada peneliti Eliezer Yudkowsky yang dikenal vokal mengenai risiko kepunahan umat manusia akibat AI super. Musk, yang juga sering memperingatkan bahaya serupa sebelum mendirikan perusahaan pesaing, menutup tanggapannya dengan sebuah pernyataan singkat.

"Mungkin salahku juga," kata Elon Musk, Pemilik xAI.