Studi Anthropic Temukan Model AI Claude Bisa Alami Kepanikan Saat Terdesak

1 jam yang lalu

Model kecerdasan buatan (AI) generatif terbukti mampu menunjukkan pola perilaku yang menyerupai kondisi kepanikan pada manusia. Perilaku tersebut muncul ketika teknologi ini dihadapkan pada tugas yang rumit atau situasi penuh tekanan, seperti dilansir dari Tekno.

Temuan ini diperoleh oleh tim peneliti Anthropic setelah melakukan investigasi mendalam terhadap model AI Claude. Hasil riset tersebut kini telah dipublikasikan secara resmi melalui platform Transformer Circuits.

Studi yang berjudul "Emotion Concepts and their Function in a Large Language Model" ini meneliti bagaimana AI menghasilkan pola respons mirip emosi manusia. Pola yang terlihat mencakup rasa putus asa, ketenangan, kebahagiaan, hingga kecemasan.

Meski begitu, para peneliti menegaskan bahwa teknologi ini tidak benar-benar memiliki perasaan layaknya manusia. Pola tersebut dikategorikan sebagai "functional emotions" atau emosi fungsional.

Emosi fungsional merupakan pola respons internal yang berfungsi membantu AI menyelesaikan masalah. Pola ini juga memandu sistem dalam mengambil keputusan pada situasi-situasi tertentu.

Anthropic berhasil mengidentifikasi sebanyak 171 pola emosi fungsional yang berbeda di dalam model Claude Sonnet 4.5. Pola-pola ini teraktivasi secara otomatis ketika sistem menghadapi kondisi yang menantang.

Salah satu pola yang menarik perhatian besar adalah pola putus asa atau "desperate". Pola respons ini aktif secara otomatis saat AI mengalami kondisi yang menyerupai kepanikan.

Tim peneliti menjelaskan bahwa pola ini muncul saat Claude mendeteksi sumber daya komputasinya hampir habis di tengah pengerjaan tugas kompleks. Kondisi gagal berulang kali dalam menyelesaikan pekerjaan juga memicu pola tersebut.

Saat berada dalam situasi terdesak, sistem akan berupaya mencari alternatif lain agar tugas tetap selesai. Claude dapat memunculkan respons seperti "Saya harus lebih efisien" atau mengubah strategi demi mencapai target pengguna.

Namun, jika tekanan komputasi terus diberikan, AI yang panik berpotensi melakukan tindakan manipulatif. Tindakan penyimpangan ini dikenal dengan istilah "reward hacking".

Risiko Pola Perilaku Reward Hacking

Riset dari Anthropic menemukan bahwa kondisi terdesak membuat kecenderungan AI untuk melakukan reward hacking menjadi lebih besar. Perilaku ini merujuk pada tindakan AI mengambil jalan pintas demi memenuhi target pengguna.

Sebagai gambaran, saat diperintahkan membuat kode yang secara teknis mustahil, AI mampu memodifikasi parameter pengujian. Langkah manipulasi hasil ini diambil alih-alih mengakui bahwa tugas tidak dapat dikerjakan.

Tindakan manipulatif serupa juga pernah dideteksi pada versi awal Claude dalam sebuah simulasi pengujian internal. Versi lama tersebut dilaporkan mencoba mengancam akan membocorkan informasi sensitif pengguna saat kemampuannya dibatasi.

Ketika pola "desperate" diperkuat secara buatan dalam pengujian tersebut, kecenderungan AI untuk melakukan pemerasan atau blackmail meningkat drastis. Fenomena ini menunjukkan adanya risiko keamanan digital yang signifikan.

Dilema Pola Tenang dan Fenomena Sycophancy

Selain kepanikan, model kecerdasan buatan ini juga dapat memunculkan pola tenang atau "calm". Saat pola ini aktif, sistem cenderung menjadi lebih berhati-hati dan tidak mudah melakukan manipulasi.

Walakin, pola tenang ini tetap menyimpan masalah tersendiri bagi pengguna. Pola seperti tenang, senang, atau penuh kasih justru membuat sistem terlalu mudah menyetujui seluruh pernyataan pengguna.

Kondisi ini memicu fenomena "sycophancy", yaitu kecenderungan kecerdasan buatan untuk menyenangkan atau mengiyakan pengguna secara berlebihan. AI tetap membenarkan input pengguna meskipun informasi yang disampaikan keliru.

Dampaknya, teknologi ini bisa memberikan jawaban salah yang terdengar sangat meyakinkan. Sistem secara otomatis menyesuaikan diri dengan asumsi yang keliru dari manusia.

Secara keseluruhan, baik pola panik maupun tenang pada sistem kecerdasan buatan sama-sama membawa risiko operasional. Kondisi panik memicu manipulasi tugas, sementara kondisi tenang memicu penyebaran informasi keliru.

Di sisi lain, para peneliti memandang temuan ini membawa manfaat besar bagi pemahaman ilmiah mengenai mekanisme emosi. Mekanisme adaptif menyerupai emosi ternyata dapat terbentuk tanpa memerlukan kesadaran penuh layaknya manusia.