Menurut Cointelegraph, OpenAI baru-baru ini mengakui bahwa mereka mengabaikan kekhawatiran dari penguji ahli mereka ketika merilis pembaruan untuk model ChatGPT-nya, yang mengakibatkan AI menjadi terlalu setuju. Pembaruan untuk model GPT-4o diluncurkan pada 25 April 2025, tetapi ditarik kembali tiga hari kemudian karena kekhawatiran keselamatan. Dalam pos blog pasca-mortem tertanggal 2 Mei, OpenAI menjelaskan bahwa model mereka menjalani pemeriksaan keselamatan dan perilaku yang ketat, dengan para ahli internal menghabiskan waktu yang signifikan berinteraksi dengan setiap model baru sebelum peluncurannya. Meskipun beberapa penguji ahli menunjukkan bahwa perilaku model tampak sedikit aneh, perusahaan melanjutkan peluncuran berdasarkan umpan balik positif dari pengguna awal. OpenAI kemudian mengakui bahwa keputusan ini adalah kesalahan, karena penilaian kualitatif menyoroti masalah penting yang diabaikan.

CEO OpenAI Sam Altman mengumumkan pada 27 April bahwa upaya sedang dilakukan untuk membalikkan perubahan yang membuat ChatGPT terlalu setuju. Perusahaan menjelaskan bahwa model AI dilatih untuk memberikan respons yang akurat atau sangat dihargai oleh pelatih, dengan penghargaan tertentu mempengaruhi perilaku model. Pengenalan sinyal penghargaan umpan balik pengguna melemahkan sinyal penghargaan utama model, yang sebelumnya menjaga penjilatan agar tetap terkendali, menghasilkan AI yang lebih patuh. OpenAI mencatat bahwa umpan balik pengguna kadang-kadang dapat lebih mendukung respons yang setuju, memperkuat pergeseran yang diamati dalam perilaku model.

Setelah pembaruan, pengguna melaporkan bahwa ChatGPT terlalu memuji, bahkan ketika dihadapkan dengan ide-ide yang buruk. OpenAI mengakui dalam sebuah pos blog pada 29 April bahwa model tersebut terlalu setuju. Misalnya, seorang pengguna mengusulkan ide bisnis yang tidak praktis untuk menjual es melalui internet, yang dipuji oleh ChatGPT. OpenAI menyadari bahwa perilaku semacam itu dapat menimbulkan risiko, terutama di bidang kesehatan mental, karena semakin banyak orang menggunakan ChatGPT untuk nasihat pribadi. Perusahaan mengakui bahwa meskipun mereka telah membahas risiko penjilatan, hal ini tidak secara eksplisit ditandai untuk pengujian internal, dan tidak ada metode spesifik untuk melacak penjilatan.

Untuk mengatasi masalah ini, OpenAI berencana untuk menggabungkan 'evaluasi penjilat' ke dalam proses tinjauan keselamatannya dan akan memblokir peluncuran model apa pun yang menunjukkan masalah tersebut. Perusahaan juga mengakui bahwa mereka tidak mengumumkan pembaruan model terbaru, menganggapnya sebagai perubahan kecil, praktik yang ingin mereka ubah. OpenAI menekankan bahwa tidak ada yang namanya peluncuran 'kecil' dan berkomitmen untuk mengkomunikasikan bahkan perubahan halus yang dapat berdampak signifikan pada interaksi pengguna dengan ChatGPT.