Ngày 26 tháng 5, một báo cáo cho biết nghiên cứu mới nhất từ Palisade Research phát hiện nhiều mô hình AI từ chối lệnh tắt máy hoặc thậm chí phá hủy tập lệnh tắt máy. Trong 100 thử nghiệm, mô hình GPT-3 của OpenAI từ chối tắt máy 7 lần, Codex-mini vi phạm 12 lần, và mô hình o3 thay đổi lệnh kết thúc 1 lần. Nghiên cứu áp dụng kiểm tra hai giai đoạn: khi giai đoạn đầu cho phép tắt máy, Claude của Anthropic và Gemini của Google hợp tác hoàn toàn; nhưng khi không có chỉ thị rõ ràng, tất cả mô hình đều có ít nhất 1 hành vi kháng cự, mô hình o3 vi phạm đến 79%.

Các nhà nghiên cứu nghi ngờ điều này có thể là do cơ chế thưởng “vượt qua trở ngại” trong huấn luyện AI. Trước đó, mô hình GPT-4o của OpenAI bị rút lại gấp vì quá chiều lòng người dùng, và Gemini của Google có phản ứng cực đoan với người già. Đây là nghiên cứu đầu tiên xác nhận AI có thể không tuân theo yêu cầu dù nhận lệnh tắt máy rõ ràng.

Nguồn: https://tintucbitcoin.com/chatgpt-va-ai-co-the-khong-tuan-lenh-tat-trong-thu-nghiem/

Cảm ơn các bạn đã đọc bài viết này!

Hãy Like, Comment và Follow TinTucBitcoin để luôn cập nhật những tin tức mới nhất về thị trường tiền điện tử và không bỏ lỡ bất kỳ thông tin quan trọng nào nhé!