Theo PANews, OpenAI đã công bố ra mắt 'Trung tâm Đánh giá An toàn' nhằm cải thiện độ an toàn và minh bạch của các mô hình của mình. Sáng kiến này nhằm cung cấp các cập nhật liên tục về hiệu suất an toàn của các mô hình OpenAI liên quan đến nội dung gây hại, các cuộc tấn công jailbreak, việc tạo ra ảo giác và ưu tiên hướng dẫn. Khác với các thẻ hệ thống chỉ tiết lộ dữ liệu một lần trong quá trình phát hành mô hình, trung tâm sẽ cung cấp các cập nhật định kỳ phù hợp với các bản cập nhật mô hình, cho phép so sánh giữa các mô hình. Mục tiêu là nâng cao hiểu biết của cộng đồng về an toàn AI và tính minh bạch trong quy định. Hiện tại, GPT-4.5 và GPT-4o được ghi nhận với hiệu suất xuất sắc trong việc chống lại các cuộc tấn công jailbreak và duy trì độ chính xác thực tế.