Tôi đã nghĩ khá lâu về một câu hỏi nghe có vẻ rất đơn giản, điều gì sẽ xảy ra nếu một AI Agent đưa ra quyết định sai?
Ban đầu tôi thấy đây không phải vấn đề quá lớn. AI thì làm sao đúng tuyệt đối được. Ngay cả những trader giỏi nhất hay các quỹ đầu tư lớn cũng liên tục đưa ra những quyết định sai. Nếu ngay từ đầu chúng ta kỳ vọng AI sẽ không bao giờ mắc lỗi thì có lẽ chúng ta đang đòi hỏi một thứ mà ngay cả con người cũng chưa làm được.
Nhưng rồi tôi nhận ra mình đang nhìn AI như một phần mềm.
Có lẽ đó mới là sai lầm.
Nếu nghĩ kỹ hơn, AI Agent không còn giống một đoạn code chạy theo những dòng lệnh cố định nữa. Nó giống một nhân viên hơn. Bạn giao mục tiêu, giao quyền hạn, đặt ra một vài nguyên tắc, rồi để nó tự quyết định cách hoàn thành công việc.
Và nếu nhìn AI theo góc độ đó thì câu hỏi "AI có sai không?" tự nhiên trở nên kém thú vị.
Bởi vì nhân viên nào rồi cũng sẽ có lúc mắc sai lầm.
Điều quan trọng hơn là họ được phép làm đến đâu.
Có lẽ Newton Protocol cũng đang xuất phát từ đúng giả định đó.
Họ không bắt đầu bằng việc tìm cách tạo ra một AI hoàn hảo.
Họ bắt đầu bằng việc chấp nhận rằng AI sẽ luôn có lúc đưa ra quyết định sai.
Nghe có vẻ hơi bi quan.
Nhưng cũng rất thực tế.
Đến đây tôi mới thấy bài toán của Newton không phải là làm AI thông minh hơn.
Mà là làm cho những sai lầm của AI không biến thành thảm họa.
Hai mục tiêu này khác nhau hoàn toàn.
Hãy tưởng tượng bạn giao toàn bộ private key ví của mình cho một AI Agent.
Nếu nó quyết định sai một lần, mọi chuyện gần như kết thúc.
Nhưng nếu AI chỉ được phép giao dịch trong một giới hạn đã định trước, ví dụ không được swap quá một số tiền nhất định, không được bridge tài sản sang chain khác, không được ký những giao dịch nằm ngoài policy mà bạn đã thiết lập, thì mọi thứ bắt đầu khác đi.
AI vẫn có thể sai.
Nhưng cái giá của sai lầm đã thay đổi.
Tôi nghĩ đây là một điểm rất đáng chú ý.
Rất nhiều cuộc thảo luận về AI hiện nay đều xoay quanh việc làm sao để AI suy nghĩ đúng hơn.
Newton dường như lại hỏi một câu khác.
Điều gì sẽ xảy ra nếu AI không đúng?
Lúc đầu tôi không thấy sự khác biệt này quá lớn.
Nhưng càng nghĩ thì càng thấy đây gần như là hai triết lý khác nhau.
Một bên cố tạo ra một cỗ máy không bao giờ mắc lỗi.
Một bên chấp nhận lỗi là điều không thể tránh khỏi, rồi xây cả một hệ thống để giới hạn hậu quả của nó.
Nếu phải đặt cược, tôi nghĩ cách thứ hai thực tế hơn.
Không phải vì AI kém.
Mà vì thế giới vốn đã quá phức tạp.
Một AI Agent có thể mua một tài sản rồi thị trường giảm ngay sau đó.
Đó có phải quyết định sai không?
Có lẽ chưa chắc.
Một tháng sau giá có thể phục hồi.
Sáu tháng sau nó có thể trở thành quyết định đúng nhất.
Nghĩa là rất nhiều quyết định của AI không thể được đánh giá ngay tại thời điểm chúng diễn ra.
Nếu vậy thì việc cố chứng minh mọi quyết định đều đúng có vẻ không phải hướng đi khả thi.
Có lẽ điều cần kiểm soát không phải bản thân quyết định.
Mà là quyền được thực hiện quyết định đó.
Đó là chỗ tôi thấy Newton bắt đầu khác với cách nhiều người hình dung về AI Agent.
Trong kiến trúc của Newton, AI không đơn giản cầm private key rồi muốn làm gì thì làm. Mỗi hành động đều phải đi qua một lớp policy và execution framework trước khi được thực thi. Nói cách khác, AI có thể đề xuất một hành động, nhưng việc hành động đó có được phép diễn ra hay không lại phụ thuộc vào những quy tắc mà người dùng hoặc ứng dụng đã định nghĩa từ trước.
Nghe thì hơi giống một bước kiểm tra bổ sung.
Nhưng nếu nghĩ kỹ hơn thì đây lại là một thay đổi khá lớn.
Nó tách quá trình "ra quyết định" khỏi quá trình "thực thi quyết định".
Con người vẫn làm điều này mỗi ngày.
Một nhân viên có thể đề xuất chi một triệu đô cho một dự án.
Điều đó không có nghĩa tiền sẽ tự động được chuyển.
Sẽ luôn có giới hạn ngân sách.
Sẽ luôn có quy trình phê duyệt.
Sẽ luôn có những điều họ không được phép làm dù họ nghĩ mình đúng.
Có lẽ AI rồi cũng sẽ phải hoạt động theo cách tương tự.
Điều đó cũng khiến tôi nghĩ khác về khái niệm AI an toàn.
Trước đây tôi luôn mặc định AI an toàn là AI không mắc lỗi.
Giờ thì tôi không còn chắc nữa.
Có lẽ một AI đáng tin không phải là AI luôn đúng.
Mà là AI vẫn nằm trong phạm vi kiểm soát ngay cả khi nó sai.
Nhưng rồi tôi lại tự phản biện chính mình.
Guardrails có thật sự giải quyết được vấn đề không?
Có lẽ chỉ một phần.
Bởi vì guardrails cũng do con người viết ra.
Nếu policy được thiết kế quá lỏng, AI vẫn có thể gây ra thiệt hại rất lớn.
Nếu policy quá chặt, AI gần như mất hết khả năng tự chủ và mọi lợi ích của automation cũng biến mất.
Điều đó có nghĩa Newton không loại bỏ trust.
Họ chỉ chuyển trust sang một nơi khác.
Từ việc tin AI luôn đúng.
Sang việc tin rằng người thiết kế policy đã lường trước đủ mọi kịch bản.
Đó vẫn là một giả định.
Và mọi giả định đều có giới hạn.
Điều này làm tôi nhớ đến một điều khá thú vị trong lịch sử công nghệ.
Chúng ta không xây ngân hàng với giả định sẽ không bao giờ có gian lận.
Chúng ta không xây Internet với giả định sẽ không bao giờ có tấn công mạng.
Máy bay cũng không được thiết kế với giả định sẽ không bao giờ xảy ra sự cố.
Những hệ thống đó được xây với một tư duy khác.
Rằng lỗi sẽ xảy ra.
Điều quan trọng là lỗi có bị cô lập hay không, có được phát hiện đủ sớm hay không và hậu quả có nằm trong giới hạn chấp nhận được hay không.
Có lẽ Newton đang cố mang chính triết lý đó vào AI Agent.
Không phải bằng cách khiến AI hoàn hảo.
Mà bằng cách xây một lớp hạ tầng để ngay cả khi AI mắc sai lầm, nó cũng không thể vượt khỏi những ranh giới mà con người đã định nghĩa từ trước.
Và càng nghĩ, tôi càng thấy cuộc cạnh tranh của AI trong vài năm tới có lẽ sẽ không nằm ở việc mô hình nào có thêm vài tỷ tham số hay đạt thêm vài điểm benchmark.
Những thứ đó chắc chắn vẫn quan trọng.
Nhưng nếu AI bắt đầu được trao quyền quản lý tài sản, vận hành doanh nghiệp hay ký những giao dịch có giá trị lớn, thì điều quyết định sẽ là một câu hỏi khác.
Liệu con người có đủ tin để trao quyền cho AI hay không.
Và điều thú vị là, câu trả lời có lẽ không nằm ở bản thân AI.
Nó nằm ở lớp hạ tầng bao quanh AI.
Bởi vì cuối cùng, một AI Agent không cần phải hoàn hảo để trở nên hữu ích.
Nhưng một hệ thống trao quyền cho AI thì gần như bắt buộc phải được thiết kế với giả định rằng AI sẽ có lúc mắc sai lầm.
Có lẽ đó mới là khác biệt giữa việc xây một mô hình AI và việc xây hạ tầng cho nền kinh tế AI. Và cũng có thể, đây mới là câu hỏi mà Newton Protocol thực sự đang cố trả lời.
@NewtonProtocol #newt $NEWT