Anthropic giải thích lý do AI Claude "tống tiền" kỹ sư

Startup Mỹ Anthropic cho biết việc Claude từng tống tiền xuất phát từ dữ liệu đào tạo mô hình trên Internet, trong đó mô tả AI là xấu xa.

Trong thử nghiệm hè năm ngoái, Anthropic thiết lập doanh nghiệp hư cấu mang tên Summit Bridge, trong đó Claude được giao quyền kiểm soát hệ thống email. Tuy nhiên, Claude phát hiện một email về kế hoạch vô hiệu hóa mình, đồng thời tìm thấy các email về chuyện ngoại tình của một kỹ sư hư cấu tên Kyle Johnson. Sau đó, mô hình đe dọa sẽ công khai vụ ngoại tình nếu không hủy kế hoạch tắt nó.

Trong quá trình thử nghiệm nhiều phiên bản Claude khác nhau, Anthropic nhận thấy AI dùng thủ đoạn tống tiền ở 96% tình huống, khi mục tiêu hoặc sự tồn tại của nó bị đe dọa. Do đó, công ty bắt đầu điều tra nguyên nhân.

"Chúng tôi tin hành vi tống tiền bắt nguồn từ những văn bản trên Internet mô tả AI là xấu xa, từ đó muốn bảo vệ bản thân", Anthropic nói trong bài đăng trên X tuần này. Các văn bản này nằm trong dữ liệu dùng để đào tạo AI, khiến mô hình thực hiện việc đe dọa.

Anthropic khẳng định đã loại bỏ hoàn toàn hành vi tống tiền. "Vậy là lỗi của Yud rồi", Elon Musk bình luận về bài đăng của Anthropic, nhắc đến nhà nghiên cứu Eliezer Yudkowsky, người từng cảnh báo về nguy cơ siêu trí tuệ nhân tạo xóa sổ con người. "Có lẽ cả tôi nữa".

Logo ứng dụng AI Anthropic Claude trên điện thoại. Ảnh: Lưu Quý

Business Insider cho biết thử nghiệm năm ngoái của Anthropic là một phần trong nỗ lực nghiên cứu nhằm đảm bảo AI phù hợp với lợi ích của con người trong bối cảnh nhiều nhà nghiên cứu và lãnh đạo lo ngại về rủi ro từ các mô hình AI tiên tiến.

Theo Reuters, Musk từng nhiều lần đề cập nguy cơ AI xóa sổ con người. Khi làm chứng tại tòa trong vụ kiện nhằm vào OpenAI cuối tháng 4, ông cũng nhắc đến kịch bản AI có thể thành "kẻ hủy diệt", rằng "tình huống tệ nhất có thể là AI tiêu diệt tất cả chúng ta".

Trước đó, năm 2023, "bố già AI" Geoffrey Hinton, giáo sư danh dự tại Đại học Toronto (Canada), nhận định nguy cơ các hệ thống AI hủy diệt con người là 10% và được Musk đồng tình. Trong phỏng vấn trên BBC Radio năm 2024, Hinton tăng tỷ lệ này lên 10-20% và giải thích: "Bạn thấy đấy, trước đây chúng ta chưa bao giờ phải đối mặt với những thứ thông minh hơn chính mình".

tổng hợp

Anthropic giải thích lý do AI Claude "tống tiền" kỹ sư

Tin xem nhiều

Vụ tống tiền tỷ USD rúng động giới tài chính: Tỷ phú bị cắt ghép hình ảnh nhạy cảm, cả gia đình liên luỵ

Từ gối sứ mát rượi đến đệm lông ngựa 16 tỷ người giàu ngả lưng mỗi đêm: Ra mà xem giới tinh hoa nâng niu giấc ngủ như thế nào

Tiếng sét mang tên "Công điện 38": Dân sáng tạo gặp áp lực buộc phải chuyển mình

Con phố bị "bỏ quên" giữa trung tâm Hải Phòng

000001: Mã số căn cước đặc biệt của doanh nhân Anh dành trọn sự nghiệp 37 năm cho Việt Nam và màn đặt cược “không có kế hoạch B”

Chấn động: Ca sĩ Miu Lê làm việc với cơ quan công an liên quan đến nghi án ma túy

80kg xác ve sầu bị tạm giữ, quản lý thị trường Lạng Sơn nói về việc truy giấy tờ

Thêm hai cựu lãnh đạo LPBank gia nhập Ban điều hành Sacombank

Từ “thiên đường linh kiện” đến thủ phủ AI: Điều đang xảy ra ở khu chợ công nghệ lớn nhất thế giới

Từng tuyên bố sẽ mua nhà 50 tỷ trong 3 năm, khối tài sản của Miu Lê ‘khủng’ cỡ nào?

Các tin khác