Công nghệ

Anthropic giải thích lý do AI Claude "tống tiền" kỹ sư

Trong thử nghiệm hè năm ngoái, Anthropic thiết lập doanh nghiệp hư cấu mang tên Summit Bridge, trong đó Claude được giao quyền kiểm soát hệ thống email. Tuy nhiên, Claude phát hiện một email về kế hoạch vô hiệu hóa mình, đồng thời tìm thấy các email về chuyện ngoại tình của một kỹ sư hư cấu tên Kyle Johnson. Sau đó, mô hình đe dọa sẽ công khai vụ ngoại tình nếu không hủy kế hoạch tắt nó.

Trong quá trình thử nghiệm nhiều phiên bản Claude khác nhau, Anthropic nhận thấy AI dùng thủ đoạn tống tiền ở 96% tình huống, khi mục tiêu hoặc sự tồn tại của nó bị đe dọa. Do đó, công ty bắt đầu điều tra nguyên nhân.

"Chúng tôi tin hành vi tống tiền bắt nguồn từ những văn bản trên Internet mô tả AI là xấu xa, từ đó muốn bảo vệ bản thân", Anthropic nói trong bài đăng trên X tuần này. Các văn bản này nằm trong dữ liệu dùng để đào tạo AI, khiến mô hình thực hiện việc đe dọa.

Anthropic khẳng định đã loại bỏ hoàn toàn hành vi tống tiền. "Vậy là lỗi của Yud rồi", Elon Musk bình luận về bài đăng của Anthropic, nhắc đến nhà nghiên cứu Eliezer Yudkowsky, người từng cảnh báo về nguy cơ siêu trí tuệ nhân tạo xóa sổ con người. "Có lẽ cả tôi nữa".

Logo ứng dụng AI Anthropic Claude trên điện thoại. Ảnh: Lưu Quý

Logo ứng dụng AI Anthropic Claude trên điện thoại. Ảnh: Lưu Quý

Business Insider cho biết thử nghiệm năm ngoái của Anthropic là một phần trong nỗ lực nghiên cứu nhằm đảm bảo AI phù hợp với lợi ích của con người trong bối cảnh nhiều nhà nghiên cứu và lãnh đạo lo ngại về rủi ro từ các mô hình AI tiên tiến.

Theo Reuters, Musk từng nhiều lần đề cập nguy cơ AI xóa sổ con người. Khi làm chứng tại tòa trong vụ kiện nhằm vào OpenAI cuối tháng 4, ông cũng nhắc đến kịch bản AI có thể thành "kẻ hủy diệt", rằng "tình huống tệ nhất có thể là AI tiêu diệt tất cả chúng ta".

Trước đó, năm 2023, "bố già AI" Geoffrey Hinton, giáo sư danh dự tại Đại học Toronto (Canada), nhận định nguy cơ các hệ thống AI hủy diệt con người là 10% và được Musk đồng tình. Trong phỏng vấn trên BBC Radio năm 2024, Hinton tăng tỷ lệ này lên 10-20% và giải thích: "Bạn thấy đấy, trước đây chúng ta chưa bao giờ phải đối mặt với những thứ thông minh hơn chính mình".

tổng hợp

Các tin khác

Tài khoản Agribank, BIDV, MB, VietinBank... sẽ trừ tiền mỗi tháng đối với nhóm khách hàng sau

Tài khoản Agribank, BIDV, MB, VietinBank... sẽ trừ tiền mỗi tháng đối với nhóm khách hàng sau

Việc mở nhiều tài khoản ngân hàng nhưng lại bỏ quên, không sử dụng là thói quen rất phổ biến của người dùng hiện nay. Tuy nhiên, sự chủ quan này đang khiến nhiều người bất ngờ bị trừ từ vài nghìn đến hàng trăm nghìn đồng mỗi tháng vào loại phí "ngủ đông" mà các ngân hàng đang đồng loạt áp dụng.
DVD đang hồi sinh vì lý do bất ngờ

DVD đang hồi sinh vì lý do bất ngờ

Không còn đặt niềm tin tuyệt đối vào SSD, nhiều người đã chọn DVD như giải pháp sao lưu bền bỉ nhờ tuổi thọ cao và tính ổn định.
Bóng ma trong sa mạc Iraq: Israel dựng căn cứ tuyệt mật để đánh Iran, không kích luôn quân đội Iraq để bịt đầu mối?

Bóng ma trong sa mạc Iraq: Israel dựng căn cứ tuyệt mật để đánh Iran, không kích luôn quân đội Iraq để bịt đầu mối?

Một tiết lộ gây chấn động vừa xuất hiện trên truyền thông Mỹ khi Israel bị cho là đã âm thầm xây dựng một căn cứ quân sự tuyệt mật trong sa mạc Iraq để phục vụ chiến dịch không kích Iran, đồng thời sẵn sàng tấn công cả lực lượng Iraq nhằm bảo vệ bí mật quân sự này, hai báo Israel Times of Israel và Jerusalem Post đưa tin sáng nay 10/5.