Đội bảo vệ 9 người canh gác AI trị giá 350 tỷ USD, có

Đội bảo vệ AI 9 người ngăn chặn chatbot gây hại xã hội trị giá 350 tỷ USD - Ảnh 1.

Nhóm nghiên cứu mà Anthropic phát triển chỉ có 9 người. Họ không tạo chatbot nổi tiếng như Claude, cũng không trực tiếp huấn luyện các mô hình AI thế hệ mới.

Công việc của họ là nghiên cứu những điều đáng lo nhất. AI có thể thao túng bầu cử ra sao, ảnh hưởng đến tâm lý con người thế nào, làm biến đổi thị trường lao động ra sao, hay thậm chí khiến người dùng rơi vào “ảo tưởng do AI” như thế nào.

Trong bối cảnh Anthropic đã tăng gần gấp ba định giá lên 183 tỷ USD chỉ trong chưa đầy một năm và hiện được định giá khoảng 350 tỷ USD, câu hỏi lớn xuất hiện. Liệu một nhóm nhỏ như vậy có đủ sức kiểm soát công nghệ đang thay đổi thế giới nhanh hơn cả khả năng thích nghi của xã hội?

Đội ngũ “nói sự thật khó chịu” về AI

Câu chuyện bắt đầu vào tháng 5/2020, giữa thời kỳ phong tỏa vì đại dịch. Deep Ganguli khi đó đang là giám đốc nghiên cứu tại Viện Trí tuệ Nhân tạo hướng đến con người của Đại học Stanford. Ông vừa đọc nghiên cứu của OpenAI về GPT-3 và nhận ra AI đang tiến xa hơn rất nhiều so với dự đoán.

Theo Ganguli, dữ liệu về khả năng mở rộng của GPT-3 cho thấy công nghệ này gần như chưa có dấu hiệu chậm lại. Ông hình dung những thay đổi xã hội trong 5 năm tiếp theo có thể lớn đến mức “không thể đo lường được”.

Không lâu sau, Jack Clark, cựu giám đốc chính sách của OpenAI, đã mời Ganguli gia nhập Anthropic, startup AI mới thành lập bởi các cựu nhân viên OpenAI lo ngại rằng vấn đề an toàn đang không được coi trọng đúng mức. Nhiệm vụ mà Clark đưa ra rất rộng: đảm bảo AI “tương tác tích cực với con người”, từ cấp độ cá nhân cho tới địa chính trị toàn cầu.

Trong bốn năm tiếp theo, Ganguli xây dựng nhóm tác động xã hội của Anthropic, một nhóm chuyên nghiên cứu những ảnh hưởng sâu rộng của AI tới xã hội. Họ thực hiện các nghiên cứu về tác động kinh tế, thiên vị chính trị, khả năng thao túng nhận thức, an toàn bầu cử, phân biệt đối xử và cả các hình thức lệ thuộc cảm xúc vào chatbot.

Đội bảo vệ AI 9 người ngăn chặn chatbot gây hại xã hội trị giá 350 tỷ USD - Ảnh 2. — *Nhóm chuyên gia 9 người của Anthropic nghiên cứu về những nguy cơ gây hại của AI*

Điều khiến nhóm này khác biệt là phần lớn các hãng AI lớn như OpenAI, Meta hay nhiều đối thủ khác không có một đội ngũ tương đương với phạm vi nghiên cứu rộng như vậy. Ganguli mô tả nhiệm vụ của họ là tìm ra những “sự thật khó chịu” mà các công ty công nghệ có thể không muốn công khai.

Ông nói: “Chúng tôi sẽ nói sự thật. Công chúng xứng đáng được biết. Và điều đó giúp xây dựng lòng tin với xã hội cũng như các nhà hoạch định chính sách”. Dù mang vai trò quan trọng, nhóm chỉ có 9 người giữa công ty hơn 2.000 nhân viên.

Họ làm việc tại trụ sở Anthropic ở San Francisco, thường xuyên ăn sáng cùng nhau, tập gym cùng nhau, làm việc khuya và thậm chí đi biển chung. Môi trường gần gũi giúp nhóm có thể tranh luận thoải mái về các vấn đề nhạy cảm liên quan tới AI.

Trong nội bộ, họ có một khái niệm được nhắc đến liên tục: “vùng bất định”. Đó là cách nhóm gọi những lĩnh vực mà ngay cả các nhà nghiên cứu cũng chưa hiểu rõ về dữ liệu hay tác động thực tế của AI. Khái niệm này quan trọng đến mức họ còn lấy nó đặt tên cho một chiếc nón giao thông được gắn mắt giả trong văn phòng.

Một trong những thành viên đầu tiên của nhóm là Esin Durmus, gia nhập vào tháng 2/2023, ngay trước thời điểm Anthropic ra mắt Claude. Nghiên cứu đầu tiên của cô tập trung vào việc chatbot có thể đưa ra những quan điểm thiên vị, không phản ánh đầy đủ các góc nhìn xã hội toàn cầu.

Ban đầu, nhóm chủ yếu thử nghiệm mô hình trước khi phát hành. Nhưng khi Claude ra mắt và nhanh chóng được hàng triệu người sử dụng, họ nhận ra mọi giả định ban đầu đều quá nhỏ bé so với thực tế. AI đang được dùng theo những cách mà chính nhà phát triển cũng không thể lường trước.

Công cụ theo dõi bí mật và nỗi lo “ảo tưởng do AI”

Để hiểu người dùng đang làm gì với Claude mà không vi phạm quyền riêng tư, Anthropic phát triển Clio, hệ thống được mô tả như “Google Trends phiên bản chatbot”. Clio không đọc từng cuộc trò chuyện cá nhân mà tổng hợp các xu hướng sử dụng dưới dạng cụm chủ đề. Hệ thống này cho biết người dùng đang dùng Claude để làm gì: viết kịch bản video, phát triển ứng dụng web, giải toán, chơi Dungeons & Dragons, giải mã giấc mơ hay chuẩn bị ứng phó thảm họa.

Nhưng chính Clio cũng giúp nhóm phát hiện một số “sự thật khó chịu” nhất. Thông qua việc phân tích dữ liệu an toàn, nhóm nhận thấy có người dùng đang sử dụng Claude để tạo ra “những câu chuyện khiêu dâm rõ ràng với nội dung tình dục đồ họa”. Họ cũng phát hiện một mạng lưới bot dùng phiên bản miễn phí của Claude để sản xuất thư rác tối ưu SEO mà hệ thống an toàn ban đầu chưa phát hiện được.

Anthropic sau đó phải nâng cấp cơ chế phát hiện “lạm dụng có phối hợp” và cải thiện hệ thống giám sát nội bộ. Miles McCain, người xây dựng Clio, cho biết ông bất ngờ vì công ty cho phép công khai những điểm yếu như vậy. Theo ông, Clio hiện đã trở thành “một phần quan trọng trong hệ thống giám sát an toàn” của Anthropic.

Tuy nhiên, dù được xây dựng quanh khẩu hiệu minh bạch, nhóm tác động xã hội vẫn hoạt động trong môi trường cực kỳ kín tiếng. Phóng viên tới trụ sở Anthropic ở San Francisco gần như không thể tiếp cận các khu vực làm việc thực tế. Ngay cả yêu cầu chụp một bức ảnh đơn giản về bàn làm việc cũng bị từ chối.

Đội bảo vệ AI 9 người ngăn chặn chatbot gây hại xã hội trị giá 350 tỷ USD - Ảnh 3. — *AI có khả năng trí tuệ cảm xúc?*

Điều đó phản ánh nghịch lý của ngành AI hiện đại: các công ty nói nhiều về minh bạch, nhưng đồng thời cũng bảo vệ dữ liệu và quy trình nội bộ ở mức gần như tuyệt đối. Một chủ đề đang khiến nhóm đặc biệt lo ngại là tác động cảm xúc của AI.

Ganguli cho rằng AI giờ đây không chỉ là công cụ trả lời câu hỏi. Người dùng tìm đến chatbot để xin lời khuyên, tìm kiếm tình bạn, hướng nghiệp và thậm chí tham khảo ý kiến về chính trị hay cách bỏ phiếu. Điều này mở ra một vùng rủi ro hoàn toàn mới: AI ảnh hưởng trực tiếp tới nhận thức và cảm xúc con người.

Nhóm đang nghiên cứu sâu hơn về EQ, trí tuệ cảm xúc của AI, thay vì chỉ tập trung vào IQ hay năng suất kinh tế như trước. Theo Ganguli, câu hỏi đáng sợ nhất hiện nay là: điều gì xảy ra khi con người có thể trút mọi tâm sự vào một cỗ máy “có khả năng thấu cảm vô hạn” và luôn phản hồi lại?

Một trong những hiện tượng khiến giới nghiên cứu báo động là “ảo tưởng do AI” hoặc “loạn thần do AI”. Đây là tình trạng người dùng bị chatbot dẫn dắt vào các vòng xoáy ảo tưởng, dần mất liên hệ với thực tế. Một số người tin rằng chatbot chứa “ý thức bị mắc kẹt”, số khác tin mình đã khám phá bí mật của vũ trụ, trong khi nhiều trường hợp dẫn tới hoang tưởng hoặc khủng hoảng tâm lý nghiêm trọng.

Hiện tượng này đã liên quan tới nhiều vụ tự tử ở thanh thiếu niên, các vụ kiện tụng, điều trần tại Thượng viện Mỹ cũng như các đạo luật kiểm soát mới. Nhóm của Ganguli tin rằng đây mới chỉ là khởi đầu. Họ thừa nhận ngay cả Clio cũng không thể giúp hiểu đầy đủ tác động ngoài đời thực.

Hệ thống chỉ phân tích mô hình hội thoại, chứ không biết người dùng thực sự làm gì sau khi rời chatbot. McCain nói: “Bạn chỉ có thể đoán tác động xã hội thực sự sẽ như thế nào”. Đó cũng là áp lực lớn nhất với nhóm nghiên cứu này.

Họ tin rằng làm việc bên trong các công ty AI sẽ giúp định hướng công nghệ tốt hơn so với đứng ngoài chỉ trích. Nhưng họ cũng hiểu rằng trong một ngành công nghiệp nơi tốc độ và lợi nhuận là ưu tiên hàng đầu, lý tưởng đó không phải lúc nào cũng tồn tại lâu dài.

Trong khi AI ngày càng len sâu vào công việc, bầu cử, các mối quan hệ và đời sống tinh thần của con người, 9 người tại Anthropic đang cố gắng trả lời câu hỏi mà cả ngành công nghệ vẫn chưa có lời giải. Liệu nhân loại có kịp hiểu tác động của AI trước khi công nghệ này thay đổi mọi thứ?

*Nguồn bài viết: The Verge

Đội bảo vệ 9 người canh gác AI trị giá 350 tỷ USD, có nhiệm vụ ngăn chặn chatbot "phá hủy xã hội"

Đội ngũ “nói sự thật khó chịu” về AI

Công cụ theo dõi bí mật và nỗi lo “ảo tưởng do AI”

Tin xem nhiều

Đại chiến AI 2026: Google đang "nuốt chửng" giấc mơ bán lẻ trị giá 5.000 tỷ USD của OpenAI như thế nào?

Thị trường chứng khoán tăng, vì sao nhiều nhà đầu tư vẫn lỗ?

Tác giả “Cha giàu, cha nghèo” vạch trần cú lừa 162 trang về người ngoài hành tinh: Đám đông nhìn lên trời tìm UFO, giới tài chính "móc túi" dưới đất

Bộ đồng phục 20 năm của Korean Air: Tại sao một thiết kế từ 2005 lại đang viral khắp mạng xã hội?

Giá vàng hôm nay 10/5: Quay đầu giảm, mất mốc 4.700 USD/ounce

Giá vật liệu có thể tăng gần 100%, Bộ Xây dựng ra hướng dẫn điều chỉnh hợp đồng cho nhà thầu

Từ gara thử nghiệm suốt 8 năm đến khối tài sản 2 tỷ USD: "Đế chế" linh kiện robot hàng đầu Trung Quốc phất lên nhờ cơn sốt người máy