Khoa học

Kỹ thuật tạo video AI "gần như tức thì"

TurboDiffusion do nhóm nhà khoa học từ Đại học Thanh Hoa (Trung Quốc), Đại học California ở Berkeley (Mỹ) và công ty AI Shengshu Technology cùng phát triển. Nó có thể giảm thời gian tạo video dài 5 giây ở độ phân giải tiêu chuẩn từ hơn ba phút xuống còn 1,9 giây (tăng tốc gần 100 lần) khi thử nghiệm trên hệ thống chạy bộ xử lý đồ họa GeForce RTX 5090, mẫu GPU dành cho người tiêu dùng cá nhân của Nvidia.

Trong khi đó, nếu sử dụng GPU chuyên dụng hơn, TurboDiffusion có thể tạo video HD (1.280 x 720 pixel) dài 5 giây trong vòng 24 giây, rút ngắn so với mức 80 phút trước đó. Nghĩa là, tốc độ tạo nhanh hơn tới 200 lần.

Minh họa TurboDiffusion. Ảnh: ChatGPT

Minh họa TurboDiffusion. Ảnh: ChatGPT

Theo nhóm nghiên cứu, TurboDiffusion hoạt động nhanh nhờ sự đổi mới trong huấn luyện mô hình, đặc biệt là cơ chế Sparse Linear Attention. Trong đó, mô hình AI tập trung vào những phần quan trọng nhất của dữ liệu thay vì xử lý mọi thứ cùng lúc, giúp giảm đáng kể thời gian xử lý và chi phí tính toán. Nó cũng nén các tham số mô hình và hoạt động xuống 8-bit thay vì 16-bit hoặc 32-bit, từ đó giảm tiêu thụ bộ nhớ và tăng tốc tính toán.

Các công cụ AI hiện tạo video chưa nhanh. Chẳng hạn, cùng thời lượng 5 giây, AI của Shengshu mất 3-5 phút, còn Sora của OpenAI cần hơn một phút.

TurboDiffusion là dự án mã nguồn mở hoàn toàn, được công khai thông qua nền tảng dành cho nhà phát triển GitHub. Theo SCMP, kể từ khi OpenAI Sora gây sốt vào tháng 2/2024, các công cụ tạo video từ câu lệnh hoặc hình ảnh đã có sự tiến bộ nhanh chóng. Việc TurboDiffusion ra đời càng cho thấy tốc độ đang được đẩy lên nhanh hơn.

Nhà phân tích Kyon Xu đánh giá, công nghệ video nhanh như TurboDiffusion "đại diện cho sự thay đổi đáng kể trong lĩnh vực phim ảnh", khi AI giờ không còn là "nút thắt cổ chai" trong quy trình sản xuất phim nữa.

"TurboDiffusion báo hiệu sự chuyển đổi từ 'có thể tạo ra' sang 'có thể tạo ngay', mở ra khả năng tạo video thời gian thực bằng AI, áp dụng trên nhiều ngành công nghiệp", đại diện AI Native Foundation, một tổ chức phi lợi nhuận thúc đẩy sự tích hợp toàn diện và công bằng của AI, viết trên X.

Cũng theo tổ chức này, TurboDiffusion sẽ giúp doanh nghiệp "sản xuất video quy mô thương mại với chi phí giảm và tốc độ lặp lại nhanh hơn". Bên cạnh đó, nó cũng cung cấp tiêu chuẩn mã nguồn mở, tiên tiến cho việc tổng hợp video nhanh chóng và chất lượng cao cho giới nghiên cứu, và là công cụ lý tưởng cho nhà phát triển muốn cung cấp ứng dụng tương tác video thời gian thực.

Sự ra đời của AI tạo video như OpenAI Sora, Google Veo, Midjourney, Runway làm bùng nổ xu hướng video giấu mặt. Dù chưa có thống kê, nhiều người trên mạng xã hội Facebook, TikTok, Instagram hay YouTube cho biết "ít nhất một lần tiếp xúc với video AI mỗi ngày". Tuy vậy, đa số được sản xuất vội vàng, kém chất lượng khiến nhiều người lo ngại tình trạng "AI Slop" - những nội dung được tạo rất nhanh, rất rẻ với số lượng lớn, nhưng thiếu chiều sâu, dễ gây phản cảm và đôi khi sai lệch thông tin.

(theo SCMP, PanDaily)

Các tin khác

Sở hữu công nghệ tối tân, chi hàng tỷ USD, Mỹ vẫn lúng túng vì đi sau Nga đến 30 năm trong một lĩnh vực

Sở hữu công nghệ tối tân, chi hàng tỷ USD, Mỹ vẫn lúng túng vì đi sau Nga đến 30 năm trong một lĩnh vực

Trong khi Nga không ngừng mở rộng đội tàu phá băng, Mỹ đang xoay xở giữa vòng xoáy ngân sách phình to và chậm tiến độ. Việc phải trông cậy vào công nghệ Phần Lan, hay thậm chí là nhập khẩu tàu, cho thấy Mỹ đang tụt hậu về công nghệ phá băng, còn Nga vẫn giữ lợi thế vượt trội ở Bắc Cực.
Zalo bị kêu gọi tẩy chay: Người dùng lo ngại bị biến thành “con tin số”

Zalo bị kêu gọi tẩy chay: Người dùng lo ngại bị biến thành “con tin số”

Làn sóng kêu gọi tẩy chay Zalo lan rộng khi nền tảng này áp dụng điều khoản dịch vụ mới với lựa chọn duy nhất là “đồng ý hoặc ngừng sử dụng”. Nhiều người dùng cho rằng, cách làm này mang tính áp đặt, họ bị đặt vào thế bị động, thiếu lựa chọn và lo ngại quyền riêng tư, dữ liệu cá nhân bị xâm phạm.