Kỹ thuật tạo video AI "gần như tức thì"

Kỹ thuật TurboDiffusion được tuyên bố có thể tăng tốc độ tạo video bằng AI tới 200 lần so với hiện nay mà không làm giảm chất lượng tổng thể.

TurboDiffusion do nhóm nhà khoa học từ Đại học Thanh Hoa (Trung Quốc), Đại học California ở Berkeley (Mỹ) và công ty AI Shengshu Technology cùng phát triển. Nó có thể giảm thời gian tạo video dài 5 giây ở độ phân giải tiêu chuẩn từ hơn ba phút xuống còn 1,9 giây (tăng tốc gần 100 lần) khi thử nghiệm trên hệ thống chạy bộ xử lý đồ họa GeForce RTX 5090, mẫu GPU dành cho người tiêu dùng cá nhân của Nvidia.

Trong khi đó, nếu sử dụng GPU chuyên dụng hơn, TurboDiffusion có thể tạo video HD (1.280 x 720 pixel) dài 5 giây trong vòng 24 giây, rút ngắn so với mức 80 phút trước đó. Nghĩa là, tốc độ tạo nhanh hơn tới 200 lần.

Minh họa TurboDiffusion. Ảnh: ChatGPT — Minh họa TurboDiffusion. Ảnh: *ChatGPT*

Theo nhóm nghiên cứu, TurboDiffusion hoạt động nhanh nhờ sự đổi mới trong huấn luyện mô hình, đặc biệt là cơ chế Sparse Linear Attention. Trong đó, mô hình AI tập trung vào những phần quan trọng nhất của dữ liệu thay vì xử lý mọi thứ cùng lúc, giúp giảm đáng kể thời gian xử lý và chi phí tính toán. Nó cũng nén các tham số mô hình và hoạt động xuống 8-bit thay vì 16-bit hoặc 32-bit, từ đó giảm tiêu thụ bộ nhớ và tăng tốc tính toán.

Các công cụ AI hiện tạo video chưa nhanh. Chẳng hạn, cùng thời lượng 5 giây, AI của Shengshu mất 3-5 phút, còn Sora của OpenAI cần hơn một phút.

TurboDiffusion là dự án mã nguồn mở hoàn toàn, được công khai thông qua nền tảng dành cho nhà phát triển GitHub. Theo SCMP, kể từ khi OpenAI Sora gây sốt vào tháng 2/2024, các công cụ tạo video từ câu lệnh hoặc hình ảnh đã có sự tiến bộ nhanh chóng. Việc TurboDiffusion ra đời càng cho thấy tốc độ đang được đẩy lên nhanh hơn.

Nhà phân tích Kyon Xu đánh giá, công nghệ video nhanh như TurboDiffusion "đại diện cho sự thay đổi đáng kể trong lĩnh vực phim ảnh", khi AI giờ không còn là "nút thắt cổ chai" trong quy trình sản xuất phim nữa.

"TurboDiffusion báo hiệu sự chuyển đổi từ 'có thể tạo ra' sang 'có thể tạo ngay', mở ra khả năng tạo video thời gian thực bằng AI, áp dụng trên nhiều ngành công nghiệp", đại diện AI Native Foundation, một tổ chức phi lợi nhuận thúc đẩy sự tích hợp toàn diện và công bằng của AI, viết trên X.

Cũng theo tổ chức này, TurboDiffusion sẽ giúp doanh nghiệp "sản xuất video quy mô thương mại với chi phí giảm và tốc độ lặp lại nhanh hơn". Bên cạnh đó, nó cũng cung cấp tiêu chuẩn mã nguồn mở, tiên tiến cho việc tổng hợp video nhanh chóng và chất lượng cao cho giới nghiên cứu, và là công cụ lý tưởng cho nhà phát triển muốn cung cấp ứng dụng tương tác video thời gian thực.

Sự ra đời của AI tạo video như OpenAI Sora, Google Veo, Midjourney, Runway làm bùng nổ xu hướng video giấu mặt. Dù chưa có thống kê, nhiều người trên mạng xã hội Facebook, TikTok, Instagram hay YouTube cho biết "ít nhất một lần tiếp xúc với video AI mỗi ngày". Tuy vậy, đa số được sản xuất vội vàng, kém chất lượng khiến nhiều người lo ngại tình trạng "AI Slop" - những nội dung được tạo rất nhanh, rất rẻ với số lượng lớn, nhưng thiếu chiều sâu, dễ gây phản cảm và đôi khi sai lệch thông tin.

(theo SCMP, PanDaily)