Trong bài báo mới Dreamix: Video Diffusion Models Are General Video Editors , một nhóm nghiên cứu từ Google Research và Đại học Hebrew ở Jerusalem trình bày Dreamix, một phương pháp mới sử dụng mô hình khuếch tán video (VDM) để kích hoạt chuyển động dựa trên văn bản và hình ảnh và chỉnh sửa video xuất hiện.
>>> Xem thêm: 10 lỗi thường gặp khi sử dụng ChatGPT và cách khắc phục
Dreamix – AI tạo video từ hình ảnh và văn bản
Nhóm tóm tắt những nghiên cưu chính của họ như sau:
- Đề xuất phương pháp đầu tiên để chỉnh sửa chuyển động và giao diện dựa trên văn bản chung của các video trong thế giới thực.
- Đề xuất một mô hình tinh chỉnh hỗn hợp mới giúp cải thiện đáng kể chất lượng chỉnh sửa chuyển động.
- Trình bày một khuôn khổ mới cho hình ảnh hoạt hình có hướng dẫn bằng văn bản, bằng cách áp dụng phương pháp biên tập video của chúng tôi trên các hoạt động tiền xử lý hình ảnh đơn giản.
- Thể hiện khả năng tạo video theo chủ đề từ một bộ sưu tập hình ảnh, tận dụng phương pháp tinh chỉnh mới lạ của nhóm.
Dreamix được đề xuất là một phương pháp phổ biến video có hướng dẫn bằng văn bản cho phép chỉnh sửa hình ảnh và chuyển động của video bằng văn bản trong khi vẫn duy trì độ mượt mà của video. Trước tiên, Dreamix làm video bằng cách lấy mẫu đầu vào và bổ sung nhiễu Gaussian. Sau đó, VDM sử dụng các chi tiết có độ phân giải thấp trong video đầu vào để tổng hợp thông tin nâng cấp video để tạo ra những hình ảnh mà người dùng yêu cầu.
>>> Xem thêm: Cách đặt câu hỏi với ChatGPT để đạt hiệu quả cao nhất
Ngoài việc chỉnh sửa các video hiện có, Dreamix cũng có thể tạo các video mới. Google hiển thị hai ứng dụng: Tổng hợp video từ một hình ảnh duy nhất trước tiên tạo ra các hình ảnh bổ sung bằng cách thực hiện các thay đổi nhỏ, chẳng hạn như tư thế của đối tượng, sau đó áp dụng chúng cho mô hình video.
Ngoài ra, Dreamix cũng có thể tạo các video tập trung vào chủ đề, trong đó nhiều hình ảnh, chẳng hạn như hình đồ chơi được sử dụng để tạo video trong đó hình trò chơi nâng tạ.
Chỉnh video từ văn bản:
Đưa ra một video và lời nhắc văn bản, Dreamix chỉnh sửa video trong khi vẫn duy trì độ trung thực của màu sắc, tư thế, kích thước đối tượng và tư thế máy ảnh, dẫn đến video nhất quán về mặt thời gian. Ở đây, Dreamix biến con khỉ đang ăn (bên trái) thành một con gấu đang nhảy múa (bên phải) với lời nhắc “Một con gấu nhảy múa và nhảy theo điệu nhạc sôi động, chuyển động toàn thân”.
Cần tham khảo thêm chi tiết vui lòng truy cập website:trang dự án Dreamix