Google công bố Lumiere: trình tạo video AI từ văn bản.

-

Vào 23/02/2024, Google Research đã phát hành một bài nghiên cứu về Lumiere, một mô hình chuyển văn bản sang video có thể tạo ra video có độ chân thực cao từ lời nhắc văn bản và các hình ảnh khác. Đây được coi là một trong những mô hình chuyển văn bản thành video tiên tiến nhất hiện tại.

Lumiere là gì?

Cái tên Lumiere dường như là một cái tên ám chỉ anh em nhà Lumiere là hai kỹ sư người Pháp, được coi như những nhà làm phim đầu tiên của lịch sử thế giới. Bộ phim La Sortie des usines Lumière do anh em Lumière thực hiện và công chiếu lần đầu tiên ngày 28 tháng 12 năm 1895 tại quán Salon Indien du Grand Café ở Paris thường được xem như bộ phim đầu tiên của điện ảnh. Cũng giống như phim ảnh là công nghệ tiên tiến vào cuối thế kỷ 19, cái tên Lumiere một lần nữa lại được gắn liền với nó, với một cái gì đó mới và độc đáo đối với ngành công nghiệp điện ảnh.

Bản demo của Lumiere mà Google đưa ra tập trung chủ yếu vào động vật. Mô hình có thể tạo cảnh chỉ bằng văn bản; Giống như cách hoạt động của trình tạo hình ảnh AI, người dùng có thể tưởng tượng ra bất kỳ kịch bản nào mà họ muốn xem trên một đoạn video ngắn.

Tuy nhiên, người dùng cũng có thể sử dụng hình ảnh làm prompt. Google đã cung cấp nhiều ví dụ: bao gồm một số ảnh thật như bức ảnh Giương cờ mang tính biểu tượng của Joe Rosenthal; “Những người lính giương cờ Hoa Kỳ vào một ngày lộng gió” – một trong những bức ảnh dễ nhận biết nhất thế kỷ 20 bất ngờ trở nên sống động khi những người lính vật lộn với lá cờ đang bị ảnh hưởng bởi gió giật.

951px Raising the Flag on Iwo Jima larger edit1

Ngoài ra, trong Lumiere còn có cài đặt “Video Stylization” cho phép người dùng tải lên video nguồn và sau đó yêu cầu mô hình AI tổng hợp thực hiện các thay đổi thành phần khác nhau. Ví dụ, một người đang chạy có thể đột nhiên bị biến thành một món đồ chơi làm bằng những viên gạch nhiều màu sắc.

Một tính năng khác mà Google giới thiệu là “Cinemagraphs”, trong đó chỉ một phần của hình ảnh được làm động trong khi phần còn lại vẫn đứng yên. “Video Inpainting” cũng được thêm vào, bao gồm việc che một phần hình ảnh để phần đó có thể được thay đổi theo mong muốn của người dùng.

Space-Time Diffusion Model là gì?

Lumiere được hỗ trợ bởi “kiến trúc Space-Time U-Net tạo ra toàn bộ thời lượng tạm thời của video cùng một lúc, thông qua một lần truyền trong mô hình”.

Khái niệm khó hiểu này dường như trái ngược với các mô hình video hiện có vốn “tổng hợp các khung hình chính ở xa và theo sau là siêu phân giải theo thời gian – một cách tiếp cận khiến khó đạt được tính nhất quán về thời gian trên toàn cầu”.

Như Ars Technica lưu ý, về cơ bản, điều đó có nghĩa là Lumiere có thể xử lý các phần tử trong video và cách chúng di chuyển đồng thời. Các mô hình chuyển văn bản thành video khác ghép mọi thứ lại với nhau thành các phần hoặc khung nhỏ.

Lumiere chắc chắn có vẻ là một bản nâng cấp từ mô hình Imagen mà Google đã giới thiệu vào năm 2022 nhưng vẫn chưa biết liệu công cụ video AI có được triển khai hay không và khi nào.

Google không nêu rõ dữ liệu đào tạo nào đã được sử dụng cho Lumiere, chỉ nói trong bài báo rằng: “Chúng tôi đào tạo mô hình T2V [chuyển văn bản thành video] của mình trên tập dữ liệu chứa 30 triệu video cùng với chú thích văn bản của chúng. [sic] Video dài 80 khung hình ở tốc độ 16 khung hình/giây (5 giây). Mô hình cơ sở được đào tạo ở kích thước 128×128.”

image 2

So sánh Lumiere với các mô hình khác

Google đã đo hiệu suất của Lumiere với các mô hình phổ biến chuyển văn bản thành video nổi bật khác, bao gồm ImagenVideo, Pika, ZeroScope và Gen2, bằng cách yêu cầu một nhóm người thử nghiệm chọn video mà họ cho là tốt hơn về chất lượng hình ảnh và chuyển động, mà không biết mô hình nào đã tạo ra mỗi video.

Mô hình của Google vượt trội so với các mô hình khác trên tất cả các hạng mục, bao gồm chất lượng chuyển văn bản thành video, căn chỉnh văn bản thành video và chất lượng hình ảnh thành video.

image 1

Tổng kết

Mô hình Lumiere vẫn chưa được ra mắt công chúng. Tuy nhiên, nếu bạn muốn tìm hiểu thêm hoặc xem các mô hình đang hoạt động, bạn có thể truy cập trang web Lumiere, nơi bạn có thể xem nhiều bản demo của mô hình thực hiện các nhiệm vụ khác nhau.

Bài liên quan