EMO: Emote Portrait Alive là một khuôn khổ mới cho việc tạo video chân dung biểu cảm, phát triển bởi Linrui Tian, Qi Wang, Bang Zhang, và Liefeng Bo từ Viện Tính toán Thông minh, Nhóm Alibaba. Dự án này cho phép tạo ra video avatar biểu cảm với các biểu cảm khuôn mặt đa dạng và các tư thế đầu khác nhau chỉ từ một ảnh chân dung tham chiếu và âm thanh giọng nói. Giúp tạo nhân vật nói chuyện hoặc hát, với khả năng duy trì nhân dạng nhân vật qua thời gian dài. Đồng thời hỗ trợ nhiều ngôn ngữ cũng như phong cách chân dung khác nhau.
Hệ thống AI EMO là gì?
Bài nghiên cứu về hệ thống AI EMO được đăng tải arXiv, đề cập đến việc hỗ trợ người dùng tạo ra các video sống động (có chuyển động khuôn mặt, tư thế đầu và biểu cảm phù hợp với phần âm thanh được cung cấp).
Không giống như các phương pháp trước đây dựa vào mô hình khuôn mặt 3D hoặc kết hợp các hình dạng để ước tính chuyển động trên khuôn mặt, EMO chuyển đổi trực tiếp dạng sóng âm thanh thành khung hình video. Điều này cho phép nó ghi lại những chuyển động tinh tế và những đặc điểm nhận dạng cụ thể liên quan đến giọng nói tự nhiên.
Theo các thử nghiệm được mô tả trong bài báo, EMO vượt trội đáng kể so với các phương pháp tiên tiến hiện có về các số liệu đo lường chất lượng video, bảo toàn danh tính và tính biểu cảm. Các nhà nghiên cứu cũng đã tiến hành một nghiên cứu về người dùng và nhận thấy video do EMO tạo ra tự nhiên và giàu cảm xúc hơn so với video do các hệ thống khác sản xuất.
Bạn có thể xem một số video demo ở bên dưới
Với một bức ảnh chân dung kèm tệp âm thanh, EMO có thể tự tạo ra video có thời lượng tối đa là 1 phút 30 giây. Điều đáng chú ý là sự chân thực của các video tạo ra bởi EMO, với chuyển động và biểu cảm khuôn mặt hoàn toàn trùng khớp với file âm thanh đầu vào.
Theo chia sẻ, EMO được huấn luyện từ một tập dữ liệu gồm hơn 250 giờ âm thanh từ các bài diễn thuyết, phim ảnh, chương trình truyền hình và buổi hòa nhạc. Do đó, thay vì dựa vào đầu vào hình ảnh như các công cụ AI khác, EMO có thể chuyển đổi trực tiếp dải âm thanh thành các khung hình video. Chính điều này đã giúp EMO nổi bật hơn so với các công cụ AI có tính năng tương tự như D-ID hay Heygen.
Tạo video ca hát thực tế
Ngoài các video hội thoại, EMO còn có thể tạo hoạt ảnh cho các bức chân dung ca hát với hình dạng miệng thích hợp và nét mặt gợi cảm đồng bộ với giọng hát. Hệ thống hỗ trợ tạo video từ hình ảnh với thời lượng tùy ý dựa trên độ dài của âm thanh đầu vào.
Bài báo nêu rõ: “Kết quả thử nghiệm chứng minh rằng EMO có thể tạo ra không chỉ các video thuyết trình thuyết phục mà còn cả video hát theo nhiều phong cách khác nhau, vượt trội đáng kể so với các phương pháp hiện đại nhất về mặt biểu cảm và tính chân thực”.
Nếu xét về độ hoàn thiện, thì D-ID sẽ phải khóc thét vì AI này. Cho những bạn nào chưa biết thì cách sử dụng D-ID như bài viết bên dưới nhé.
Để cập nhật thêm thông tin về EMO: Emote Portrait Alive, hãy truy cập vào https://humanaigc.github.io/emote-portrait-alive/
Không có nhận xét nào:
Đăng nhận xét