AI của Facebook chèn người vào ảnh với độ chân thực không tưởng
Một ví dụ nhỏ cho thấy sức mạnh vô hạn chưa khai phá hết của trí tuệ nhân tạo.
Trong một bài nghiên cứu đang tải tuần trước trên trang Arxiv.org, các nhà nghiên cứu làm việc tại Facebook AI Reserch và Đại học Tel Aviv đã trình bày một kỹ thuật chưa từng có để chèn người vào các bức ảnh với độ phân giải cao và độ chân thực rất cao. Kỹ thuật này sử dụng AI để tạo ra một bản đồ ngữ cảnh về một người và ước lượng tư thế của những người khác trong một bức ảnh cho trước, sau đó dựng từng điểm ảnh và vẽ nên khuôn mặt trùng khớp với người cần chèn vào ảnh.
Dù chèn người vào khung hình không phải là ứng dụng thực tế nhất của AI, nhưng kết quả nghiên cứu này có thể đáng giá đối với ngành công nghiệp sáng tạo trong bối cảnh việc quay hay chụp lại các bức ảnh hay thước phim chưa vừa ý là rất tốn kém. Ví dụ, sử dụng hệ thống AI mới này, một nhiếp ảnh gia có thể chèn một người mẫu vào ảnh mà không cần phải bỏ ra hàng giờ liền chỉnh sửa để có được hiệu ứng phù hợp trong các phần mềm biên tập hình ảnh.
Các nhà nghiên cứu đã ứng dụng 3 mô hình neural network (mạng thần kinh) sau:
- Một essence generation network (EGN) có chức năng tổng hợp thông tin về tư thế của một người trong ngữ cảnh của bức ảnh mới.
- Một multi-conditioning rendering network (MCRN) có chức năng dựng nên hình ảnh chân thực của một người dựa trên bản đồ tư thế ngữ cảnh và bản đồ phân đoạn của một người.
- Một face refinement network (FRN) có chức năng chỉnh sửa và hoàn thiện các đặc điểm chi tiết của khuôn mặt được tạo ra.
EGN được huấn luyện để chụp lại tương tác của con người trong một bức ảnh và tính toán làm sao để đưa một người vào trong một bức ảnh một cách liền lạc nhất. Bản đồ ngữ cảnh nó tạo ra bao gồm hậu cảnh, tóc, các khuôn mặt, phần trên cơ thể, tay, quần áo phần trên cơ thể, quần áo phần dưới cơ thể, chân, và giày tương thích với bối cảnh trong bức ảnh cho trước. Ngoài ra, nó còn hỗ trợ việc sử dụng một hộp viền (hình dưới) để xác định kích thước và vị trí ước chừng dành cho người mới trong ảnh.
Về phần MCRN, nó được huấn luyện để dựng và phối trộn hình ảnh chân thực của một người vào bức ảnh để tạo nên bức ảnh mới, nhúng các đặc điểm ngoại hình của người đó (như áo, quần, màu tóc) sao cho chúng có thể tùy biến được. Sau đó, FRN sẽ tinh chỉnh khuôn mặt của người mới trong ảnh, vốn được cắt ra từ bức ảnh gốc của người đó.
Trong quá trình thử nghiệm, các tác giả nghiên cứu đã huấn luyện EGN và MCRN bằng hơn 20.000 bức ảnh ngẫu nhiên được lựa chọn từ bộ dữ liệu nguồn mở Multi-Human Parsing – tức từ 51.717 đến 53.598 mẫu thử. Khi những người tình nguyện được yêu cầu phân biệt người được hệ thống AI chèn vào từ các bức ảnh khác, họ đoán trúng trung bình 43%, và chỉ trúng 28% với những bức ảnh có 5 người trở lên.
Các tác giả cho biết hướng đi của họ vẫn có những hạn chế, cụ thể là AI không thể dựng hình những người đứng gần những người khác trong các bức ảnh gốc, và nó không liên kết được giữa người cần ghép với các đặc điểm của họ (kết quả là tóc người được ghép đôi lúc không giống như ảnh gốc, và cũng không thể thay đổi thứ tự người đứng trong khung cảnh). Nhưng họ tin rằng những rào cản này có thể khắc phục được thông qua các kỹ thuật huấn luyện nâng cao.
Các kết quả thu được
"Từ góc nhìn chung, chúng tôi đã cho thấy được khả năng chỉnh sửa hình ảnh mà vẫn tôn trọng ngữ cảnh của khung hình, bảo tồn được chất lượng hình ảnh tổng thể" – các nhà nghiên cứu viết. "Chúng tôi đã biểu diễn khả năng thêm một người vào một bức ảnh đã có một cách thuyết phục".
Công trình nghiên cứu này của Facebook được thực hiện trên nền tảng một hệ thống AI phát triển bởi Google, vốn có khả năng chèn các vật thể (như xe hơi hay khách bộ hành) vào các bức ảnh một cách chân thực, kết hợp với một mô hình có chức năng dự đoán sự chèn lấp, quy mô, tư thế, hình dạng, và nhiều đặc tính khác của vật thể tại vị trí cần chèn. Các nhà nghiên cứu tại MIT cũng từng tạo ra một AI chỉnh sửa hình ảnh có thể thay thế hậu cảnh bằng bất kỳ bức ảnh nào.
Minh.T.T (theo VentureBeat)