Các nhà nghiên cứu tại Apple vừa công bố một mô hình AI mã nguồn mở mới cho phép người chỉnh sửa hình ảnh bằng cách dùng ngôn ngữ tự nhiên để mô tả những thay đổi thay vì phải sử dụng phần mềm chỉnh sửa ảnh.
Được Apple phối hợp phát triển cùng với Đại học California, Santa Barbara, mô hình có tên MGIE này có khả năng cắt, thay đổi kích thước, lật hình, và thêm bộ lọc cho hình ảnh qua các câu lệnh văn bản.
Là tên viết tắt của "MLLM-Guided Image Editing" (Chỉnh sửa Ảnh Dưới Sự Hướng dẫn của Mô hình Ngôn ngữ Đa phương tiện), MGIE có thể được áp dụng cho cả các thao tác chỉnh sửa ảnh đơn giản lẫn phức tạp như thay đổi hình dạng cụ thể của các đối tượng trong ảnh hoặc làm cho chúng trở nên sáng hơn. Mô hình kết hợp hai khả năng sử dụng khác nhau của những mô hình ngôn ngữ đa phương tiện:
Đầu tiên, nó học cách giải thích các lệnh của người dùng. Sau đó, mô hình "tưởng tượng" xem việc chỉnh sửa sẽ trông như thế nào (ví dụ, yêu cầu bầu trời trong ảnh trở nên xanh hơn sẽ được hiểu là tăng độ sáng cho phần bầu trời trong ảnh).
Khi chỉnh sửa một bức ảnh với MGIE, người dùng chỉ cần gõ ra những gì họ muốn thay đổi về bức hình. Ví dụ để chỉnh sửa ảnh của một chiếc bánh pizza. Khi nhập lệnh "làm cho nó trở nên lành mạnh hơn" sẽ làm bức ảnh thêm rau củ bên trên. Một ví dụ khác là bức ảnh về những con hổ ở Sahara đang bị tối, nhưng sau khi yêu cầu mô hình "tăng thêm sự tương phản để mô phỏng việc thêm ánh sáng," bức ảnh trở nên sáng hơn.
Sự đổi mới này mở ra một kỷ nguyên mới trong lĩnh vực chỉnh sửa ảnh, giúp người dùng dễ dàng tạo ra những bức ảnh theo ý muốn mà không cần phải học cách sử dụng các công cụ phức tạp, góp phần làm cho công nghệ chỉnh sửa ảnh trở nên tiện lợi và dễ tiếp cận hơn bao giờ hết.
Các nhà nghiên cứu cho biết: "Thay vì lời chỉ dẫn ngắn gọn nhưng mơ hồ, MGIE nhận ra ý định rõ ràng có nhận thức về hình ảnh và dẫn đến việc chỉnh sửa ảnh hợp lý. Chúng tôi đã tiến hành nghiên cứu bao quát từ nhiều khía cạnh chỉnh sửa khác nhau và chứng minh rằng mô hình MGIE giúp cải thiện hiệu suất trong khi vẫn duy trì hiệu quả cạnh tranh. Chúng tôi cũng tin rằng framework chỉ dẫn cho MLLM có thể đóng góp cho nghiên cứu liên quan đến thị giác và ngôn ngữ trong tương lai."
Theo báo cáo của VentureBeat, Apple hiện đã đưa MGIE lên GitHub để tải về và cũng phát hành một bản web demo trên nền tảng Hugging Face Spaces. Công ty không tiết lộ kế hoạch của mình cho mô hình này ngoài mục đích nghiên cứu.
Hiện tại trên thế giới đã có nhiều mô hình AI hỗ trợ chỉnh sửa hoặc sản sinh hình ảnh, như DALL-E 3 của OpenAI, Midjourney, Stable Diffusion, … chúng đều có thể thực hiện các tác vụ chỉnh sửa hình ảnh thông qua các câu lệnh văn bản. Adobe, công ty tạo ra phần mềm chỉnh sửa ảnh Photoshop nổi tiếng, cũng có mô hình chỉnh sửa AI của riêng mình. Mô hình Firefly AI của họ cung cấp khả năng điền nội dung, sản sinh ra phông nền cho ảnh.
Không giống như Microsoft, Meta, hoặc Google, hiện Apple chưa phải là một tên tuổi lớn trong lĩnh vực AI tạo sinh, , nhưng CEO của Apple, Tim Cook, đã nói rằng công ty muốn thêm nhiều tính năng AI vào thiết bị của mình trong năm nay. Vào tháng 12, các nhà nghiên cứu của Apple đã phát hành một framework máy học mã nguồn mở có tên MLX để giúp việc huấn luyện các mô hình AI trên chip Apple Silicon trở nên dễ dàng hơn.