Lược dịch từ bài viết của biên tập viên kỳ cựu cho trang MIT Technology Review, anh Will Douglas Heaven.
Mười ba năm về trước, khi làm bài tập về nhà môn báo chí, tôi viết một mẩu truyện ngắn ngốc nghếch về một người đàn ông đam mê thức ăn mèo hạng sang. Sáng nay, tôi ngồi đây quan sát nền tảng AI tạo sinh có tên Lore Machine thổi sức sống vào tác phẩm xưa cũ của mình.
Tôi đưa truyện của mình vào khung nhập văn bản, và nhận về thông điệp: “Chúng tôi đang xác định cảnh trí, địa điểm, nhân vật và cả cảm xúc. Quá trình này có thể mất tới 2 phút”. Lore Machine phân tích văn bản, trích xuất mô tả nhân vật và cảnh trí được nhắc đến, và rồi đưa thông tin vào một mô hình AI sinh ảnh.
Một storyboard hiển thị lên màn hình. Tôi đọc từng trang truyện tranh mô tả những nhân vật mà dường như tôi đã quên từ lâu, tim tôi đập mạnh từng hồi.
Sau hơn một năm phát triển, nay Lore Machine nay đã ra mắt công chúng lần đầu tiên. Với giá 10 USD mỗi tháng, bạn có thể sử dụng dịch vụ để xử lý 100.000 từ (tối đa 30.000/lần) và tạo ra 80 hình ảnh cho truyện ngắn, kịch bản, bản ghi chép nội dung podcast và nhiều hơn nữa.
Bên cạnh đó cũng có các mức giá dành cho người dùng có yêu cầu cao, bao gồm gói doanh nghiệp giá 160 USD/tháng, xử lý được tới 2,24 triệu từ và tạo ra được 1.792 hình ảnh. Các hình minh họa có trong một loạt các phong cách được thiết lập sẵn, từ manga, màu nước cho đến chương trình truyền hình mang phong cách của thập niên 80.
Zac Ryder, nhà sáng lập của công ty sáng tạo Modern Arts, đã là khách hàng trung thành của Lore Machine từ những ngày thử nghiệm đầu tiên. Ryder ấn tượng mạnh ngay tại thời điểm Thobey Campion, người sáng lập dự án, lần đầu tiên phô diễn khả năng ưu việt của Lore Machine.
Ryder đã thử gửi vào hệ thống kịch bản cho một bộ phim ngắn, và chỉ sau một đêm, Lore Machine đã biến được nó thành một cuốn tiểu thuyết dạng truyện tranh dài 16 trang.
"Tôi nhớ Thobey đã cho mọi người xem màn hình của anh, và tất cả chúng tôi kinh ngạc tột độ", Ryder nói. "Không phải chỉ về khía cạnh tạo hình ảnh của nó mà còn ở khả năng dẫn truyện: từ mạch truyện cho tới cảm xúc nhân vật, mọi thứ đều chính xác ngay từ đầu”.
Modern Arts hiện đang sử dụng Lore Machine để phát triển một vũ trụ hư cấu cho truyện manga, một tác phẩm dựa trên kịch bản sáng tác bởi tác giả series Love, Death & Robots nổi tiếng trên Netflix.
Động cơ của Lore Machine cấu thành từ những linh kiện quen thuộc: một mô hình ngôn ngữ lớn (LLM) quét văn bản, xác định nội dung mô tả nhân vật, địa điểm và cảm xúc chúng mang lại, song hành với LLM là một phiên bản Stable Diffusion có khả năng sản sinh hình ảnh. Nhưng thứ khiến Lore Machine khác biệt nằm ở việc nó dễ dùng ra sao. Thao tác tải truyện lên và tải storyboard xuống chỉ mất vài cú click chuột.
Lore Machine là một ví dụ điển hình của làn sóng công cụ mới, thân thiện với người dùng và ẩn giấu sức mạnh đáng kinh ngạc của các mô hình sinh sản phía sau một giao diện web đơn giản.
"Việc cập nhật với các công cụ AI mới mất rất nhiều công sức, và giao diện cũng như quy trình làm việc cho mỗi công cụ đều khác nhau", Ben Palmer, CEO của công ty sáng tạo nội dung New Computer Corporation, nói. "Khả năng sử dụng một công cụ lớn với một giao diện UI nhất quán vô cùng hấp dẫn. Tôi cảm thấy đây chính là bến đỗ của mà ngành công nghiệp [trí tuệ nhân tạo]".
Không còn bóng dáng prompt
Lore Machine không phải dự án đầu tiên của Campion. CEO trẻ từng theo đuổi ước mơ thành lập một phiên bản Wikipedia trên nền blockchain, tuy nhiên anh đã đổi ý định khi thấy công chúng hào hứng đón làn sóng AI tạo sinh. Ban đầu, Campion đã thử dùng Midjourney để biến một bài thơ kinh điển trong văn học Anh thành truyện tranh.
Tuy thành phẩm cuối cùng có viral, nhưng quy trình thực hiện nó không để lại ấn tượng tốt cho Campion.
"Vợ tôi ghét dự án đó", Campion nói. "Tôi thức đến tận bốn giờ sáng chỉ để cố gắng tạo ra những hình ảnh vừa ý". Với Midjourney, người dùng phải tạo từng ảnh một, nên khi làm nhiều ảnh đơn lẻ với nhiều prompt khác nhau, nét vẽ sẽ không nhất quán xuyên suốt các phân cảnh.
Trải nghiệm làm truyện tranh với Midjourney khiến Campion thấy rằng công nghệ này cần thân thiện với người dùng hơn nữa. Campion không tiết lộ bí quyết giúp truyện tranh do Lore Machine tạo ra được nhất quán.
Còn kết quả tôi có được cũng tốt, nhưng không hoàn hảo: có một phân cảnh nhân vật tóc ngắn tự nhiên mọc thêm tóc mái, lại có một phân cảnh mà nhân vật xuất hiện tới hai lần.
Nét vẽ dần dà cũng trở nên chung chung. Tôi thất vọng khi thấy một nhân vật được mô tả là “có răng như đậu cúc”, một nhân vật có “tay trắng như bánh mì ngâm chất tẩy” không được thể hiện rõ ràng. Tuy nhiên, khi so với việc phải làm từng khung truyện một cách thủ công, Lore Machine thực sự là một bước tiến lớn.
“Khả năng nhất quán đáng nể đấy”, Zac Ryder nhận định. Công ty Modern Arts của Ryder đã đang dùng Lore Machine để bán hàng cho khách, phải công nhận Ryder cũng đáng nể khi đặt niềm tin lớn vào một hệ thống mới như Lore Machine.
“Nếu như chúng tôi phải tự sửa để giúp các hình ảnh thành phẩm được nhất quán, chắc chắn chúng tôi đã không thể trả bài đúng hẹn cho khách”, Ryder nói.
Giống như tất cả các mô hình AI tạo sinh khác, công nghệ đằng sau Lore Machine có thể tạo ra nội dung độc hại theo yêu cầu. Campion đã ngăn chặn việc tạo ra nội dung bạo lực hoặc có tính chất thù địch. Ngoài ra, anh cũng không muốn hạn chế sự sáng tạo của người dùng. Chẳng hạn như cho phép người dùng Lore Machine tạo ra hình minh họa giống người nổi tiếng để đưa vào truyện tranh của mình.
Trong giai đoạn đầu, Lore Machine thu hút sự chú ý từ các công ty marketing. Nhưng Campion hy vọng rằng việc phát hành công khai sẽ khuyến khích một lượng người dùng rộng lớn hơn thử nghiệm nó.
Sáu tháng trước, anh ấy nói, anh ấy đã nhận được cuộc gọi từ hiệu trưởng của một trường học ở Manhattan dành cho trẻ em mắc chứng khó học. Hiệu trưởng muốn Lore Machine đọc sách giáo khoa và tạo ra hình ảnh cho các em nhỏ dễ học.
"Tôi thậm chí còn chưa từng nghĩ đến khả năng đó. Tôi quá mắc kẹt trong tư duy Hollywood", Campion nói.