Startup Stability AI tiếp tục hoàn thiện các mô hình generative AI của mình trước sự cạnh tranh ngày càng tăng — và những thách thức về mặt đạo đức.
Hôm nay, Stability AI đã công bố ra mắt Stable Diffusion XL 1.0, một mô hình chuyển văn bản thành hình ảnh (text to image) mà công ty mô tả là bản phát hành “tiến bộ nhất” cho đến nay. Stable Diffusion XL 1.0 mang đến màu sắc “rực rỡ hơn” và “chính xác” cũng như độ tương phản, đổ bóng và ánh sáng tốt hơn so với phiên bản tiền nhiệm.

Joe Penna, người đứng đầu bộ phận Machine learning ứng dụng của Stability AI cho biết Stable Diffusion XL 1.0, chứa 3,5 tỷ tham số (parameters), có thể mang lại hình ảnh có độ phân giải 1 megapixel đầy đủ “chỉ trong vài giây” ở nhiều tỷ lệ khung hình. “Tham số” là các phần của mô hình được học từ dữ liệu huấn luyện và về cơ bản xác định kỹ năng của mô hình đối với một vấn đề, trong trường hợp này là tạo ra hình ảnh.
Mô hình Stable Diffusion trước đó, rồi phiên bản Stable Diffusion XL 0.9, cũng có thể tạo ra hình ảnh có độ phân giải cao hơn, nhưng yêu cầu nhiều khả năng điện toán hơn.
Penna cho biết: “Stable Diffusion XL 1.0 có thể tùy chỉnh, sẵn sàng để tinh chỉnh các khái niệm và phong cách. Nó cũng dễ sử dụng hơn, tạo được các thiết kế phức tạp với lời nhắc xử lý ngôn ngữ tự nhiên cơ bản.”
Ngoài ra, Stable Diffusion XL 1.0 còn được cải thiện trong lĩnh vực tạo văn bản. Penna cho biết, trong khi nhiều mô hình text-to-image tốt nhất gặp khó khăn trong việc tạo ra hình ảnh có logo dễ đọc, ít thư pháp hoặc phông chữ hơn, thì Stable Diffusion XL 1.0 có khả năng tạo văn bản “nâng cao” và dễ đọc.
Theo báo cáo của SiliconAngle và VentureBeat, Stable Diffusion XL 1.0 hỗ trợ inpainting (tái tạo lại các phần còn thiếu của hình ảnh), outpainting (mở rộng hình ảnh hiện có) và prompt “từ hình ảnh đến hình ảnh” (image-to-image) — nghĩa là người dùng có thể nhập hình ảnh và thêm một số lời nhắc văn bản để tạo các biến thể chi tiết hơn của hình ảnh đó. Ngoài ra, mô hình hiểu các hướng dẫn phức tạp, gồm nhiều phần được đưa ra trong các prompt ngắn, trong khi các mô hình Stable Diffusion trước đó cần các prompt dài hơn hơn.
Ông nói thêm: “Chúng tôi mong rằng qua việc phát hành mô hình nguồn mở mạnh mẽ hơn này, độ phân giải của hình ảnh sẽ không phải là thứ duy nhất tăng gấp bốn lần mà còn là những tiến bộ sẽ mang lại lợi ích to lớn cho tất cả người dùng”.
Nhưng cũng giống như các phiên bản trước của Stable Diffusion, mô hình này làm nảy sinh các vấn đề đạo đức nghiêm trọng.

Về lý thuyết, phiên bản mã nguồn mở của Stable Diffusion XL 1.0 có thể bị kẻ xấu sử dụng để tạo ra nội dung độc hại hoặc có hại, chẳng hạn như deepfakes không có sự đồng ý từ ‘người bị hại’. Đó là một phần phản ánh dữ liệu được sử dụng để huấn luyện nó: hàng triệu hình ảnh từ khắp nơi trên web.
Vô số hướng dẫn minh họa cách sử dụng các công cụ riêng của Stability AI, bao gồm DreamStudio, giao diện người dùng mã nguồn mở cho Stable Diffusion, để tạo deepfakes. Vô số người khác chỉ ra cách tinh chỉnh các mô hình Stable Diffusion cơ bản để tạo nội dung khiêu dâm.
Penna không phủ nhận rằng có thể xảy ra lạm dụng — và thừa nhận rằng mô hình này cũng có những thành kiến nhất định. Tuy nhiên, ông nói thêm rằng Stability AI đã thực hiện “các bước bổ sung” để giảm thiểu việc tạo nội dung có hại bằng cách lọc dữ liệu đào tạo của mô hình để tìm hình ảnh “không an toàn”, đưa ra các cảnh báo mới liên quan đến lời nhắc có vấn đề và chặn càng nhiều thuật ngữ có vấn đề trong công cụ càng tốt.
Bộ đào tạo của Stable Diffusion XL 1.0 cũng bao gồm tác phẩm nghệ thuật của các nghệ sĩ đã phản đối các công ty, trong đó có Stability AI sử dụng tác phẩm của họ làm dữ liệu đào tạo cho các mô hình Generative AI. Stability AI tuyên bố rằng nó được bảo vệ khỏi trách nhiệm pháp lý theo học thuyết sử dụng hợp lý, ít nhất là ở Mỹ. Nhưng điều đó không ngăn được một số nghệ sĩ và công ty lưu ảnh Getty Images đệ đơn kiện để ngăn chặn hoạt động này.
Stability AI, có quan hệ đối tác với công ty khởi nghiệp Spawning để tôn trọng các yêu cầu “chọn không tham gia” từ các nghệ sĩ này, nói rằng họ chưa xóa tất cả các tác phẩm nghệ thuật bị gắn cờ khỏi bộ dữ liệu đào tạo của mình nhưng nó “tiếp tục kết hợp các yêu cầu của các nghệ sĩ”.
Penna cho biết: “Chúng tôi không ngừng cải thiện chức năng an toàn của Stable Diffusion và nghiêm túc trong việc tiếp tục lặp lại các biện pháp này. Hơn nữa, chúng tôi cam kết tôn trọng các yêu cầu của nghệ sĩ về việc xóa khỏi tập dữ liệu đào tạo.”
Cùng với việc phát hành Stable Diffusion XL 1.0, Stability AI sẽ phát hành một tính năng tinh chỉnh trong bản beta cho API của mình, tính năng này sẽ cho phép người dùng sử dụng tối thiểu năm hình ảnh để “chuyên môn hóa” việc tạo cho những người, sản phẩm cụ thể… Công ty cũng đang đưa Stable Diffusion XL 1.0 lên Bedrock, nền tảng đám mây của Amazon để lưu trữ các mô hình generative AI — mở rộng dựa trên sự hợp tác đã công bố trước đó với AWS.
Việc thúc đẩy quan hệ đối tác và các khả năng mới xuất hiện khi Stability gặp khó khăn trong nỗ lực thương mại — đối mặt với sự cạnh tranh gay gắt từ OpenAI, Midjourney và những bên khác. Vào tháng 4, Semafor báo cáo rằng Stability AI đã huy động được hơn 100 triệu đô vốn đầu tư mạo hiểm cho đến nay, đang đốt tiền – thúc đẩy việc đóng một khoản nợ chuyển đổi trị giá 25 triệu đô vào tháng 6 và một cuộc săn lùng giám đốc điều hành để giúp tăng doanh số bán hàng.
Giám đốc điều hành của Stability AI, Emad Mostaque cho biết trong một thông cáo báo chí:
“Mô hình SDXL mới nhất đại diện cho bước tiếp theo trong di sản đổi mới của Stability AI và khả năng đưa các mô hình truy cập mở tiên tiến nhất ra thị trường cho cộng đồng AI. Ra mắt phiên bản 1.0 trên Amazon Bedrock thể hiện cam kết mạnh mẽ của chúng tôi trong việc hợp tác cùng AWS để cung cấp các giải pháp tốt nhất cho nhà phát triển và khách hàng của chúng tôi.”
Nguồn: TechCrunch