Understanding the Foundations of AI Image Generation

Khả năng của trí tuệ nhân tạo trong việc tạo ra hình ảnh chân thực, các tác phẩm nghệ thuật phức tạp và các thiết kế thị giác tinh xảo từ các lời nhắc văn bản đơn giản là một trong những bước nhảy vọt công nghệ đáng kinh ngạc nhất của thế kỷ 21. Trong nhiều thập kỷ, đồ họa máy tính phụ thuộc nghiêm ngặt vào các thuật toán thủ tục, mô hình hình học và sự thao tác thủ công của các nghệ sĩ con người. Ngày nay, các mô hình AI tạo sinh có thể tổng hợp những hình ảnh hoàn toàn mới chỉ trong vài giây. Sự chuyển dịch mô hình này không xuất phát từ một sự hiểu biết kỳ diệu về nghệ thuật, mà từ các khung toán học tiên tiến, cơ sở hạ tầng tính toán khổng lồ và phân tích thống kê sâu sắc về dữ liệu thị giác. Để thực sự hiểu cách AI tạo ra một hình ảnh, người ta phải nhìn xa hơn giao diện người dùng và khám phá cấu trúc nền tảng của các mạng thần kinh, không gian biểu diễn và mô hình xác suất. Cốt lõi của mọi AI tạo sinh nằm ở khái niệm học máy từ dữ liệu lớn (big data). Trước khi một hệ thống có thể tạo ra một hình ảnh chất lượng cao về một “chú chó golden retriever đang chơi trong công viên vào lúc hoàng hôn”, nó phải phân tích hàng triệu hoặc thậm chí hàng tỷ hình ảnh hiện có và các mô tả văn bản tương ứng của chúng. Giai đoạn này được gọi là huấn luyện. Trong quá trình này, một mạng thần kinh — một cấu trúc tính toán phức tạp lấy cảm hứng từ các tế bào thần kinh liên kết trong não người — sẽ quét tập dữ liệu để xác định các mẫu, kết cấu, hình dạng và màu sắc. Mạng lưới học cách liên kết các sắp xếp pixel cụ thể với các khái niệm ngữ nghĩa, chẳng hạn như kết cấu mềm mại của lông động vật, đặc tính phản chiếu của nước, hoặc các tông màu ấm áp đặc trưng của bầu trời buổi chiều. Theo thời gian, hệ thống chuyển từ việc chỉ nhận diện các đối tượng sang việc hiểu các mối quan hệ thống kê giữa chúng.

Một tác phẩm nghệ thuật kỹ thuật số trừu tượng, đầy màu sắc được tạo ra bởi AARON, một hệ thống nghệ thuật AI tiên phong do nghệ sĩ Harold Cohen phát triển, với các hình dạng hoa và hình học phức tạp.

Tuy nhiên, một mô hình AI không chỉ đơn giản lưu trữ một cơ sở dữ liệu khổng lồ các hình ảnh trong bộ nhớ để sao chép và dán chúng sau này. Cách tiếp cận như vậy sẽ cực kỳ kém hiệu quả và không có khả năng tạo ra các tác phẩm nghệ thuật thực sự nguyên bản. Thay vào đó, quá trình huấn luyện buộc mô hình phải nén đại dương thông tin thị giác khổng lồ này thành một khái niệm được tổ chức theo toán học được gọi là không gian tiềm ẩn (latent space). Không gian tiềm ẩn có thể được khái niệm hóa như một hệ thống tọa độ đa chiều vô hình, nơi các khái niệm tương tự được nhóm lại gần nhau. Ví dụ, trong cõi toán học ẩn giấu này, vectơ đại diện cho một "con chó" nằm gần vectơ cho một "con mèo" trong một cụm "động vật" rộng hơn, trong khi tọa độ cho "hoàng hôn" được đặt gần "bình minh" và "chạng vạng". Khi người dùng nhập một lời nhắc, AI sẽ điều hướng không gian toán học này, tìm ra giao điểm chính xác của các khái niệm được yêu cầu để làm bản thiết kế cho đầu ra.

Sự tiến hóa của kiến trúc: Từ GAN đến Variational Autoencoders

Để hiểu trạng thái hiện đại của việc tạo hình ảnh bằng AI, điều cần thiết là phải truy xuất nguồn gốc tiến hóa của các kiến trúc cốt lõi của nó. Bước đột phá ban đầu trong việc tổng hợp hình ảnh thuyết phục đã đến với sự ra đời của Mạng đối nghịch tạo sinh (Generative Adversarial Networks), thường được gọi là GAN. Được hình thành vào năm 2014, một GAN hoạt động dựa trên nguyên tắc cạnh tranh xuất sắc liên quan đến hai mạng thần kinh riêng biệt đóng vai trò là đối thủ: Bộ tạo (Generator) và Bộ phân biệt (Discriminator). Mục tiêu duy nhất của Bộ tạo là tạo ra một hình ảnh từ nhiễu toán học ngẫu nhiên, trong khi vai trò của Bộ phân biệt là đánh giá hình ảnh đó dựa trên tập dữ liệu gồm các bức ảnh thực do con người tạo ra và xác định xem hình ảnh được tạo ra là "thật" hay "giả".

Luồng kiến trúc GAN

Nhiễu ngẫu nhiên

Bộ tạo

Hình ảnh giả

Bộ phân biệt

Hình ảnh thật

🔄 Vòng lặp phản hồi: Thật/Giả

Mối quan hệ đối nghịch này tạo ra một vòng lặp phản hồi hiệu quả cao. Ban đầu, Bộ tạo không tạo ra gì ngoài những nhiễu loạn không mạch lạc. Tuy nhiên, khi Bộ phân biệt dễ dàng phát hiện ra những sai sót này và từ chối các kết quả đầu ra, Bộ tạo buộc phải điều chỉnh các tham số bên trong của nó để tạo ra các cấu trúc thuyết phục hơn. Ngược lại, khi Bộ tạo trở nên thành thạo hơn trong việc bắt chước thực tế, Bộ phân biệt phải trở nên tinh vi hơn để phát hiện ra những điểm không nhất quán tinh tế. Cuộc chạy đua vũ trang liên tục này cuối cùng cho phép các GAN tạo ra các khuôn mặt và vật thể cực kỳ sắc nét, có độ phân giải cao. Mặc dù thành công, các GAN vẫn gặp phải những hạn chế đáng kể, chẳng hạn như "sụp đổ chế độ" (mode collapse) — một chế độ thất bại nơi bộ tạo tìm thấy một kết quả đầu ra duy nhất có thể đánh lừa bộ phân biệt và lặp đi lặp lại cùng một hình ảnh chính xác đó, làm hạn chế nghiêm trọng sự đa dạng sáng tạo.

Đồng thời, các nhà nghiên cứu đã khám phá một kiến trúc nền tảng khác được gọi là Variational Autoencoders (VAEs). Không giống như khuôn khổ cạnh tranh của các GAN, các VAE tập trung mạnh vào việc nén và tái tạo dữ liệu. Một VAE bao gồm một bộ mã hóa (encoder) nhận hình ảnh đầu vào và nén nó thành một biểu diễn tiềm ẩn (latent representation) có chiều thấp, hiệu quả cao, chỉ nắm bắt các đặc điểm cấu trúc quan trọng nhất. Thành phần thứ hai, bộ giải mã (decoder), sau đó lấy biểu diễn nén này và cố gắng mở rộng nó trở lại hình ảnh gốc một cách chính xác nhất có thể. Bằng cách chuẩn hóa không gian nén này, các VAE đảm bảo rằng cảnh quan tiềm ẩn (latent landscape) là mượt mà và liên tục, nghĩa là nếu bạn chọn một điểm ngẫu nhiên giữa các tọa độ cho một "hình tròn" và một "hình vuông", bộ giải mã sẽ hiển thị mượt mà một hình vuông bo tròn. Mặc dù các VAE cung cấp sự ổn định và tính đa dạng tuyệt vời, các kết quả đầu ra cuối cùng của chúng thường bị mờ đáng kể, không thể nắm bắt được các chi tiết sắc nét, tinh xảo mà người xem mong đợi từ nghệ thuật độ trung thực cao.

Siêu năng lực hiện đại: Các mô hình khuếch tán và cơ chế nhiễu

Bối cảnh hiện đại của việc tạo hình ảnh bằng AI — được thống trị bởi các hệ thống dẫn đầu ngành như Midjourney, DALL-E và Stable Diffusion — được thúc đẩy bởi một bước đột phá hoàn toàn khác biệt được gọi là Các mô hình khuếch tán (Diffusion Models). Lấy cảm hứng từ các khái niệm trong nhiệt động lực học không cân bằng, các mô hình khuếch tán đã hoàn toàn thay đổi các mô hình tổng hợp hình ảnh trước đây. Thay vì cố gắng xây dựng một hình ảnh từ đầu cùng một lúc, các mô hình này coi vấn đề là một quá trình thanh lọc dần dần, học cách tạo ra các hình ảnh phức tạp bằng cách làm chủ nghệ thuật hủy diệt có kiểm soát và tái thiết kế có hệ thống.

Cơ chế của một mô hình khuếch tán được chia thành hai giai đoạn chính: quá trình khuếch tán xuôi và quá trình khuếch tán ngược. Trong quá trình xuôi, hệ thống lấy một hình ảnh huấn luyện hoàn toàn rõ ràng và cố tình thêm các gia số nhỏ của nhiễu Gaussian qua hàng trăm bước. Khi các bước tiến triển, cấu trúc ban đầu của hình ảnh dần bị suy giảm. Đến cuối chuỗi xuôi, hình ảnh bị xóa sổ hoàn toàn, biến thành một biển nhiễu pixel ngẫu nhiên vô nghĩa, giống như nhiễu trắng trên màn hình tivi cũ không có tín hiệu.

Quá trình khuếch tán

Khuếch tán xuôi

Hình ảnh rõ nét

Nhiễu một phần

Nhiễu tĩnh toàn phần

Khuếch tán ngược

Nhiễu tĩnh toàn phần

Giai đoạn khử nhiễu

Hình ảnh cuối cùng

Phép thuật thực sự xảy ra trong quá trình khuếch tán ngược, nơi việc tạo hình ảnh thực tế diễn ra. Mạng thần kinh, thường sử dụng kiến trúc gọi là U-Net, được huấn luyện để quan sát một hình ảnh chứa một mức độ nhiễu cụ thể và dự đoán chính xác lượng nhiễu đã được thêm vào ở bước trước. Bằng cách huấn luyện mạng trên hàng tỷ ví dụ, nó học cách trừ đi nhiễu đã dự đoán này với độ chính xác đáng kinh ngạc. Do đó, khi người dùng yêu cầu một hình ảnh mới, AI bắt đầu với một khung vẽ chứa nhiễu toán học ngẫu nhiên, thuần túy. Sau đó, nó áp dụng mạng U-Net đã được huấn luyện của mình một cách lặp đi lặp lại, loại bỏ dần các lớp nhiễu từng bước một. Với mỗi lần lặp, những hình dạng mơ hồ bắt đầu kết tinh từ sự hỗn loạn, biến những khối trừu tượng thành các đường nét, kết cấu rõ ràng và cuối cùng là một hình ảnh cuối cùng nhất quán, chi tiết cao.

Kết nối giữa từ ngữ và điểm ảnh: Vai trò của việc tiền huấn luyện ngôn ngữ-hình ảnh tương phản (CLIP)

Mặc dù các mô hình khuếch tán vô cùng điêu luyện trong việc biến nhiễu ngẫu nhiên thành hình ảnh có cấu trúc, nhưng chúng vốn dĩ thiếu khả năng hiểu ngôn ngữ hoặc văn bản viết của con người. Để thu hẹp khoảng cách giữa ngôn ngữ con người và các điểm ảnh trực quan, các hệ thống tạo hình ảnh hiện đại dựa vào một lớp chuyển đổi quan trọng, ví dụ điển hình nhất là CLIP (Contrastive Language-Image Pre-training) của OpenAI. Nếu không có một cơ chế như CLIP, một mô hình khuếch tán có thể tạo ra các phong cảnh hoặc đối tượng đẹp mắt nhưng ngẫu nhiên, mà không có cách nào biết được làm thế nào để căn chỉnh những sáng tạo đó với các lệnh viết cụ thể của người dùng.

CLIP được huấn luyện trên một bộ dữ liệu khổng lồ gồm các cặp hình ảnh-văn bản được thu thập từ khắp nơi trên internet. Mục tiêu chính của nó là học một không gian nhúng chung (shared embedding space) nơi một mô tả văn bản và hình ảnh tương ứng của nó được ánh xạ chính xác vào cùng một vectơ toán học. Ví dụ, câu “đường chân trời của một thành phố cyberpunk tương lai” và một bức tranh kỹ thuật số thực sự về một khu vực đô thị neon rực rỡ được hướng đến cùng một tọa độ trong không gian đa chiều này. Mô hình đạt được điều này thông qua học tương phản (contrastive learning), tối đa hóa sự căn chỉnh toán học giữa các cặp khớp nhau trong khi giảm thiểu quyết liệt sự căn chỉnh giữa các văn bản và hình ảnh không liên quan.

Một khung cảnh giả tưởng sống động, được AI tạo ra, với hình ảnh một con phượng hoàng rực rỡ đang dang rộng đôi cánh phía trên một chiến binh đơn độc trong khu rừng huyền bí, thể hiện khả năng của AI tạo sinh hiện đại.

Khi người dùng nhập một lời nhắc (prompt) vào một trình tạo AI, văn bản đó ngay lập tức được đưa vào thành phần mã hóa văn bản của mạng CLIP. Bộ mã hóa này chuyển đổi các chuỗi từ thành một vectơ số dày đặc, tóm tắt ý nghĩa ngữ nghĩa của yêu cầu. Vectơ văn bản này sau đó được tiêm vào quá trình khuếch tán ngược như một lực hướng dẫn, thường thông qua một cơ chế gọi là chú ý chéo (cross-attention). Khi kiến trúc U-Net hoạt động để loại bỏ nhiễu khỏi khung vẽ tĩnh ban đầu, nó liên tục kiểm tra tiến độ của mình dựa trên vectơ văn bản CLIP. Các cơ chế chú ý hướng dẫn quá trình khử nhiễu, đảm bảo rằng các cấu trúc nổi lên từ nhiễu tĩnh căn chỉnh chính xác với các khái niệm, phong cách và đối tượng được yêu cầu trong lời nhắc của người dùng.

Khuếch tán tiềm ẩn và tối ưu hóa: Giúp độ phân giải cao trở nên dễ tiếp cận

Trong giai đoạn đầu phát triển các mô hình khuếch tán, tài nguyên tính toán cần thiết để tạo ra hình ảnh độ phân giải cao là rất lớn. Việc xử lý từng pixel của hình ảnh 1024×1024 qua hàng trăm bước của một mạng thần kinh sâu yêu cầu lượng VRAM khổng lồ và sức mạnh xử lý khủng khiếp, khiến nó hoàn toàn không thực tế đối với phần cứng tiêu dùng hoặc triển khai rộng rãi. Nút thắt này đã dẫn đến việc phát minh ra các Mô hình Khuếch tán Tiềm ẩn (Latent Diffusion Models - LDM), một kỹ thuật tối ưu hóa mang tính cách mạng tạo nên nền tảng cho các mô hình nguồn mở như Stable Diffusion. Đổi mới cốt lõi của Khuếch tán Tiềm ẩn là toàn bộ quá trình khử nhiễu không diễn ra trong không gian pixel thực tế khổng lồ, nhiều chiều. Thay vào đó, hệ thống sử dụng một bộ tự mã hóa (Autoencoder) mạnh mẽ để nén hình ảnh ban đầu thành một không gian tiềm ẩn nhỏ hơn, có chiều thấp hơn nhiều trước khi bất kỳ sự khuếch tán nào xảy ra. Ví dụ, một hình ảnh thường bao gồm hàng triệu giá trị pixel đỏ, xanh lá cây và xanh dương được nén thành một biểu diễn toán học nhỏ gọn chỉ bằng một phần nhỏ kích thước ban đầu, nhưng vẫn giữ lại tất cả các dữ liệu ngữ nghĩa và cấu trúc thiết yếu.

Khi hình ảnh được lưu trữ an toàn trong không gian tiềm ẩn (latent space) hiệu quả này, các quá trình khuếch tán xuôi và ngược được thực hiện. Vì mạng thần kinh chỉ thao tác trên một khái niệm trừu tượng toán học đã được cô đọng cao thay vì hàng triệu pixel riêng lẻ, khối lượng công việc tính toán giảm đáng kể. Điều này cho phép mô hình chạy hiệu quả trên các card đồ họa tiêu dùng tiêu chuẩn. Khi quá trình khuếch tán ngược hoàn tất và nhiễu đã được loại bỏ thành công trong không gian tiềm ẩn, vectơ tiềm ẩn cuối cùng đã được tối ưu hóa sẽ được chuyển qua thành phần giải mã của bộ tự mã hóa (Autoencoder). Bộ giải mã dịch các con số trừu tượng trở lại lĩnh vực pixel, ngay lập tức "phóng đại" vectơ nhỏ gọn thành một hình ảnh sắc nét, độ phân giải cao để người dùng nhìn thấy.

Đạo đức, tính hiện thực và tương lai của truyền thông tổng hợp

Khi các khuôn khổ toán học và kiến trúc của trí tuệ nhân tạo tạo sinh ngày càng hoàn thiện, ranh giới ngăn cách truyền thông tổng hợp với thực tế khách quan đang nhanh chóng tan biến. Các nguyên tắc cơ bản về khuếch tán, không gian tiềm ẩn và căn chỉnh văn bản bằng sự chú ý chéo đã phát triển đến mức các mô hình AI hiện có thể tái tạo trung thực các hiện tượng ánh sáng phức tạp như tán xạ dưới bề mặt, chiếu sáng toàn cục và độ sâu trường ảnh tinh vi. Những gì bắt đầu như một loạt các thí nghiệm độ phân giải thấp trong các phòng thí nghiệm học thuật đã nở rộ thành một cuộc cách mạng công nghiệp tác động đến thiết kế đồ họa, làm phim, kiến trúc và phát triển trò chơi điện tử.

Tuy nhiên, sức mạnh to lớn của các nguyên tắc cơ bản này cũng mang lại những cân nhắc đáng kể về mặt xã hội và đạo đức. Vì các mạng này học bằng cách tìm các mẫu thống kê trong các tập dữ liệu do con người tạo ra, chúng dễ dàng hấp thụ và khuếch đại bất kỳ thành kiến xã hội, định kiến hoặc sự thiếu chính xác về lịch sử nào có trong dữ liệu đào tạo của chúng. Hơn nữa, sự dễ dàng mà các mô hình này có thể thao túng quá trình khuếch tán ngược để tạo ra các mô tả tổng hợp hoàn hảo về con người thực gây ra những lo ngại sâu sắc về tính xác thực kỹ thuật số, thông tin sai lệch, quyền sở hữu trí tuệ và sự xói mòn niềm tin tổng thể vào phương tiện truyền thông hình ảnh. Nhìn về phía trước, sự phát triển của việc tạo hình ảnh bằng AI đang chuyển dịch khỏi hình ảnh 2D tĩnh và mở rộng linh hoạt vào các không gian đa chiều. Các nguyên tắc cơ bản tương tự của việc tổng hợp văn bản thành hình ảnh hiện đang được điều chỉnh để thúc đẩy các kiến trúc văn bản thành video tiên tiến, tạo tài sản 3D tự động và các môi trường ảo tương tác. Bằng cách xử lý thời gian và độ sâu như các chiều toán học bổ sung trong không gian tiềm ẩn, các mạng thần kinh đang học cách duy trì sự nhất quán về cấu trúc và thời gian giữa các khung hình. Khi hiệu suất tính toán tăng lên và các kiến trúc thuật toán trở nên tinh vi hơn, hành trình từ một tia sáng đơn giản của trí tưởng tượng con người đến một thực tế kỹ thuật số siêu thực hoàn chỉnh sẽ tiếp tục thu hẹp, làm thay đổi mãi mãi bối cảnh của sự sáng tạo con người và biểu hiện công nghệ.