Understanding the Foundations of AI Image Generation

ความสามารถของปัญญาประดิษฐ์ในการสร้างภาพเสมือนจริง งานศิลปะที่ซับซ้อน และการออกแบบทางภาพที่ประณีตจากคำสั่งที่เป็นข้อความง่ายๆ ถือเป็นหนึ่งในก้าวกระโดดทางเทคโนโลยีที่โดดเด่นที่สุดแห่งศตวรรษที่ 21 เป็นเวลาหลายทศวรรษที่กราฟิกคอมพิวเตอร์ต้องพึ่งพาอัลกอริทึมขั้นตอนวิธี การสร้างแบบจำลองทางเรขาคณิต และการจัดการด้วยมือโดยศิลปินมนุษย์อย่างเคร่งครัด ในปัจจุบัน โมเดล AI เชิงกำเนิดสามารถสังเคราะห์ภาพใหม่ทั้งหมดได้ในเวลาเพียงไม่กี่วินาที การเปลี่ยนแปลงกระบวนทัศน์นี้ไม่ได้เกิดขึ้นจากความเข้าใจทางศิลปะอย่างมีมนต์ขลัง แต่เกิดจากกรอบงานทางคณิตศาสตร์ขั้นสูง โครงสร้างพื้นฐานทางคอมพิวเตอร์ขนาดใหญ่ และการวิเคราะห์ทางสถิติเชิงลึกของข้อมูลภาพ เพื่อให้เข้าใจอย่างแท้จริงว่า AI สร้างภาพได้อย่างไร เราต้องมองข้ามส่วนติดต่อผู้ใช้ (user interface) และสำรวจสถาปัตยกรรมเบื้องหลังของโครงข่ายประสาทเทียม (neural networks) พื้นที่แทนข้อมูล (representation spaces) และการสร้างแบบจำลองความน่าจะเป็น หัวใจสำคัญของ AI เชิงกำเนิดทั้งหมดคือแนวคิดของการเรียนรู้ของเครื่องจากข้อมูลขนาดใหญ่ (big data) ก่อนที่ระบบจะสามารถสร้างภาพคุณภาพสูงของ “สุนัขโกลเด้นรีทรีฟเวอร์กำลังเล่นในสวนสาธารณะตอนพระอาทิตย์ตก” ได้นั้น ระบบจะต้องวิเคราะห์ภาพที่มีอยู่แล้วนับล้านหรือนับพันล้านภาพพร้อมกับคำบรรยายที่เป็นข้อความที่สอดคล้องกันเสียก่อน ขั้นตอนนี้เรียกว่า "การฝึกฝน" (training) ในระหว่างกระบวนการนี้ โครงข่ายประสาทเทียม ซึ่งเป็นโครงสร้างการคำนวณที่ซับซ้อนซึ่งได้รับแรงบันดาลใจจากเซลล์ประสาทที่เชื่อมต่อกันในสมองของมนุษย์ จะสแกนชุดข้อมูลเพื่อระบุรูปแบบ พื้นผิว รูปร่าง และสี โครงข่ายจะเรียนรู้ที่จะเชื่อมโยงการจัดเรียงพิกเซลเฉพาะกับแนวคิดทางความหมาย เช่น พื้นผิวที่ฟูของขนสัตว์ คุณสมบัติการสะท้อนแสงของน้ำ หรือเฉดสีอบอุ่นอันเป็นเอกลักษณ์ของท้องฟ้ายามเย็น เมื่อเวลาผ่านไป ระบบจะเปลี่ยนจากการเพียงแค่จดจำวัตถุ ไปสู่การเข้าใจความสัมพันธ์ทางสถิติระหว่างวัตถุเหล่านั้น

ผลงานศิลปะดิจิทัลแนวนามธรรมที่มีสีสันสดใส สร้างสรรค์โดย AARON ซึ่งเป็นระบบศิลปะ AI บุกเบิกที่พัฒนาโดยศิลปิน Harold Cohen โดยนำเสนอรูปทรงดอกไม้และรูปทรงเรขาคณิตที่ซับซ้อน

อย่างไรก็ตาม โมเดล AI ไม่ได้เก็บฐานข้อมูลรูปภาพมหาศาลไว้ในหน่วยความจำเพื่อคัดลอกและวางในภายหลัง แนวทางดังกล่าวจะไม่มีประสิทธิภาพอย่างยิ่งและไม่สามารถสร้างผลงานศิลปะที่เป็นต้นฉบับอย่างแท้จริงได้ ในทางกลับกัน กระบวนการฝึกฝนจะบังคับให้โมเดลบีบอัดมหาสมุทรข้อมูลภาพอันกว้างใหญ่นี้ให้กลายเป็นแนวคิดที่จัดระเบียบทางคณิตศาสตร์ที่เรียกว่า "พื้นที่แฝง" (latent space) พื้นที่แฝงสามารถอธิบายได้ว่าเป็นระบบพิกัดหลายมิติที่มองไม่เห็น ซึ่งแนวคิดที่คล้ายกันจะถูกจัดกลุ่มไว้ใกล้กัน ตัวอย่างเช่น ในอาณาจักรทางคณิตศาสตร์ที่ซ่อนอยู่นี้ เวกเตอร์ที่แสดงถึง “สุนัข” จะอยู่ใกล้กับเวกเตอร์สำหรับ “แมว” ภายใต้กลุ่ม “สัตว์” ที่กว้างขึ้น ในขณะที่พิกัดสำหรับ “พระอาทิตย์ตก” จะถูกวางไว้ใกล้กับ “พระอาทิตย์ขึ้น” และ “พลบค่ำ” เมื่อผู้ใช้ป้อนคำสั่ง (prompt) AI จะนำทางผ่านพื้นที่ทางคณิตศาสตร์นี้ โดยหาจุดตัดที่แม่นยำของแนวคิดที่ร้องขอเพื่อใช้เป็นพิมพ์เขียวสำหรับผลลัพธ์

วิวัฒนาการของสถาปัตยกรรม: จาก GAN ไปสู่ Variational Autoencoders

เพื่อให้เข้าใจสถานะปัจจุบันของการสร้างภาพด้วย AI การติดตามสายวิวัฒนาการของสถาปัตยกรรมหลักนั้นเป็นสิ่งสำคัญ ก้าวสำคัญแรกในการสังเคราะห์ภาพที่น่าเชื่อถือเกิดขึ้นจากการแนะนำเครือข่ายปรปักษ์กำเนิด (Generative Adversarial Networks) หรือที่เรียกกันทั่วไปว่า GAN แนวคิด GAN ถูกคิดค้นขึ้นในปี 2014 โดยทำงานบนหลักการแข่งขันที่ชาญฉลาด ซึ่งเกี่ยวข้องกับโครงข่ายประสาทเทียมสองเครือข่ายที่ทำหน้าที่เป็นคู่แข่งกัน ได้แก่ ตัวสร้าง (Generator) และตัวจำแนก (Discriminator) เป้าหมายเดียวของตัวสร้างคือการสร้างภาพจากสัญญาณรบกวนทางคณิตศาสตร์แบบสุ่ม ในขณะที่บทบาทของตัวจำแนกคือการประเมินภาพนั้นเมื่อเทียบกับชุดข้อมูลของภาพถ่ายจริงที่มนุษย์สร้างขึ้น และตัดสินว่าภาพที่สร้างขึ้นนั้น "จริง" หรือ "ปลอม"

กระบวนการทำงานของสถาปัตยกรรม GAN

สัญญาณรบกวนแบบสุ่ม

ตัวสร้าง

ภาพปลอม

ตัวจำแนก

ภาพจริง

🔄 วงจรป้อนกลับ: จริง/ปลอม

ความสัมพันธ์แบบปรปักษ์นี้ทำให้เกิดวงจรป้อนกลับที่มีประสิทธิภาพสูง ในช่วงแรก ตัวสร้าง (Generator) จะผลิตได้เพียงสัญญาณรบกวนที่ไม่สอดคล้องกันเท่านั้น อย่างไรก็ตาม เมื่อตัวจำแนก (Discriminator) สามารถตรวจพบข้อบกพร่องเหล่านี้ได้อย่างง่ายดายและปฏิเสธผลลัพธ์เหล่านั้น ตัวสร้างจึงถูกบีบให้ต้องปรับพารามิเตอร์ภายในเพื่อสร้างโครงสร้างที่น่าเชื่อถือมากขึ้น ในทางกลับกัน เมื่อตัวสร้างมีความชำนาญในการเลียนแบบความเป็นจริงมากขึ้น ตัวจำแนกก็ต้องมีความซับซ้อนมากขึ้นเพื่อตรวจหาความไม่สอดคล้องที่ละเอียดอ่อน การแข่งขันนี้ดำเนินไปอย่างต่อเนื่องและในที่สุดก็ทำให้ GAN สามารถสร้างใบหน้าและวัตถุที่คมชัดและมีความละเอียดสูงได้อย่างน่าทึ่ง แม้จะประสบความสำเร็จ แต่ GAN ก็ยังมีข้อจำกัดที่โดดเด่น เช่น "โหมดล่ม" (mode collapse) ซึ่งเป็นรูปแบบความล้มเหลวที่ตัวสร้างพบผลลัพธ์เพียงอย่างเดียวที่สามารถหลอกตัวจำแนกได้ และสร้างภาพเดิมซ้ำๆ กัน ซึ่งจำกัดความหลากหลายในการสร้างสรรค์อย่างรุนแรง

ในเวลาเดียวกัน นักวิจัยได้สำรวจสถาปัตยกรรมพื้นฐานอีกแบบหนึ่งที่เรียกว่า Variational Autoencoders (VAEs) ซึ่งแตกต่างจากกรอบการทำงานเชิงแข่งขันของ GAN ตรงที่ VAE เน้นหนักไปที่การบีบอัดและการสร้างข้อมูลใหม่ VAE ประกอบด้วยตัวเข้ารหัส (encoder) ที่รับภาพขาเข้าและบีบอัดให้เป็นตัวแทนในพื้นที่แฝง (latent representation) ที่มีมิติต่ำและมีประสิทธิภาพสูง โดยจับเฉพาะลักษณะโครงสร้างที่สำคัญที่สุดเท่านั้น ส่วนประกอบที่สองคือตัวถอดรหัส (decoder) จะนำตัวแทนที่ถูกบีบอัดนี้มาขยายกลับเป็นภาพต้นฉบับให้แม่นยำที่สุดเท่าที่จะเป็นไปได้ การทำให้พื้นที่ที่ถูกบีบอัดนี้มีความปกติ (regularizing) ช่วยให้มั่นใจได้ว่าภูมิทัศน์แฝง (latent landscape) จะมีความราบรื่นและต่อเนื่อง ซึ่งหมายความว่าหากคุณเลือกจุดสุ่มระหว่างพิกัดของ "วงกลม" และ "สี่เหลี่ยม" ตัวถอดรหัสจะแสดงผลออกมาเป็นสี่เหลี่ยมมุมมนได้อย่างราบรื่น แม้ว่า VAE จะให้ความเสถียรและความหลากหลายที่ยอดเยี่ยม แต่ผลลัพธ์สุดท้ายมักมีความเบลออย่างเห็นได้ชัด ซึ่งไม่สามารถจับรายละเอียดที่คมชัดและซับซ้อนที่ผู้ชมคาดหวังจากงานศิลปะที่มีความเที่ยงตรงสูงได้

พลังพิเศษแห่งยุคสมัยใหม่: โมเดลการแพร่ (Diffusion Models) และกลไกของสัญญาณรบกวน

ภูมิทัศน์ร่วมสมัยของการสร้างภาพด้วย AI ซึ่งถูกครอบงำโดยระบบชั้นนำของอุตสาหกรรมอย่าง Midjourney, DALL-E และ Stable Diffusion ขับเคลื่อนโดยเทคโนโลยีที่ก้าวล้ำรูปแบบใหม่ที่เรียกว่า โมเดลการแพร่ (Diffusion Models) โดยได้รับแรงบันดาลใจจากแนวคิดทางอุณหพลศาสตร์นอกสมดุล (non-equilibrium thermodynamics) โมเดลการแพร่ได้พลิกโฉมกระบวนทัศน์เดิมของการสังเคราะห์ภาพไปโดยสิ้นเชิง แทนที่จะพยายามสร้างภาพจากศูนย์ในคราวเดียว โมเดลเหล่านี้มองปัญหาว่าเป็นกระบวนการทำความสะอาดภาพทีละขั้นตอน โดยเรียนรู้ที่จะสร้างภาพที่มีความซับซ้อนผ่านการฝึกฝนศิลปะของการทำลายอย่างมีการควบคุม (controlled destruction) และการสร้างใหม่ที่เป็นระบบ (systematic reconstruction)

กลไกของโมเดลการแพร่แบ่งออกเป็นสองระยะหลัก: กระบวนการแพร่ไปข้างหน้า (forward diffusion process) และกระบวนการแพร่ย้อนกลับ (reverse diffusion process) ในกระบวนการไปข้างหน้า ระบบจะนำภาพฝึกฝนที่ชัดเจนสมบูรณ์แบบมาและค่อยๆ เติมสัญญาณรบกวนแบบเกาส์เซียน (Gaussian noise) เข้าไปทีละน้อยตลอดระยะเวลาหลายร้อยขั้นตอน เมื่อขั้นตอนดำเนินไป โครงสร้างเดิมของภาพจะค่อยๆ เสื่อมสภาพลง จนกระทั่งสิ้นสุดกระบวนการไปข้างหน้า ภาพจะถูกทำลายจนหมดสิ้น กลายเป็นเพียงกลุ่มพิกเซลสุ่มที่ไร้ความหมาย คล้ายกับสัญญาณรบกวน (white noise) บนหน้าจอโทรทัศน์รุ่นเก่าที่ไม่มีสัญญาณ

กระบวนการแพร่

การแพร่ไปข้างหน้า

ภาพที่ชัดเจน

สัญญาณรบกวนบางส่วน

สัญญาณรบกวนเต็มรูปแบบ

การแพร่ย้อนกลับ

สัญญาณรบกวนเต็มรูปแบบ

ขั้นตอนการกำจัดสัญญาณรบกวน

ภาพสุดท้าย

เวทมนตร์ที่แท้จริงเกิดขึ้นในระหว่างกระบวนการแพร่ย้อนกลับ (reverse diffusion process) ซึ่งเป็นขั้นตอนที่ภาพถูกสร้างขึ้นจริง เครือข่ายประสาทเทียม (neural network) ที่มักใช้สถาปัตยกรรมที่เรียกว่า U-Net จะได้รับการฝึกฝนให้สังเกตภาพที่มีระดับสัญญาณรบกวนในระดับหนึ่ง และทำนายอย่างแม่นยำว่ามีการเติมสัญญาณรบกวนเข้าไปเท่าใดในขั้นตอนก่อนหน้า ด้วยการฝึกฝนเครือข่ายด้วยตัวอย่างนับพันล้านตัวอย่าง เครือข่ายจึงเรียนรู้ที่จะลบสัญญาณรบกวนที่ทำนายไว้ออกได้อย่างแม่นยำอย่างน่าทึ่ง ดังนั้น เมื่อผู้ใช้ขอภาพใหม่ AI จะเริ่มต้นจากผืนผ้าใบที่เป็นสัญญาณรบกวนทางคณิตศาสตร์แบบสุ่ม จากนั้นจึงนำ U-Net ที่ผ่านการฝึกฝนมาประยุกต์ใช้อย่างเป็นลำดับขั้นตอน โดยค่อยๆ กำจัดชั้นของสัญญาณรบกวนออกทีละชั้น ในแต่ละรอบของการทำซ้ำ รูปร่างที่คลุมเครือจะเริ่มก่อตัวชัดเจนขึ้นจากความโกลาหล เปลี่ยนจากกลุ่มก้อนที่ไร้รูปแบบให้กลายเป็นขอบ พื้นผิวที่ชัดเจน และสุดท้ายก็กลายเป็นภาพที่สมบูรณ์แบบ มีรายละเอียดสูง และมีความสอดคล้องกัน

การเชื่อมโยงคำและพิกเซล: บทบาทของการเรียนรู้ล่วงหน้าแบบเปรียบต่างระหว่างภาษาและรูปภาพ (CLIP)

แม้ว่าโมเดลการแพร่ (diffusion models) จะมีความสามารถเป็นเลิศในการเปลี่ยนสัญญาณรบกวนแบบสุ่มให้เป็นภาพที่มีโครงสร้าง แต่โดยเนื้อแท้แล้วพวกมันไม่มีความสามารถในการเข้าใจภาษาพูดหรือข้อความที่เขียนโดยมนุษย์ เพื่อเชื่อมช่องว่างระหว่างภาษาของมนุษย์และพิกเซลภาพ ระบบการสร้างภาพในยุคใหม่จึงต้องพึ่งพาชั้นการแปล (translation layer) ที่สำคัญ ซึ่งตัวอย่างที่โด่งดังที่สุดคือ CLIP (Contrastive Language-Image Pre-training) ของ OpenAI หากปราศจากกลไกอย่าง CLIP โมเดลการแพร่จะสามารถสร้างทิวทัศน์หรือวัตถุที่สวยงามแต่ไร้จุดหมายออกมาได้เท่านั้น และไม่มีทางทราบได้เลยว่าจะจัดวางผลงานสร้างสรรค์เหล่านั้นให้สอดคล้องกับคำสั่งที่เป็นข้อความชัดเจนของผู้ใช้อย่างไร

CLIP ได้รับการฝึกฝนบนชุดข้อมูลขนาดมหึมาของคู่ภาพและข้อความที่รวบรวมมาจากทั่วอินเทอร์เน็ต เป้าหมายหลักคือการเรียนรู้พื้นที่การฝังตัวร่วม (shared embedding space) ที่ซึ่งคำบรรยายที่เป็นข้อความและรูปภาพที่สอดคล้องกันจะถูกแมปไปยังเวกเตอร์ทางคณิตศาสตร์เดียวกันทุกประการ ตัวอย่างเช่น ประโยคที่ว่า “เส้นขอบฟ้าของเมืองไซเบอร์พังค์แห่งอนาคต” และภาพวาดดิจิทัลของเขตเมืองที่เต็มไปด้วยแสงนีออน จะถูกนำทางไปยังพิกัดเดียวกันภายในพื้นที่หลายมิตินี้ โมเดลบรรลุเป้าหมายนี้ผ่านการเรียนรู้แบบเปรียบต่าง (contrastive learning) โดยการเพิ่มความสอดคล้องทางคณิตศาสตร์ระหว่างคู่ที่จับคู่กันให้สูงสุด ในขณะเดียวกันก็ลดความสอดคล้องระหว่างข้อความและรูปภาพที่ไม่เกี่ยวข้องกันให้น้อยที่สุดอย่างจริงจัง

ฉากแฟนตาซีที่มีชีวิตชีวาซึ่งสร้างโดย AI นำเสนอภาพนกฟีนิกซ์ที่เปล่งประกายกางปีกเหนือยอดนักรบผู้โดดเดี่ยวในป่าลึกลับ ซึ่งแสดงให้เห็นถึงขีดความสามารถของ AI เชิงกำเนิดในยุคปัจจุบัน

เมื่อผู้ใช้พิมพ์คำสั่ง (prompt) ลงในเครื่องมือสร้างภาพด้วย AI ข้อความนั้นจะถูกส่งไปยังส่วนประกอบตัวเข้ารหัสข้อความ (text encoder) ของเครือข่าย CLIP ทันที ตัวเข้ารหัสนี้จะแปลงชุดคำให้เป็นเวกเตอร์ตัวเลขที่มีความหนาแน่น ซึ่งรวบรวมความหมายเชิงอรรถศาสตร์ของคำขอนั้นเอาไว้ จากนั้นเวกเตอร์ข้อความนี้จะถูกฉีดเข้าไปในกระบวนการแพร่ย้อนกลับ (reverse diffusion process) เพื่อเป็นแรงนำทาง โดยมักผ่านกลไกที่เรียกว่า "ความสนใจข้ามส่วน" (cross-attention) ในขณะที่สถาปัตยกรรม U-Net ทำงานเพื่อกำจัดสัญญาณรบกวนออกจากผืนผ้าใบที่เป็นสัญญาณสถิตเริ่มต้น มันจะตรวจสอบความคืบหน้าเทียบกับเวกเตอร์ข้อความของ CLIP อยู่ตลอดเวลา กลไกความสนใจ (attention mechanisms) จะเป็นตัวควบคุมกระบวนการกำจัดสัญญาณรบกวน เพื่อให้แน่ใจว่าโครงสร้างที่ปรากฏขึ้นจากความโกลาหลนั้นสอดคล้องอย่างแม่นยำกับแนวคิด สไตล์ และวัตถุที่ผู้ใช้ระบุไว้ในคำสั่ง

การแพร่ในพื้นที่แฝง (Latent Diffusion) และการเพิ่มประสิทธิภาพ: ทำให้ความละเอียดสูงเป็นสิ่งที่เข้าถึงได้

ในช่วงแรกของการพัฒนาโมเดลการแพร่ (diffusion models) ทรัพยากรการคำนวณที่จำเป็นในการสร้างภาพความละเอียดสูงนั้นมหาศาลมาก การประมวลผลทุกพิกเซลของภาพขนาด 1024×1024 ผ่านขั้นตอนนับร้อยของโครงข่ายประสาทเทียมเชิงลึกต้องใช้ VRAM จำนวนมหาศาลและพลังการประมวลผลที่สูงมาก ทำให้การใช้งานบนฮาร์ดแวร์ทั่วไปหรือการเผยแพร่ในวงกว้างเป็นเรื่องที่เป็นไปไม่ได้เลย ข้อจำกัดนี้เองที่นำไปสู่การคิดค้นโมเดลการแพร่ในพื้นที่แฝง (Latent Diffusion Models หรือ LDMs) ซึ่งเป็นเทคนิคการเพิ่มประสิทธิภาพแบบปฏิวัติวงการที่กลายเป็นกระดูกสันหลังของโมเดลโอเพนซอร์สอย่าง Stable Diffusion นวัตกรรมหลักของ Latent Diffusion คือกระบวนการกำจัดสัญญาณรบกวนทั้งหมดไม่ได้เกิดขึ้นในพื้นที่พิกเซลจริงที่มีขนาดใหญ่และมีความละเอียดสูง แต่ระบบจะใช้ตัวเข้ารหัสอัตโนมัติ (Autoencoder) ที่ทรงพลังเพื่อบีบอัดภาพเริ่มต้นให้เป็นพื้นที่แฝง (latent space) ที่มีขนาดเล็กลงและมีความละเอียดต่ำกว่าก่อนที่จะเกิดการแพร่ ตัวอย่างเช่น ภาพที่ปกติประกอบด้วยค่าพิกเซลสีแดง สีเขียว และสีน้ำเงินนับล้านค่า จะถูกบีบอัดให้เป็นรูปแบบทางคณิตศาสตร์ที่กะทัดรัดซึ่งมีขนาดเพียงเศษเสี้ยวของขนาดเดิม แต่ยังคงรักษาข้อมูลทางความหมายและโครงสร้างที่สำคัญทั้งหมดไว้ได้

เมื่อภาพถูกจัดเก็บไว้อย่างปลอดภัยในพื้นที่แฝง (latent space) ที่มีประสิทธิภาพนี้ กระบวนการแพร่ไปข้างหน้าและย้อนกลับก็จะเกิดขึ้น เนื่องจากเครือข่ายประสาทเทียมเพียงแค่จัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมและถูกบีบอัดไว้อย่างสูง แทนที่จะต้องจัดการกับพิกเซลนับล้าน ทำให้ภาระงานในการคำนวณลดลงอย่างมาก สิ่งนี้ช่วยให้โมเดลทำงานได้อย่างมีประสิทธิภาพบนการ์ดจอสำหรับผู้ใช้งานทั่วไป เมื่อกระบวนการแพร่ย้อนกลับเสร็จสิ้นและสัญญาณรบกวนถูกกำจัดออกจากพื้นที่แฝงได้สำเร็จ เวกเตอร์แฝงที่ได้รับการปรับให้เหมาะสมที่สุดจะถูกส่งผ่านส่วนประกอบตัวถอดรหัส (decoder) ของตัวเข้ารหัสอัตโนมัติ (Autoencoder) ตัวถอดรหัสจะแปลตัวเลขที่เป็นนามธรรมเหล่านั้นกลับไปเป็นโดเมนของพิกเซล ซึ่งจะขยายเวกเตอร์ขนาดกะทัดรัดให้กลายเป็นภาพที่กว้างใหญ่ คมชัด และมีความละเอียดสูงให้ผู้ใช้ได้เห็นในทันที

จริยธรรม ความสมจริง และอนาคตของสื่อสังเคราะห์

ในขณะที่กรอบทางคณิตศาสตร์และสถาปัตยกรรมของปัญญาประดิษฐ์เชิงสร้างสรรค์ยังคงพัฒนาเต็มที่ เส้นแบ่งที่แยกสื่อสังเคราะห์ออกจากความเป็นจริงก็กำลังเลือนหายไปอย่างรวดเร็ว หลักการพื้นฐานของการแพร่ (diffusion) พื้นที่แฝง (latent spaces) และการปรับตำแหน่งข้อความด้วยความสนใจข้ามส่วน (cross-attention text alignment) ได้วิวัฒนาการไปถึงจุดที่โมเดล AI สามารถสร้างปรากฏการณ์แสงที่ซับซ้อนขึ้นใหม่ได้อย่างสมจริง เช่น การกระเจิงแสงใต้พื้นผิว (subsurface scattering) การส่องสว่างทั่วโลก (global illumination) และความชัดลึกที่ซับซ้อน สิ่งที่เริ่มต้นจากการทดลองความละเอียดต่ำในห้องปฏิบัติการทางวิชาการได้เบ่งบานกลายเป็นการปฏิวัติอุตสาหกรรมที่ส่งผลกระทบต่อการออกแบบกราฟิก การสร้างภาพยนตร์ สถาปัตยกรรม และการพัฒนาวิดีโอเกม

อย่างไรก็ตาม พลังอันมหาศาลของหลักการพื้นฐานเหล่านี้ยังนำมาซึ่งประเด็นพิจารณาทางสังคมและจริยธรรมที่สำคัญ เนื่องจากเครือข่ายเหล่านี้เรียนรู้โดยการค้นหารูปแบบทางสถิติในชุดข้อมูลที่มนุษย์สร้างขึ้น จึงมีแนวโน้มที่จะดูดซับและขยายอคติทางสังคม แบบแผนความเชื่อ หรือความไม่ถูกต้องทางประวัติศาสตร์ที่มีอยู่ในข้อมูลที่ใช้ฝึกฝน นอกจากนี้ ความง่ายที่โมเดลเหล่านี้สามารถจัดการกระบวนการแพร่ย้อนกลับ (reverse diffusion process) เพื่อสร้างภาพสังเคราะห์ที่สมบูรณ์แบบของมนุษย์จริงขึ้นมานั้น ได้ก่อให้เกิดความกังวลอย่างลึกซึ้งเกี่ยวกับความถูกต้องแท้จริงของข้อมูลดิจิทัล ข้อมูลเท็จ สิทธิในทรัพย์สินทางปัญญา และการกัดกร่อนความเชื่อมั่นต่อสื่อภาพโดยรวม เมื่อมองไปข้างหน้า การพัฒนาการสร้างภาพด้วย AI กำลังเคลื่อนตัวออกจากภาพ 2D แบบคงที่ และขยายตัวอย่างมีพลวัตเข้าสู่พื้นที่หลายมิติ หลักการพื้นฐานเดียวกันของการสังเคราะห์ข้อความเป็นภาพ (text-to-image synthesis) ในปัจจุบันกำลังถูกนำมาปรับใช้เพื่อขับเคลื่อนสถาปัตยกรรมข้อความเป็นวิดีโอ (text-to-video) ขั้นสูง การสร้างทรัพย์สิน 3D โดยอัตโนมัติ และสภาพแวดล้อมเสมือนจริงแบบโต้ตอบ การปฏิบัติต่อเวลาและความลึกเสมือนเป็นมิติทางคณิตศาสตร์เพิ่มเติมภายในพื้นที่แฝง (latent space) ทำให้เครือข่ายประสาทเทียมกำลังเรียนรู้ที่จะรักษาความสอดคล้องเชิงโครงสร้างและเชิงเวลาข้ามเฟรมภาพต่างๆ เมื่อประสิทธิภาพการคำนวณเพิ่มสูงขึ้นและสถาปัตยกรรมอัลกอริทึมได้รับการขัดเกลาให้ประณีตยิ่งขึ้น เส้นทางจากประกายแห่งจินตนาการของมนุษย์ไปสู่ความเป็นจริงดิจิทัลที่สมจริงจนแยกไม่ออกและถูกสร้างขึ้นอย่างสมบูรณ์นั้นจะสั้นลงเรื่อยๆ ซึ่งจะเปลี่ยนโฉมหน้าของความคิดสร้างสรรค์และการแสดงออกทางเทคโนโลยีของมนุษย์ไปตลอดกาล