ความสามารถของปัญญาประดิษฐ์ในการสร้างภาพเสมือนจริง งานศิลปะที่ซับซ้อน และการออกแบบทางภาพที่ประณีตจากคำสั่งที่เป็นข้อความง่ายๆ ถือเป็นหนึ่งในก้าวกระโดดทางเทคโนโลยีที่โดดเด่นที่สุดแห่งศตวรรษที่ 21 เป็นเวลาหลายทศวรรษที่กราฟิกคอมพิวเตอร์ต้องพึ่งพาอัลกอริทึมขั้นตอนวิธี การสร้างแบบจำลองทางเรขาคณิต และการจัดการด้วยมือโดยศิลปินมนุษย์อย่างเคร่งครัด ในปัจจุบัน โมเดล AI เชิงกำเนิดสามารถสังเคราะห์ภาพใหม่ทั้งหมดได้ในเวลาเพียงไม่กี่วินาที การเปลี่ยนแปลงกระบวนทัศน์นี้ไม่ได้เกิดขึ้นจากความเข้าใจทางศิลปะอย่างมีมนต์ขลัง แต่เกิดจากกรอบงานทางคณิตศาสตร์ขั้นสูง โครงสร้างพื้นฐานทางคอมพิวเตอร์ขนาดใหญ่ และการวิเคราะห์ทางสถิติเชิงลึกของข้อมูลภาพ เพื่อให้เข้าใจอย่างแท้จริงว่า AI สร้างภาพได้อย่างไร เราต้องมองข้ามส่วนติดต่อผู้ใช้ (user interface) และสำรวจสถาปัตยกรรมเบื้องหลังของโครงข่ายประสาทเทียม (neural networks) พื้นที่แทนข้อมูล (representation spaces) และการสร้างแบบจำลองความน่าจะเป็น หัวใจสำคัญของ AI เชิงกำเนิดทั้งหมดคือแนวคิดของการเรียนรู้ของเครื่องจากข้อมูลขนาดใหญ่ (big data) ก่อนที่ระบบจะสามารถสร้างภาพคุณภาพสูงของ “สุนัขโกลเด้นรีทรีฟเวอร์กำลังเล่นในสวนสาธารณะตอนพระอาทิตย์ตก” ได้นั้น ระบบจะต้องวิเคราะห์ภาพที่มีอยู่แล้วนับล้านหรือนับพันล้านภาพพร้อมกับคำบรรยายที่เป็นข้อความที่สอดคล้องกันเสียก่อน ขั้นตอนนี้เรียกว่า "การฝึกฝน" (training) ในระหว่างกระบวนการนี้ โครงข่ายประสาทเทียม ซึ่งเป็นโครงสร้างการคำนวณที่ซับซ้อนซึ่งได้รับแรงบันดาลใจจากเซลล์ประสาทที่เชื่อมต่อกันในสมองของมนุษย์ จะสแกนชุดข้อมูลเพื่อระบุรูปแบบ พื้นผิว รูปร่าง และสี โครงข่ายจะเรียนรู้ที่จะเชื่อมโยงการจัดเรียงพิกเซลเฉพาะกับแนวคิดทางความหมาย เช่น พื้นผิวที่ฟูของขนสัตว์ คุณสมบัติการสะท้อนแสงของน้ำ หรือเฉดสีอบอุ่นอันเป็นเอกลักษณ์ของท้องฟ้ายามเย็น เมื่อเวลาผ่านไป ระบบจะเปลี่ยนจากการเพียงแค่จดจำวัตถุ ไปสู่การเข้าใจความสัมพันธ์ทางสถิติระหว่างวัตถุเหล่านั้น

อย่างไรก็ตาม โมเดล AI ไม่ได้เก็บฐานข้อมูลรูปภาพมหาศาลไว้ในหน่วยความจำเพื่อคัดลอกและวางในภายหลัง แนวทางดังกล่าวจะไม่มีประสิทธิภาพอย่างยิ่งและไม่สามารถสร้างผลงานศิลปะที่เป็นต้นฉบับอย่างแท้จริงได้ ในทางกลับกัน กระบวนการฝึกฝนจะบังคับให้โมเดลบีบอัดมหาสมุทรข้อมูลภาพอันกว้างใหญ่นี้ให้กลายเป็นแนวคิดที่จัดระเบียบทางคณิตศาสตร์ที่เรียกว่า "พื้นที่แฝง" (latent space) พื้นที่แฝงสามารถอธิบายได้ว่าเป็นระบบพิกัดหลายมิติที่มองไม่เห็น ซึ่งแนวคิดที่คล้ายกันจะถูกจัดกลุ่มไว้ใกล้กัน ตัวอย่างเช่น ในอาณาจักรทางคณิตศาสตร์ที่ซ่อนอยู่นี้ เวกเตอร์ที่แสดงถึง “สุนัข” จะอยู่ใกล้กับเวกเตอร์สำหรับ “แมว” ภายใต้กลุ่ม “สัตว์” ที่กว้างขึ้น ในขณะที่พิกัดสำหรับ “พระอาทิตย์ตก” จะถูกวางไว้ใกล้กับ “พระอาทิตย์ขึ้น” และ “พลบค่ำ” เมื่อผู้ใช้ป้อนคำสั่ง (prompt) AI จะนำทางผ่านพื้นที่ทางคณิตศาสตร์นี้ โดยหาจุดตัดที่แม่นยำของแนวคิดที่ร้องขอเพื่อใช้เป็นพิมพ์เขียวสำหรับผลลัพธ์
วิวัฒนาการของสถาปัตยกรรม: จาก GAN ไปสู่ Variational Autoencoders
เพื่อให้เข้าใจสถานะปัจจุบันของการสร้างภาพด้วย AI การติดตามสายวิวัฒนาการของสถาปัตยกรรมหลักนั้นเป็นสิ่งสำคัญ ก้าวสำคัญแรกในการสังเคราะห์ภาพที่น่าเชื่อถือเกิดขึ้นจากการแนะนำเครือข่ายปรปักษ์กำเนิด (Generative Adversarial Networks) หรือที่เรียกกันทั่วไปว่า GAN แนวคิด GAN ถูกคิดค้นขึ้นในปี 2014 โดยทำงานบนหลักการแข่งขันที่ชาญฉลาด ซึ่งเกี่ยวข้องกับโครงข่ายประสาทเทียมสองเครือข่ายที่ทำหน้าที่เป็นคู่แข่งกัน ได้แก่ ตัวสร้าง (Generator) และตัวจำแนก (Discriminator) เป้าหมายเดียวของตัวสร้างคือการสร้างภาพจากสัญญาณรบกวนทางคณิตศาสตร์แบบสุ่ม ในขณะที่บทบาทของตัวจำแนกคือการประเมินภาพนั้นเมื่อเทียบกับชุดข้อมูลของภาพถ่ายจริงที่มนุษย์สร้างขึ้น และตัดสินว่าภาพที่สร้างขึ้นนั้น "จริง" หรือ "ปลอม"
กระบวนการทำงานของสถาปัตยกรรม GAN
ความสัมพันธ์แบบปรปักษ์นี้ทำให้เกิดวงจรป้อนกลับที่มีประสิทธิภาพสูง ในช่วงแรก ตัวสร้าง (Generator) จะผลิตได้เพียงสัญญาณรบกวนที่ไม่สอดคล้องกันเท่านั้น อย่างไรก็ตาม เมื่อตัวจำแนก (Discriminator) สามารถตรวจพบข้อบกพร่องเหล่านี้ได้อย่างง่ายดายและปฏิเสธผลลัพธ์เหล่านั้น ตัวสร้างจึงถูกบีบให้ต้องปรับพารามิเตอร์ภายในเพื่อสร้างโครงสร้างที่น่าเชื่อถือมากขึ้น ในทางกลับกัน เมื่อตัวสร้างมีความชำนาญในการเลียนแบบความเป็นจริงมากขึ้น ตัวจำแนกก็ต้องมีความซับซ้อนมากขึ้นเพื่อตรวจหาความไม่สอดคล้องที่ละเอียดอ่อน การแข่งขันนี้ดำเนินไปอย่างต่อเนื่องและในที่สุดก็ทำให้ GAN สามารถสร้างใบหน้าและวัตถุที่คมชัดและมีความละเอียดสูงได้อย่างน่าทึ่ง แม้จะประสบความสำเร็จ แต่ GAN ก็ยังมีข้อจำกัดที่โดดเด่น เช่น "โหมดล่ม" (mode collapse) ซึ่งเป็นรูปแบบความล้มเหลวที่ตัวสร้างพบผลลัพธ์เพียงอย่างเดียวที่สามารถหลอกตัวจำแนกได้ และสร้างภาพเดิมซ้ำๆ กัน ซึ่งจำกัดความหลากหลายในการสร้างสรรค์อย่างรุนแรง
ในเวลาเดียวกัน นักวิจัยได้สำรวจสถาปัตยกรรมพื้นฐานอีกแบบหนึ่งที่เรียกว่า Variational Autoencoders (VAEs) ซึ่งแตกต่างจากกรอบการทำงานเชิงแข่งขันของ GAN ตรงที่ VAE เน้นหนักไปที่การบีบอัดและการสร้างข้อมูลใหม่ VAE ประกอบด้วยตัวเข้ารหัส (encoder) ที่รับภาพขาเข้าและบีบอัดให้เป็นตัวแทนในพื้นที่แฝง (latent representation) ที่มีมิติต่ำและมีประสิทธิภาพสูง โดยจับเฉพาะลักษณะโครงสร้างที่สำคัญที่สุดเท่านั้น ส่วนประกอบที่สองคือตัวถอดรหัส (decoder) จะนำตัวแทนที่ถูกบีบอัดนี้มาขยายกลับเป็นภาพต้นฉบับให้แม่นยำที่สุดเท่าที่จะเป็นไปได้ การทำให้พื้นที่ที่ถูกบีบอัดนี้มีความปกติ (regularizing) ช่วยให้มั่นใจได้ว่าภูมิทัศน์แฝง (latent landscape) จะมีความราบรื่นและต่อเนื่อง ซึ่งหมายความว่าหากคุณเลือกจุดสุ่มระหว่างพิกัดของ "วงกลม" และ "สี่เหลี่ยม" ตัวถอดรหัสจะแสดงผลออกมาเป็นสี่เหลี่ยมมุมมนได้อย่างราบรื่น แม้ว่า VAE จะให้ความเสถียรและความหลากหลายที่ยอดเยี่ยม แต่ผลลัพธ์สุดท้ายมักมีความเบลออย่างเห็นได้ชัด ซึ่งไม่สามารถจับรายละเอียดที่คมชัดและซับซ้อนที่ผู้ชมคาดหวังจากงานศิลปะที่มีความเที่ยงตรงสูงได้
พลังพิเศษแห่งยุคสมัยใหม่: โมเดลการแพร่ (Diffusion Models) และกลไกของสัญญาณรบกวน
ภูมิทัศน์ร่วมสมัยของการสร้างภาพด้วย AI ซึ่งถูกครอบงำโดยระบบชั้นนำของอุตสาหกรรมอย่าง Midjourney, DALL-E และ Stable Diffusion ขับเคลื่อนโดยเทคโนโลยีที่ก้าวล้ำรูปแบบใหม่ที่เรียกว่า โมเดลการแพร่ (Diffusion Models) โดยได้รับแรงบันดาลใจจากแนวคิดทางอุณหพลศาสตร์นอกสมดุล (non-equilibrium thermodynamics) โมเดลการแพร่ได้พลิกโฉมกระบวนทัศน์เดิมของการสังเคราะห์ภาพไปโดยสิ้นเชิง แทนที่จะพยายามสร้างภาพจากศูนย์ในคราวเดียว โมเดลเหล่านี้มองปัญหาว่าเป็นกระบวนการทำความสะอาดภาพทีละขั้นตอน โดยเรียนรู้ที่จะสร้างภาพที่มีความซับซ้อนผ่านการฝึกฝนศิลปะของการทำลายอย่างมีการควบคุม (controlled destruction) และการสร้างใหม่ที่เป็นระบบ (systematic reconstruction)
กลไกของโมเดลการแพร่แบ่งออกเป็นสองระยะหลัก: กระบวนการแพร่ไปข้างหน้า (forward diffusion process) และกระบวนการแพร่ย้อนกลับ (reverse diffusion process) ในกระบวนการไปข้างหน้า ระบบจะนำภาพฝึกฝนที่ชัดเจนสมบูรณ์แบบมาและค่อยๆ เติมสัญญาณรบกวนแบบเกาส์เซียน (Gaussian noise) เข้าไปทีละน้อยตลอดระยะเวลาหลายร้อยขั้นตอน เมื่อขั้นตอนดำเนินไป โครงสร้างเดิมของภาพจะค่อยๆ เสื่อมสภาพลง จนกระทั่งสิ้นสุดกระบวนการไปข้างหน้า ภาพจะถูกทำลายจนหมดสิ้น กลายเป็นเพียงกลุ่มพิกเซลสุ่มที่ไร้ความหมาย คล้ายกับสัญญาณรบกวน (white noise) บนหน้าจอโทรทัศน์รุ่นเก่าที่ไม่มีสัญญาณ
กระบวนการแพร่
การแพร่ไปข้างหน้า
การแพร่ย้อนกลับ
เวทมนตร์ที่แท้จริงเกิดขึ้นในระหว่างกระบวนการแพร่ย้อนกลับ (reverse diffusion process) ซึ่งเป็นขั้นตอนที่ภาพถูกสร้างขึ้นจริง เครือข่ายประสาทเทียม (neural network) ที่มักใช้สถาปัตยกรรมที่เรียกว่า U-Net จะได้รับการฝึกฝนให้สังเกตภาพที่มีระดับสัญญาณรบกวนในระดับหนึ่ง และทำนายอย่างแม่นยำว่ามีการเติมสัญญาณรบกวนเข้าไปเท่าใดในขั้นตอนก่อนหน้า ด้วยการฝึกฝนเครือข่ายด้วยตัวอย่างนับพันล้านตัวอย่าง เครือข่ายจึงเรียนรู้ที่จะลบสัญญาณรบกวนที่ทำนายไว้ออกได้อย่างแม่นยำอย่างน่าทึ่ง ดังนั้น เมื่อผู้ใช้ขอภาพใหม่ AI จะเริ่มต้นจากผืนผ้าใบที่เป็นสัญญาณรบกวนทางคณิตศาสตร์แบบสุ่ม จากนั้นจึงนำ U-Net ที่ผ่านการฝึกฝนมาประยุกต์ใช้อย่างเป็นลำดับขั้นตอน โดยค่อยๆ กำจัดชั้นของสัญญาณรบกวนออกทีละชั้น ในแต่ละรอบของการทำซ้ำ รูปร่างที่คลุมเครือจะเริ่มก่อตัวชัดเจนขึ้นจากความโกลาหล เปลี่ยนจากกลุ่มก้อนที่ไร้รูปแบบให้กลายเป็นขอบ พื้นผิวที่ชัดเจน และสุดท้ายก็กลายเป็นภาพที่สมบูรณ์แบบ มีรายละเอียดสูง และมีความสอดคล้องกัน
การเชื่อมโยงคำและพิกเซล: บทบาทของการเรียนรู้ล่วงหน้าแบบเปรียบต่างระหว่างภาษาและรูปภาพ (CLIP)
แม้ว่าโมเดลการแพร่ (diffusion models) จะมีความสามารถเป็นเลิศในการเปลี่ยนสัญญาณรบกวนแบบสุ่มให้เป็นภาพที่มีโครงสร้าง แต่โดยเนื้อแท้แล้วพวกมันไม่มีความสามารถในการเข้าใจภาษาพูดหรือข้อความที่เขียนโดยมนุษย์ เพื่อเชื่อมช่องว่างระหว่างภาษาของมนุษย์และพิกเซลภาพ ระบบการสร้างภาพในยุคใหม่จึงต้องพึ่งพาชั้นการแปล (translation layer) ที่สำคัญ ซึ่งตัวอย่างที่โด่งดังที่สุดคือ CLIP (Contrastive Language-Image Pre-training) ของ OpenAI หากปราศจากกลไกอย่าง CLIP โมเดลการแพร่จะสามารถสร้างทิวทัศน์หรือวัตถุที่สวยงามแต่ไร้จุดหมายออกมาได้เท่านั้น และไม่มีทางทราบได้เลยว่าจะจัดวางผลงานสร้างสรรค์เหล่านั้นให้สอดคล้องกับคำสั่งที่เป็นข้อความชัดเจนของผู้ใช้อย่างไร
CLIP ได้รับการฝึกฝนบนชุดข้อมูลขนาดมหึมาของคู่ภาพและข้อความที่รวบรวมมาจากทั่วอินเทอร์เน็ต เป้าหมายหลักคือการเรียนรู้พื้นที่การฝังตัวร่วม (shared embedding space) ที่ซึ่งคำบรรยายที่เป็นข้อความและรูปภาพที่สอดคล้องกันจะถูกแมปไปยังเวกเตอร์ทางคณิตศาสตร์เดียวกันทุกประการ ตัวอย่างเช่น ประโยคที่ว่า “เส้นขอบฟ้าของเมืองไซเบอร์พังค์แห่งอนาคต” และภาพวาดดิจิทัลของเขตเมืองที่เต็มไปด้วยแสงนีออน จะถูกนำทางไปยังพิกัดเดียวกันภายในพื้นที่หลายมิตินี้ โมเดลบรรลุเป้าหมายนี้ผ่านการเรียนรู้แบบเปรียบต่าง (contrastive learning) โดยการเพิ่มความสอดคล้องทางคณิตศาสตร์ระหว่างคู่ที่จับคู่กันให้สูงสุด ในขณะเดียวกันก็ลดความสอดคล้องระหว่างข้อความและรูปภาพที่ไม่เกี่ยวข้องกันให้น้อยที่สุดอย่างจริงจัง

เมื่อผู้ใช้พิมพ์คำสั่ง (prompt) ลงในเครื่องมือสร้างภาพด้วย AI ข้อความนั้นจะถูกส่งไปยังส่วนประกอบตัวเข้ารหัสข้อความ (text encoder) ของเครือข่าย CLIP ทันที ตัวเข้ารหัสนี้จะแปลงชุดคำให้เป็นเวกเตอร์ตัวเลขที่มีความหนาแน่น ซึ่งรวบรวมความหมายเชิงอรรถศาสตร์ของคำขอนั้นเอาไว้ จากนั้นเวกเตอร์ข้อความนี้จะถูกฉีดเข้าไปในกระบวนการแพร่ย้อนกลับ (reverse diffusion process) เพื่อเป็นแรงนำทาง โดยมักผ่านกลไกที่เรียกว่า "ความสนใจข้ามส่วน" (cross-attention) ในขณะที่สถาปัตยกรรม U-Net ทำงานเพื่อกำจัดสัญญาณรบกวนออกจากผืนผ้าใบที่เป็นสัญญาณสถิตเริ่มต้น มันจะตรวจสอบความคืบหน้าเทียบกับเวกเตอร์ข้อความของ CLIP อยู่ตลอดเวลา กลไกความสนใจ (attention mechanisms) จะเป็นตัวควบคุมกระบวนการกำจัดสัญญาณรบกวน เพื่อให้แน่ใจว่าโครงสร้างที่ปรากฏขึ้นจากความโกลาหลนั้นสอดคล้องอย่างแม่นยำกับแนวคิด สไตล์ และวัตถุที่ผู้ใช้ระบุไว้ในคำสั่ง
การแพร่ในพื้นที่แฝง (Latent Diffusion) และการเพิ่มประสิทธิภาพ: ทำให้ความละเอียดสูงเป็นสิ่งที่เข้าถึงได้
ในช่วงแรกของการพัฒนาโมเดลการแพร่ (diffusion models) ทรัพยากรการคำนวณที่จำเป็นในการสร้างภาพความละเอียดสูงนั้นมหาศาลมาก การประมวลผลทุกพิกเซลของภาพขนาด 1024×1024 ผ่านขั้นตอนนับร้อยของโครงข่ายประสาทเทียมเชิงลึกต้องใช้ VRAM จำนวนมหาศาลและพลังการประมวลผลที่สูงมาก ทำให้การใช้งานบนฮาร์ดแวร์ทั่วไปหรือการเผยแพร่ในวงกว้างเป็นเรื่องที่เป็นไปไม่ได้เลย ข้อจำกัดนี้เองที่นำไปสู่การคิดค้นโมเดลการแพร่ในพื้นที่แฝง (Latent Diffusion Models หรือ LDMs) ซึ่งเป็นเทคนิคการเพิ่มประสิทธิภาพแบบปฏิวัติวงการที่กลายเป็นกระดูกสันหลังของโมเดลโอเพนซอร์สอย่าง Stable Diffusion นวัตกรรมหลักของ Latent Diffusion คือกระบวนการกำจัดสัญญาณรบกวนทั้งหมดไม่ได้เกิดขึ้นในพื้นที่พิกเซลจริงที่มีขนาดใหญ่และมีความละเอียดสูง แต่ระบบจะใช้ตัวเข้ารหัสอัตโนมัติ (Autoencoder) ที่ทรงพลังเพื่อบีบอัดภาพเริ่มต้นให้เป็นพื้นที่แฝง (latent space) ที่มีขนาดเล็กลงและมีความละเอียดต่ำกว่าก่อนที่จะเกิดการแพร่ ตัวอย่างเช่น ภาพที่ปกติประกอบด้วยค่าพิกเซลสีแดง สีเขียว และสีน้ำเงินนับล้านค่า จะถูกบีบอัดให้เป็นรูปแบบทางคณิตศาสตร์ที่กะทัดรัดซึ่งมีขนาดเพียงเศษเสี้ยวของขนาดเดิม แต่ยังคงรักษาข้อมูลทางความหมายและโครงสร้างที่สำคัญทั้งหมดไว้ได้
เมื่อภาพถูกจัดเก็บไว้อย่างปลอดภัยในพื้นที่แฝง (latent space) ที่มีประสิทธิภาพนี้ กระบวนการแพร่ไปข้างหน้าและย้อนกลับก็จะเกิดขึ้น เนื่องจากเครือข่ายประสาทเทียมเพียงแค่จัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมและถูกบีบอัดไว้อย่างสูง แทนที่จะต้องจัดการกับพิกเซลนับล้าน ทำให้ภาระงานในการคำนวณลดลงอย่างมาก สิ่งนี้ช่วยให้โมเดลทำงานได้อย่างมีประสิทธิภาพบนการ์ดจอสำหรับผู้ใช้งานทั่วไป เมื่อกระบวนการแพร่ย้อนกลับเสร็จสิ้นและสัญญาณรบกวนถูกกำจัดออกจากพื้นที่แฝงได้สำเร็จ เวกเตอร์แฝงที่ได้รับการปรับให้เหมาะสมที่สุดจะถูกส่งผ่านส่วนประกอบตัวถอดรหัส (decoder) ของตัวเข้ารหัสอัตโนมัติ (Autoencoder) ตัวถอดรหัสจะแปลตัวเลขที่เป็นนามธรรมเหล่านั้นกลับไปเป็นโดเมนของพิกเซล ซึ่งจะขยายเวกเตอร์ขนาดกะทัดรัดให้กลายเป็นภาพที่กว้างใหญ่ คมชัด และมีความละเอียดสูงให้ผู้ใช้ได้เห็นในทันที
จริยธรรม ความสมจริง และอนาคตของสื่อสังเคราะห์
ในขณะที่กรอบทางคณิตศาสตร์และสถาปัตยกรรมของปัญญาประดิษฐ์เชิงสร้างสรรค์ยังคงพัฒนาเต็มที่ เส้นแบ่งที่แยกสื่อสังเคราะห์ออกจากความเป็นจริงก็กำลังเลือนหายไปอย่างรวดเร็ว หลักการพื้นฐานของการแพร่ (diffusion) พื้นที่แฝง (latent spaces) และการปรับตำแหน่งข้อความด้วยความสนใจข้ามส่วน (cross-attention text alignment) ได้วิวัฒนาการไปถึงจุดที่โมเดล AI สามารถสร้างปรากฏการณ์แสงที่ซับซ้อนขึ้นใหม่ได้อย่างสมจริง เช่น การกระเจิงแสงใต้พื้นผิว (subsurface scattering) การส่องสว่างทั่วโลก (global illumination) และความชัดลึกที่ซับซ้อน สิ่งที่เริ่มต้นจากการทดลองความละเอียดต่ำในห้องปฏิบัติการทางวิชาการได้เบ่งบานกลายเป็นการปฏิวัติอุตสาหกรรมที่ส่งผลกระทบต่อการออกแบบกราฟิก การสร้างภาพยนตร์ สถาปัตยกรรม และการพัฒนาวิดีโอเกม
อย่างไรก็ตาม พลังอันมหาศาลของหลักการพื้นฐานเหล่านี้ยังนำมาซึ่งประเด็นพิจารณาทางสังคมและจริยธรรมที่สำคัญ เนื่องจากเครือข่ายเหล่านี้เรียนรู้โดยการค้นหารูปแบบทางสถิติในชุดข้อมูลที่มนุษย์สร้างขึ้น จึงมีแนวโน้มที่จะดูดซับและขยายอคติทางสังคม แบบแผนความเชื่อ หรือความไม่ถูกต้องทางประวัติศาสตร์ที่มีอยู่ในข้อมูลที่ใช้ฝึกฝน นอกจากนี้ ความง่ายที่โมเดลเหล่านี้สามารถจัดการกระบวนการแพร่ย้อนกลับ (reverse diffusion process) เพื่อสร้างภาพสังเคราะห์ที่สมบูรณ์แบบของมนุษย์จริงขึ้นมานั้น ได้ก่อให้เกิดความกังวลอย่างลึกซึ้งเกี่ยวกับความถูกต้องแท้จริงของข้อมูลดิจิทัล ข้อมูลเท็จ สิทธิในทรัพย์สินทางปัญญา และการกัดกร่อนความเชื่อมั่นต่อสื่อภาพโดยรวม เมื่อมองไปข้างหน้า การพัฒนาการสร้างภาพด้วย AI กำลังเคลื่อนตัวออกจากภาพ 2D แบบคงที่ และขยายตัวอย่างมีพลวัตเข้าสู่พื้นที่หลายมิติ หลักการพื้นฐานเดียวกันของการสังเคราะห์ข้อความเป็นภาพ (text-to-image synthesis) ในปัจจุบันกำลังถูกนำมาปรับใช้เพื่อขับเคลื่อนสถาปัตยกรรมข้อความเป็นวิดีโอ (text-to-video) ขั้นสูง การสร้างทรัพย์สิน 3D โดยอัตโนมัติ และสภาพแวดล้อมเสมือนจริงแบบโต้ตอบ การปฏิบัติต่อเวลาและความลึกเสมือนเป็นมิติทางคณิตศาสตร์เพิ่มเติมภายในพื้นที่แฝง (latent space) ทำให้เครือข่ายประสาทเทียมกำลังเรียนรู้ที่จะรักษาความสอดคล้องเชิงโครงสร้างและเชิงเวลาข้ามเฟรมภาพต่างๆ เมื่อประสิทธิภาพการคำนวณเพิ่มสูงขึ้นและสถาปัตยกรรมอัลกอริทึมได้รับการขัดเกลาให้ประณีตยิ่งขึ้น เส้นทางจากประกายแห่งจินตนาการของมนุษย์ไปสู่ความเป็นจริงดิจิทัลที่สมจริงจนแยกไม่ออกและถูกสร้างขึ้นอย่างสมบูรณ์นั้นจะสั้นลงเรื่อยๆ ซึ่งจะเปลี่ยนโฉมหน้าของความคิดสร้างสรรค์และการแสดงออกทางเทคโนโลยีของมนุษย์ไปตลอดกาล