
OpenAI ผู้พัฒนา ChatGPT สร้างความฮือฮาอีกครั้ง ปล่อยวิดีโอที่สร้างจากโมเดลเอไอ Sora AI สมจริง มีความละเอียดสูง ใช้งานง่าย ท้าทายอุตสาหกรรมสร้างสรรค์ สร้างข้อกังวลเรื่องศีลธรรม-อาชญากรรม ต้องพิจารณากรอบใช้งานยังพร้อมเปิดให้ใช้ทางการ
วันที่ 17 กุมภาพันธ์ 2567 หลังจาก OpenAI เปิดตัว ChatGPT ในปีที่ผ่านมาได้สร้างแรงกระเพื่อมเป็นวงกว้างต่ออุตสาหกรรมเทคโนโลยี และอุตสาหกรรมสร้างสรรค์ ทั้งในแง่การใช้ในการเขียน หรือสร้างภาพเสมือน ที่สร้างข้อถกเถียงไปอย่างกว้างขวางในเรื่องลิขสิทธิ์ และความรับผิดชอบในการใช้งานเอไอ สร้างภาพหลอกลวงผู้คน
ล่าสุด OpenAI สร้างความฮือฮาอีกครั้งกับ Sora AI โมเดลเอไอตัวใหม่ที่ใช้เทคนิก Text to Video ที่โชว์ฟุตเทตวิดีโอ 1 นาทีที่แสดงรายละเอียดสมจริง และมีความละเอียดสูง ซ้ำยังเป็นเนื้อหาที่ดูราวหลุดจากจินตนาการ ซึ่งเป็นความก้าวหน้าอีกขั้นของเทคโนโลยีปัญญาประดิษฐ์เชิงสร้างสรรค์ ในการใช้คำสั่งเพียงไม่กี่บรรทัด สร้างวิดีโอยาวหนึ่งนาที
แม้ว่าการใช้ปัญญาประดิษฐ์ขั้นสูงสำหรับทำภาพเคลื่อนไหวและวิดีโอนั้นมามานานแล้วตั้งแต่ครั้งการพัฒนาโมเดล Text to Image แต่ต้องนำไปผ่านขั้นตอนอีกหลายขั้นจึงได้วิดีโอมา แต่สำหรับ Sora AI อาจเป็นความก้าวหน้าครั้งใหญ่ เนื่องจากเพียงป้อนคำสั่งแล้วก็ Generate วิดีโอออกมาโดยตรง
Sora AI คืออะไร
Sora AI คือ โมเดลปัญญาประดิษฐ์ ที่ใช้ diffusion model สามารถสร้างวิดีโอที่มีความยาวสูงสุด 1 นาที สามารถสร้างวิดีโอทั้งหมดพร้อมกันหรือขยายความยาววิดีโอที่สร้างขึ้นได้ ด้วยการให้โมเดลมองเห็นล่วงหน้า (the model foresight) ซ้อนหลายเฟรม
พื้นฐานมาจากโมเดล GPT (Generative Pre-training Transformer) Sora ใช้สถาปัตยกรรม diffusion model เพื่อปลดล็อกประสิทธิภาพ โดย OpenAI สามารถฝึก Diffusion model บนข้อมูลภาพได้หลากหลายกว่าที่เคยเป็นไปได้ โดยครอบคลุมระยะเวลา ความละเอียด และอัตราส่วนภาพที่แตกต่างกัน
Sora ต่อยอดงานวิจัยที่ผ่านมาในโมเดล DALL·E และ GPT ใช้เทคนิคการสรุปคำบรรยายจาก DALL·E 3 ซึ่งเข้าใจคำอธิบายด้วยข้อความที่มีรายละเอียด มีความเข้าใจด้านภาษาในระดับสูง ทำให้สามารถตีความข้อความคำสั่งจากผู้ใช้งาน เพื่อนำมาสร้างวิดีโอที่มีชีวิตชีวา และแสดงอารมณ์ความรู้สึกของตัวละครต่าง ๆ ได้อย่างน่าสนใจ
Sora สามารถสร้างฉากที่ซับซ้อนด้วยตัวละครหลายตัว การเคลื่อนไหวประเภทเฉพาะ และรายละเอียดที่แม่นยำของวัตถุ และพื้นหลัง แบบจำลองนี้ไม่เพียงแต่เข้าใจถึงสิ่งที่ผู้ใช้สั่งใน Prompt เท่านั้น แต่ยังเชื่อมโยงและเข้าใจคำสั่งผ่านสิ่งที่มีอยู่ในโลกทางกายภาพ แต่ยังต้องมีการพัฒนาความซับซ้อนเรื่องการแยกแยะซ้ายขวา มุมมกล้องที่เฉพาะทาง เป็นต้น

Sora OpenAI ใช้งานได้เมื่อไหร่ ใช้งานได้อย่างไร
ในฟอรั่มพูดคุยของเหล่านักพัฒนาซอฟต์แวร์มีความคึกคักยิ่งในช่วงที่มีการเปิดตัว Sora OpenAI การพูดคุยส่วนใหญ่เป็นการถามว่าจะมีการเปิดตัวให้ทดลองใช้ช่วงเวลาใด และเมื่อไหร่ อย่างไรก็ตาม Sora ยังอยู่ในช่วงการพัฒนา
คนกลุ่มแรก ๆ ที่จะได้ใช้เห็นจะเป็นกลุ่มนักวิจัยและนักพัฒนาที่คัดเลือกมาเป็นพิเศษ รวมถึงศิลปินทัศนศิลป์ นักออกแบบ และผู้สร้างภาพยนตร์จำนวนหนึ่ง เพื่อศึกษาวิธีพัฒนาโมเดลให้มีประโยชน์มากที่สุดสำหรับมืออาชีพด้านงานสร้างสรรค์ รวมถึงข้อเสนอแนะจากผู้คนภายนอก เพื่อทำรายงานห้สาธารณชนได้รู้ว่าความสามารถของ Sora OpenAI นั้นจะมีขอบเขตอย่างไร
การศึกษาและประเมินข้อมูลเบื้องต้นเหล่านี้ สำหรับระบุความเสี่ยงและข้อกังวลด้านลิขสิทธิ์ และศีลธรรมที่อาจเกิดขึ้น เพราะปฏิเสธไม่ได้ว่าเมื่อคราวที่โมเดลเอไอ Text to Image หรือเอไอสร้างภาพศิลปะแพร่หลายในปีที่ผ่านมานั้น นำมาสู่ข้อถกเถียงและการฟ้องร้องเกี่ยวกับการละเมิดลิขสิทธิ์นับไม่ถ้วน มิหนำซ้ำยังมีการฉวยใช้เทคโนโลยีเพื่อต่อยอดทำ ดีปเฟค เสียงสังเคราะห์ และอื่น ๆ สำหรับการหลอกลวงทางไซเบอร์ที่เพิ่มขึ้นเท่าทวี
คาดการณ์ว่า วิธีใช้งาน Sora OpenAI จะใช้ผ่านหน้าเว็บไซต์ของ OpenAI คล้ายกับ ChatGPT ซึ่งต้องพึ่งพาทักษะการ เขียนคำสั่ง (Prompt) ในช่องข้อความที่กำหนด เพื่อให้ Sora AI สร้างวิดีโอ คำสั่งอาจเป็นเพียงไม่กี่ประโยค แต่จะต้องมีความชัดเจนในวัตถุ และการนำเสนอผ่านมุมมองรายละเอียดแสง ฉาก และอื่นๆ
ตัวอย่างเช่น คำสั่งให้สร้างวิดีโอในภาพปก และที่โชว์ในเว็บไซต์ของ OpenAI ว่า ต้องระบุรายละเอียดตั้งแต่ตัวละคร ฉากหลังคือถนนในนครโตเกียว รายละเอียดเสื้อผ้า รองเท้า กระเป๋าถือ ให้ถึงสีลิปสติก ทั้งยังมีการระบุท่าทางด้วยว่าต้องแสดงความมั่นใจขณะเดิน ก่อนจะอธิบายการเล่นสีแสงเงาสะท้อนในวิดีโอ