
บิ๊กเทคสัญชาติจีน “Alibaba” ลุยพัฒนา “EMO” โมเดล AI สร้างวิดีโอจากภาพและเสียง ท้าชน “Sora” ของ “OpenAI” ที่เพิ่งเปิดตัวไปหมาด ๆ
วันที่ 1 มีนาคม 2567 ช่วงกลางเดือน ก.พ. ที่ผ่านมา “OpenAI” ผู้พัฒนาแชทบ็อตอัจฉริยะอย่าง “ChatGPT” ได้สร้างความฮือฮาครั้งใหญ่ในวงการเทคโนโลยีด้วยการเปิดตัว “Sora” โมเดล AI แบบ text-to-video ที่สร้างวิดีโอจากข้อความหรือการพิมพ์ “พรอมต์” (Prompt) เข้าไปในระบบ และแม้ว่า OpenAI จะยังไม่ได้เปิดให้ผู้ใช้ทั่วไปได้สัมผัสประสบการณ์การใช้งาน Sora โดยตรง แต่ก็เป็นสัญญาณที่สะท้อนถึงความเปลี่ยนแปลงที่จะเกิดขึ้นกับวงการสร้างสรรค์ในอนาคตได้ไม่น้อย
แต่ไม่ได้มี OpenAI เพียงรายเดียวที่พยายามพัฒนาโมเดล AI ในลักษณะนี้ เพราะยักษ์เทคสัญชาติจีนอย่าง “อาลีบาบา” (Alibaba) ก็ซุ่มพัฒนาโมเดล AI สำหรับสร้างวิดีโอเช่นกัน ภายใต้การทำงานของสถาบันวิจัยคอมพิวเตอร์อัจฉริยะของบริษัท โดยใช้ชื่อว่า “EMO” ที่สามารถสร้างวิดีโอจากภาพถ่ายและไฟล์เสียงที่ความยาวสูงสุดประมาณ 1.30 นาที เพื่อเป็นเฟรมเวิร์กสำหรับการปฏิวัติวงการวิดีโอแนวตั้ง
การทำงานของ EMO ต้องอาศัยการจับคู่ภาพกับไฟล์เสียงเพื่อให้เกิดวิดีโอใหม่ขึ้นมา เช่น ผู้ใช้อัปโหลดภาพถ่ายของผู้หญิงคนหนึ่ง พร้อมกับไฟล์เสียงที่พูดว่า “ฉันกินข้าวแล้ว เธอกินข้าวกับอะไร” ก็จะได้วิดีโอที่มีเนื้อหาเป็นผู้หญิงคนหนึ่งกำลังสนทนาด้วยประโยคดังกล่าว หรือถ้าเปลี่ยนจากบทพูดเป็นไฟล์เพลง Happy Birthday To You ก็จะได้วิดีโอที่มีเนื้อหาเป็นผู้หญิงคนหนึ่งกำลังร้องเพลงอวยพรวันเกิดอยู่แทน
รายงานบนเว็บไซต์ Pandaily สื่อออนไลน์ด้านเทคโนโลยีในจีน เปิดเผยว่า EMO สามารถสร้างวิดีโออวาตาร์ที่มีการแสดงออกทางสีหน้า ท่าโพส และการขยับศีรษะรูปแบบต่าง ๆ รองรับการแสดงผลในหลายภาษา ทำให้วิดีโอค่อนข้างมีความสมจริง รวมถึงยังสามารถสร้างวิดีโอตามระยะเวลาใดก็ได้ตามความยาวของวิดีโอที่อัปโหลด
ทั้งนี้ อัลกอริทึมที่ซ่อนอยู่เบื้องหลังการทำงานของ EMO คือเทคโนโลยี Audio2Video โมเดล AI ประเภท Diffusion Model ที่มีขั้นตอนในการพัฒนาหลัก ๆ 3 ขั้นตอน ได้แก่
- frame encoding โดยใช้ ReferenceNet แยกคุณสมบัติจากรูปภาพอ้างอิงและเฟรมการเคลื่อนไหว
- diffusion process stage หรือการเทียบเคียงข้อมูลใหม่กับฐานข้อมูลเดิมในระบบที่ผ่านการเทรนมาก่อนแล้ว เพื่อประมวลผลและฝังเสียงพูดให้เข้ากับการขยับของใบหน้า
- facilitate denoising operations หรือการลดสัญญาณรบกวนที่เกิดจากกระบวนการในขั้นตอนที่สอง ซึ่งมีผลต่อการรักษาเอกลักษณ์และปรับการกระทำของตัวละครตามลำดับ
อย่างไรก็ตาม การพัฒนา EMO เป็นหนึ่งในความเคลื่อนไหวด้าน AI ของ Alibaba โดยในปีที่ผ่านมาบริษัทมีความพยายามที่พัฒนาโมเดล AI ของตนเองอย่างต่อเนื่อง และเปิดตัวผลิตภัณฑ์เกี่ยวกับ AI มากมาย เช่น Qwen-VL โมเดลภาษาภาพขนาดใหญ่บน Alibaba Cloud, Outfit Any หรือ Diffusion Model สำหรับการแปลงใบหน้าของมนุษย์ และ Animate Any สำหรับการพัฒนาแคแรกเตอร์แอนิเมชั่น เป็นต้น
นอกจากนี้ อาลีบาบายังเป็นหนึ่งในบริษัทเทคโนโลยีรายใหญ่ด้านการพัฒนาโมเดลโอเพ่นซอร์สของจีน โดยสร้างและดำเนินการชุมชนโอเพ่นซอร์สในชื่อ “ModelScope” ที่เปิดตัวเมื่อปีที่แล้ว และมีจำนวนการดาวน์โหลดในชุมชนดังกล่าวมากกว่า 100 ล้านครั้ง ซึ่งก่อนหน้านี้ Alibaba ยังได้เปิดตัวแพลตฟอร์มบริการโมเดลขนาดใหญ่แบบครบวงจรในชื่อ “Aliyun Bailian”
อีกทั้งยังส่งเสริมการลงทุนในบริษัท AI ขนาดใหญ่บางแห่ง เช่น เดือน ก.พ. 2567 Alibaba เป็นผู้นำในการจัดหาเงินทุนรอบใหม่สำหรับ “MoonShot AI” ซึ่งเป็นทีมพัฒนา AI ในประเทศ ด้วยเงิน 1 พันล้านดอลลาร์สหรัฐ ผลักดันการประเมินมูลค่าของบริษัทให้สูงถึง 25 พันล้านดอลลาร์สหรัฐ และเป็นการจัดหาเงินทุนรอบที่ใหญ่ที่สุดสำหรับชาวจีน
ปัจจุบันทั้ง Alibaba และเทนเซนต์ (Tencent) ได้ดำเนินการสนับสนุนสตาร์ตอัพด้าน AI ในระยะเริ่มต้นผ่านวิธีการลงทุนที่หลากหลาย เพื่อส่งเสริมการพัฒนาโมเดล AI ขนาดใหญ่ในจีน ซึ่งข้อมูลของบริษัทวิจัย CB Insights ระบุว่า ในปี 2566 การลงทุนด้าน AI ของจีนมีอยู่ประมาณ 232 ข้อตกลง ลดลง 38% ส่วนมูลค่าทางการเงินอยู่ที่ 2 พันล้านดอลลาร์สหรัฐ ลดลง 70% เมื่อเทียบกับปีก่อน