ผุด “ธนาคารข้อมูลแห่งชาติ” ทำ AI ภาษาไทย เหนือกว่าโมเดลต้นแบบได้
BDI ครบรอบสองปี ประกาศเดินหน้าสามแกนหลักต่อ โมเดลเอไอภาษาไทยแบบโอเพนซอร์ซ สามารถเหนือกว่าโมเดลต้นแบบในตลาดโลกได้ ด้วยความหลากหลายของข้อมูลภาษาไทย พร้อมดันการเชื่อมโยงข้อมูลภาครัฐ แพลตฟอร์มบิ๊กดาต้า และการพัฒนากำลังคน
นายประเสริฐ จันทรรวงทอง รองนายกรัฐมนตรีและรัฐมนตรีว่าการกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม (ดีอี) กล่าวว่า ประเทศไทยกำลังเข้าสู่จังหวะสำคัญของการเปลี่ยนผ่านสู่ยุคดิจิทัลที่ข้อมูลและปัญญาประดิษฐ์ (AI) ไม่ใช่เพียงเครื่องมือสนับสนุน แต่กลายเป็นโครงสร้างพื้นฐานใหม่ของประเทศ รัฐบาลจึงได้เร่งขับเคลื่อนนโยบายดิจิทัลเชิงรุก เพื่อให้เทคโนโลยีทำงานร่วมกับนโยบายอย่างบูรณาการ
“ผมยังจำช่วงแรกที่เข้ามากำกับดูแลกระทรวงดีอีใหม่ๆ สถาบันข้อมูลขนาดใหญ่ หรือ BDI ก็เพิ่งจะก่อตั้งแยกมาได้ไม่นาน ในวันนั้นการจะขอเชื่อมโยงข้อมูลภาครัฐเข้าด้วยกันเป็นเรื่องยากลำบาก เพราะต่างคนต่างทำ แต่ที่ผ่านมา BDI ได้กลายเป็นองค์กรสำคัญที่เป็นตัวกลางในการเชื่อมโญงข้อมูล เพื่อนำไปสู่การตัดสินใจเชิงนโยบาย และอยู่เบื้องหลังโครงการของรัฐมากมาย”
กล่าวได้ว่า ได้เปลี่ยนวิธีการทำงานของภาครัฐ ไปแล้ว
ในด้านการพัฒนาปัญญาประดิษฐ์ นอกจากเรื่องการจัดการข้อมูลมหาศาลให้ได้แล้ว หนึ่งในก้าวสำคัญคือการจัดตั้ง ‘คณะกรรมการ AI แห่งชาติ’ เพื่อกำหนดทิศทางการพัฒนา AI ของประเทศให้มีประสิทธิภาพ โปร่งใส และเกิดประโยชน์สูงสุด พร้อมการลงทุนในโครงสร้างพื้นฐานที่จำเป็น เช่น Cloud, Data Center, GPU Computing และแพลตฟอร์มโอเพนซอร์ส เพื่อรองรับการเติบโตของนวัตกรรมดิจิทัลในระยะยาว
อีกหนึ่งภารกิจสำคัญ คือ การจัดตั้ง ‘National Data Bank’ ซึ่งรัฐบาลมุ่งหวังให้เป็นกลไกกลางในการรวบรวม จัดการ และเปิดใช้ข้อมูลขนาดใหญ่ของประเทศอย่างปลอดภัยและโปร่งใส โดยมี BDI กระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม ร่วมกับ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม ทำหน้าที่หลักในการออกแบบระบบและผลักดันการดำเนินงาน เพื่อให้ข้อมูลกลายเป็นรากฐานของการวางแผนเชิงนโยบาย การสร้างบริการสาธารณะ และการพัฒนานวัตกรรมที่ตอบโจทย์ของประเทศคมโดยรวม
รศ. ดร.ธีรณี อจลากุล ผู้อำนวยการ BDI กล่าวว่า BDI มีบทบาทในฐานะองค์กรขับเคลื่อนข้อมูลของประเทศ ด้วยเป้าหมายที่ชัดเจนและเป็นรูปธรรม คือ การทำให้ข้อมูลจากทุกภาคส่วน ไม่เพียงแค่ถูกจัดเก็บอย่างมีระบบ แต่สามารถนำไปใช้งานได้จริง เป็นเครื่องมือในการกำหนดนโยบาย ยกระดับบริการสาธารณะ และพัฒนานวัตกรรมที่ตอบสนองต่อความต้องการของประชาชนได้อย่างแท้จริง
หัวใจสำคัญของภารกิจนี้ คือ การพัฒนาโครงการ แพลตฟอร์มการเชื่อมโยงและวิเคราะห์ข้อมูลขนาดใหญ่ (ดีทู) (Data Integration and Intelligence Platform (D-II)) โดย D-II ไม่ได้เป็นการสร้างระบบข้อมูลขึ้นมาใหม่ แต่ทำหน้าที่บูรณาการและเชื่อมโยงข้อมูลที่มีอยู่แล้วจากหลายภาคส่วน รวมถึงการให้บริการวิเคราะห์ข้อมูลบนแพลตฟอร์มโดยทีมนักวิทยาศาสตร์ข้อมูลของ BDI เพื่อสนับสนุนการวางแผนเชิงนโยบายที่มีประสิทธิภาพ และขับเคลื่อนประเทศไทยสู่การเป็น Data-Driven Nation อย่างแท้จริง
โดยมีเป้าหมายสูงสุดคือการใช้ประโยชน์จากข้อมูลเพื่อการพัฒนาเศรษฐกิจและสังคมที่ยั่งยืน ผ่านบริการสำคัญ อาทิ การสร้างถนนทางเทคโนโลยีของข้อมูล (Data Linkage Engine) เพื่อรองรับการเชื่อมโยงและใช้งานร่วมกับ D-II Data Catalog ระบบบัญชีข้อมูล และ D-II Analytics Services ทั้งที่มีอยู่แล้วในปัจจุบัน และที่จะเกิดขึ้นในอนาคต เพื่อให้เครือข่ายของถนนพร้อมรับการเชื่อมต่อกับระบบข้อมูลจากประตูของหน่วยงานฯ
นอกจากนี้ยังมี Dashboard and Analytics Tools ซึ่งเป็นเครื่องมือที่ช่วยให้หน่วยงานต่าง ๆ สามารถวิเคราะห์ข้อมูลเชิงลึกและตัดสินใจบนพื้นฐานของข้อมูลจริงที่ถูกเชื่อมโยงเข้าสู่ระบบฯ รวมถึง Central Hashing กระบวนการแทนค่าข้อมูลสำคัญ โดยที่ไม่สามารถถอดรหัสหรือกระทำการใดๆ เพื่อที่จะกลับไปยังข้อมูลต้นฉบับได้หากไม่ได้รับอนุญาต เพื่อการปกป้องข้อมูลตามกฎหมายฯ
โมเดลเอไอภาษาไทย เหนือกว่าโมเดลพื้นฐาน
ผอ.ธีรณี ยังกล่าวด้วยว่า โครงการสำคัญอีกอย่าง คือ การพัฒนา ThaiLLM หรือ Thai Large Language Model ซึ่งเป็นโครงสร้างพื้นฐานปัญญาประดิษฐ์สำหรับภาษาไทย แบบ Open Source/Open License ที่ได้รับงบประมาณสนับสนุนจากกองทุนพัฒนาดิจิทัลเพื่อเศรษฐกิจและสังคม โดย BDI ร่วมมือกับ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) สถาบันวิทยสิริเมธี (VISTEC) สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT) สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT) ThaiLLM ถือเป็นจุดเริ่มต้นสำคัญของความร่วมมือกับหน่วยงานผู้นำด้าน AI ของประเทศไทย
“หลายคนกล่าวว่าโมเดลภาษาไทยที่รัฐสร้าง เป็นแค่การนำเอาโมเดลพื้นฐานของเจ้าดังๆ ในตลาดไม่ว่าจะเป็น DeepSeek หรือ GPT มาพัฒนาต่อ จะนำประโยชน์ไปเป็นรรากฐานได้อย่างไร สิ่งที่ดิชั้นจะกล่าวก็คือ มันต่างแน่นอนด้วยการพัฒนาโอเดลภาษเอไอไม่ว่าโมเดลพื้นฐานจะเหมือนกันแค่ไหน แต่การต่อยอดด้วยข้อมูลมหาศาลที่มีของเรา ทั้งกฎหมายไทยทุกข้อจากสำนักงานกฤษฎีกา เอกสารราชการทุกแหล่งจากหอสมุดแห่งชาติ เหล่านี้คือความหลากหลายรุ่มรวยของข้อมูลภาษาไทย ที่ไม่มีใครทำได้ มันจึงต้องแตกต่างและเหนือกว่าโมเดลพื้นฐาน”
โครงสร้างพื้นฐาน AI ภาษาไทย ThaiLLM นี้จะะข้าใจบริบทของภาษาและวัฒนธรรมไทย เพื่อให้ทั้งภาครัฐ ภาคเอกชน และนักเทคโนโลยี สามารถนำไปใช้งานและต่อยอดได้อย่างกว้างขวาง

ปัจจุบันโครงการ ThaiLLM ดำเนินการมาแล้ว 3 เดือน สามารถรวบรวมข้อมูลภาษาไทยจากกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม สำนักงานคณะกรรมการกฤษฎีกา และเอกสารที่หอสมุดแห่งชาติเป็นผู้ถือสิทธิ์ได้แล้วเสร็จ รวมถึงมีการพัฒนาและใช้งาน ThaiLLM Data Bank ซึ่งมีปริมาณข้อมูลภาษาไทยมากกว่า 245 GB และดำเนินการให้อยู่ในรูปแบบของโทเคนได้ประมาณ 55 ล้านล้านโทเคน หรือคิดเป็น 55% ของปริมาณเป้าหมายเพื่อทำการพัฒนาโมเดลขนาดเล็ก และขนาดกลางเบื้องต้น
ในขณะเดียวกัน BDI ยังเร่งพัฒนาศักยภาพกำลังคนควบคู่กันไป ผ่านการออกแบบร่างหลักสูตร เรียนรู้ด้าน AI และ LLM เพื่อเตรียมความพร้อมบุคลากรไทยให้สามารถเข้าใจ ออกแบบ และประยุกต์ใช้เทคโนโลยีเชิงลึก ผ่านการเรียนรู้ที่สามารถนำไปปฏิบัติได้จริงในชีวิตประจำวัน โดยเน้นการเรียนการสอน และการประเมินทักษะแบบ Micro-Credentials เพื่อปูรากฐานให้เข้าใจถึงประโยชน์ของการนำข้อมูลมาวิเคราะห์ และสามารถนำความรู้ไปประยุกต์ใช้ให้สอดคล้องกับความเปลี่ยนแปลงของโลก
รศ. ดร.ธีรณี กล่าวอีกว่า โครงการนี้ยังทำหน้าที่เป็น กลไกสำคัญในการส่งเสริมความร่วมมือด้านปัญญาประดิษฐ์ของประเทศไทย (Thai AI Collaboration) และสร้างระบบนิเวศ AI ของประเทศ (AI Ecosystem) ให้เข้มแข็งตามแนวทางการดำเนินงานที่กำหนดไว้ในที่ประชุมคณะกรรมการ AI แห่งชาติ ทั้งยังช่วยลดการพึ่งพาเทคโนโลยีจากต่างประเทศ และผลักดันให้ประเทศไทยก้าวขึ้นเป็นหนึ่งใน ผู้เล่นสำคัญในระดับภูมิภาคด้าน AI โดย BDI มุ่งหวังให้ ThaiLLM จะไม่เพียงเป็นโครงสร้างพื้นฐานเท่านั้น แต่ยังเป็นเวทีที่จุดประกายความร่วมมือรูปแบบใหม่ในระดับประเทศ ที่หน่วยงานและนวัตกรไทยจากทุกภาคส่วนเข้ามีส่วนร่วมในการสร้างโครงสร้างพื้นฐานทางเทคโนโลยีของประเทศร่วมกัน และโครงการอื่น ๆ ในอนาคตก็สามารถต่อยอดความร่วมมือนี้ได้เช่นเดียวกัน
BDI ยังให้ความสำคัญกับการออกแบบกลไกการแลกเปลี่ยนข้อมูลอย่างมีธรรมาภิบาล ซึ่งจะเป็นเครื่องมือหลักในการลดอุปสรรคด้านการแบ่งปันข้อมูลระหว่างหน่วยงานภาครัฐ และระหว่างรัฐกับเอกชน โดยมีกลไกกลางที่ชัดเจน มีมาตรฐานการรักษาความปลอดภัย และมีเอกสารแม่แบบรองรับการแลกเปลี่ยนข้อมูลอย่างมีธรรมาภิบาล (Data Governance) ทั้ง D-II, ThaiLLM และการพัฒนากำลังคน คือ 3 แกนหลักที่ BDI ขับเคลื่อนควบคู่กัน เพื่อให้ประเทศไทยสามารถใช้ประโยชน์จากข้อมูลอย่างเต็มศักยภาพ สร้างความเปลี่ยนแปลงเชิงระบบ และยกระดับประเทศด้วยเทคโนโลยีที่ออกแบบมาเพื่อคนไทยอย่างแท้จริง”