ก้าวใหม่วิทยาการข้อมูลภาครัฐ สู่ “Central Intelligence”
BDI
“เวลาเราจะดูว่าประเทศไหนจะก้าวหน้า และโดดเด่นในยุคของเอไอ ให้ดูว่าประเทศนั้นเก็บและใช้ข้อมูลกันอย่างไร” คือคำกล่าวของ “รศ.ดร.ธีรณี อจลากุล” หัวเรือใหญ่สถาบันข้อมูลขนาดใหญ่ หรือ BDI (Big Data Institute) องค์การมหาชน สังกัดกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม ตั้งขึ้นเมื่อ 1 มิ.ย. 2566 ในฐานะองค์กรหลักเพื่อขับเคลื่อนประเทศด้วยข้อมูลขนาดใหญ่
ก่อนใช้เอไอ ให้ก้าวทีละชอต
ผู้อำนวยการ BDI กล่าวว่า จุดเริ่มต้นของการมีและใช้ เอไอยุคใหม่ คือ การเก็บรักษาข้อมูล ซึ่งจะเป็นรากฐานให้เกิดการพัฒนาโมเดลภาษาขนาดใหญ่
“เวลาคนบอกว่าข้อมูลภาครัฐห่วย ดิฉันว่าไม่จริง ประเทศเราไม่มีการเก็บข้อมูลก็ไม่จริง ยืนยันว่าประเทศเรามีข้อมูลจำนวนมากที่มีประสิทธิภาพในการใช้งาน ขึ้นกับว่าเราเอาดาต้ามาใช้อะไร แสดงผลอย่างไร และแสดงผลให้ใครดู โจทย์ต้องชัดว่าจะเอาไปใช้ทำอะไร”
และว่าหน่วยงานราชการในประเทศแทบทุกหน่วยงานมีการเก็บข้อมูลอยู่แล้ว แต่เป็นไปเพื่อใช้ประโยชน์เฉพาะงานของตน ไม่มีการเชื่อมโยงข้อมูลเข้ากับหน่วยงานอื่น ปัญหาที่ตามมาคือ ความไม่เที่ยงตรง ไม่สามารถกำหนดทิศทางได้แม่นยำ เช่น เมื่อพูดถึง “ความยากจน” ข้อมูลของมหาดไทย จาก จปฐ. (ข้อมูลความจำเป็นพื้นฐาน) ระบุอย่างหนึ่ง ขณะที่ “ความจน” แบบกระทรวงการพัฒนาสังคมฯก็จะอย่างหนึ่ง ยังมีความจนแบบ “บัตรสวัสดิการแห่งรัฐ” ที่ระบุข้อมูลอีกอย่าง
อย่างไรก็ตาม BDI ไม่ได้มีหน้าที่เก็บข้อมูลเหล่านั้น เพราะทุกคนมีวิธีเก็บที่ดีอยู่แล้ว และมีการแบ่งข้อมูลของหน่วยงานเป็น 3 ระดับ คือ หน่วยงานที่เก็บข้อมูลเป็นมาตรฐานมาก ปานกลาง และแทบไม่มีการเก็บข้อมูล
หน่วยงานที่เก็บ และบริหารข้อมูลได้ดี ดูได้จากการเรียกใช้ เวลาถามอะไร ทุกอย่างจะระบุได้หมด อย่างข้อมูลทะเบียนราษฎรที่ระบุที่อยู่การโยกย้าย และสืบค้นย้อนหลัง ลองนึกถึงหน่วยงาน เช่น กรมการปกครอง กรมสรรพากร โรงพยาบาล ซึ่งพวกเขามีระเบียบที่ชัดเจน เวลาต้องการใช้ก็มีความแม่นยำ
“BDI เป็นผู้บูรณาการข้อมูลที่มีอยู่แล้วเหล่านี้ให้เชื่อมต่อร้อยกันทั้งประเทศ เพื่อนำไปสู่การใช้ประโยชน์สูงสุด ตอนนี้มีแพลตฟอร์ม บิ๊กดาต้า 4 แพลตฟอร์มที่เชื่อมต่อกับฐานข้อมูลรัฐ และเอกชนกว่า 300 ชุดข้อมูล ซึ่งจะนำไปสู่การใช้ประโยชน์ในทางเศรษฐกิจ และสังคม”
ที่ประกอบร่างขึ้นเป็น National Big Data Platform ภายในปี 2568
ยูสเคส การใช้วิทยาการข้อมูล
ตัวอย่างที่แสดงให้เห็นพลังของการเชื่อมต่อฐานข้อมูลข้ามหน่วยงาน เช่น แพลตฟอร์ม Travel Link ที่แต่เดิมข้อมูลคนเข้าเมืองเป็นหน้าที่สำนักงานตำรวจแห่งชาติ ตำรวจตรวจคนเข้าเมือง (ตม.) เก็บข้อมูลนักเดินทางต่างชาติเพื่องานด้าน “ความมั่นคง” แต่เมื่อมีการแชร์ข้อมูลก็สร้างประโยชน์ให้อุตสาหกรรมท่องเที่ยว โดย BDI เข้าไปเชื่อมโยง และคัดกรองข้อมูลเปราะบางของบุคคล เช่น ตม. เก็บข้อมูลเลขประจำตัวประชาชน รวมถึงข้อมูลชีวภาพเพื่อยืนยันอัตลักษณ์ เมื่อมีความต้องการนำไปใช้ในอุตสาหกรรมท่องเที่ยว ก็จะเข้ารหัสข้อมูลส่วนบุคคลไว้แล้วแปลงเป็นแดชบอร์ดใหม่ เชื่อมโยงกับโรงแรม ร้านอาหาร และค่ายมือถือ เพื่อแสดงให้เห็นว่าในพื้นที่ไหนมีการจับจ่ายใช้สอยเท่าไหร่ คนต่างชาติใช้จ่ายอะไร เพื่อนำไปสู่การตัดสินใจทางธุรกิจ เช่น การบริหารสต๊อก ตลอดจนการบริหารการท่องเที่ยวในด้านอื่น ๆ
“Travel Link เป็นโมเดลต้นแบบของ G2B ที่ข้อมูลภาครัฐให้บริการบริษัทเอกชนได้ เราเอาข้อมูลความลับมาตัดข้อมูลส่วนบุคคลตาม กม. PDPA ตั้งเซิร์ฟเวอร์เข้ารหัสตัดข้อมูลเดี๋ยวนั้นทันทีที่ต่างชาติเข้ามาที่สุวรรณภูมิ เหลือแค่สัญชาติ ช่วงอายุ มาทำไม อยู่นานแค่ไหน เมื่อมีข้อมูลรายวันการวิเคราะห์จะไม่สิ้นสุด”
เช่น สนามบินภูเก็ตวิเคราะห์ว่าคนบินตรงเข้าภูเก็ตกี่ไฟลต์ มีกี่เมืองผ่านสิงคโปร์ มาที่ภูเก็ต ดังนั้นการบินไทยควรมีสายการบินตรงจากที่ไหนบ้าง เป็นต้น
หรือในฝั่งธุรกิจรีเทล “สยามพิวรรธน์” อาจดูแดชบอร์ดข้อมูล Travel Link ของสนามบินสุวรรณภูมิทุกวัน เพราะจำนวนคนต่างชาติที่บินเข้าแปรผันตรงกับจำนวนสินค้าที่ขายได้ที่ห้างสยามพารากอน เขาจึงต้องดูและเตรียมสต๊อกในแต่ละวันว่าจะวางสินค้าอย่างไร โชว์อะไร ก็สามารถวางแผนผ่านข้อมูลแดชบอร์ดเหล่านี้ได้
“เคยมีธุรกิจร้านกาแฟขนาดใหญ่ ขอเข้าถึงข้อมูลแดชบอร์ดเหล่านี้ เพราะต้องส่งสต๊อกกาแฟไปทั่วประเทศ เขาค้นพบว่าคนแต่ละชาติกินกาแฟไม่เหมือนกัน จึงอยากรู้ว่าต้องบาลานซ์สต๊อกอย่างไร แม้กระทั่งจังหวัดที่ไม่มีสนามบิน ก็วิเคราะห์และคาดการณ์เพื่อวางแผนการท่องเที่ยวได้ เช่น พังงา ไม่มีสนามบิน อยากรู้ว่าคนบินลงที่ภูเก็ตแล้วนอนคืนแรกที่พังงานกี่คน เราคำนวณผ่านข้อมูลลงทะเบียนโรงแรมของกรมการปกครองด้วย นี่คือการชนบิ๊กดาต้า”
หรือนครราชสีมา ไม่มีสนามบินใกล้ ๆ เหมือนพังงา จะรู้ได้อย่างไรว่าคนต่างชาติเข้าเท่าไหร่ เราก็ไปซื้อดาต้าของค่ายมือถือเพื่อดูสัญญาณการโรมมิ่ง ข้อมูลมีเฉพาะว่าเป็นคนชาติไหน อายุเท่าไหร่ ไปที่ไหน แล้วจะรู้ได้อย่างไรว่า ต่างชาติ 1 คนใช้จ่ายเงินเท่าไหร่ ตรงนี้นายกรัฐมนตรีได้เจรจากับ Agoda เพื่อเชื่อมต่อข้อมูลดูว่าพักโรงแรมหรูแค่ไหน แล้วนำราคาเฉลี่ยของที่พักคูณด้วยจำนวนวันที่อยู่ รวมถึงข้อมูลสิ่งที่เขาซื้อ ซึ่งได้จากข้อมูล Vat Refund ของกรมสรรพากร ทำให้ได้ข้อมูลกำลังซื้อ และการใช้จ่ายของคนชาตินั้น ๆ
“แพลตฟอร์มเดียวนี้ ต้องใช้ข้อมูลข้ามหน่วยงานหลายหน่วย และนำไปวางแผนงานได้ละเอียดลึกซึ้งและแม่นมากขึ้น ปัจจุบัน Travel Link มีหน่วยงานรัฐ และเอกชนล็อกอินเข้ามาใช้ 400 รายต่อวัน”
แพลตฟอร์มบิ๊กดาต้าแห่งชาติ
หัวเรือใหญ่ BDI กล่าวต่อว่า ภารกิจของเราคือให้บริการข้อมูลกับภาครัฐ เป็นข้อมูลดิบที่ภาครัฐใช้แลกเปลี่ยนกันบนโครงสร้างพื้นฐานคลาวด์กลาง แต่ข้อมูลที่คัดกรองแล้วส่งมอบให้เป็นโจทย์ที่ได้รับมอบหมาย บางหน่วยงานตั้งงบฯมาจ้างเราก็มี ปัจจุบันรายได้นอกงบประมาณจะอยู่ราว ๆ 20 ล้านบาท ส่วนค่าใช้จ่ายก็มีแต่เรื่องการจ้างพนักงาน โบนัส และการเช่าใช้คลาวด์
“เรายังไม่มีโมเดลในการหารายได้จากการให้บริการข้อมูลแบบ G2B แต่ศักยภาพของข้อมูลบน Travel Link สามารถหารายได้จากเอกชนได้ เราเป็นองค์การมหาชน ซึ่งกฎหมายเอื้อให้เราทำอยู่แล้ว เมื่อพูดถึงแนวคิดการทำให้แพลตฟอร์มยั่งยืนก็ต้องมีรายได้เลี้ยงตนเอง แต่เราไม่ใช่เจ้าของข้อมูลโดยตรง มีผู้ที่เกี่ยวข้องจำนวนมากเป็นเจ้าของข้อมูล การคิดรายได้จึงซับซ้อน ยังพิจารณาอยู่ว่าจะมีโมเดลธุรกิจอะไรได้บ้าง”
Travel Link เป็นตัวอย่างที่แสดงให้เห็นว่า หาก “ข้อมูล” ภาครัฐมีการบูรณาการข้ามหน่วยงานแล้ววิเคราะห์ตามโจทย์ที่ต้องการจะสร้างประสิทธิภาพมหาศาลต่อการตัดสินใจ ผู้บริหารอยากได้ข้อมูลประกอบการตัดสินใจในเรื่องต่าง ๆ ก็เรียกดูได้ผ่านแดชบอร์ด
ในปี 2568 จะเริ่มขึ้นระบบแพลตฟอร์มบิ๊กดาต้าแห่งชาติ (National Big Data Platform) ที่รวมแพลตฟอร์ม Travel Link, Health Link, Envi Link (ข้อมูลการเกษตรและสิ่งแวดล้อม) และ Provincial Data (ข้อมูลบริหารจัดการเมืองอัจฉริยะ) ซึ่งมีข้อกฎหมายที่วางเงื่อนไขให้เชื่อมต่อกับฐานข้อมูลอื่น ๆ ของรัฐ กว่า 300 ชุดข้อมูล เพื่อให้นำข้อมูลไปใช้ประโยชน์ด้านต่าง ๆ ได้
“ข้อมูลรัฐ เมื่อบูรณาการร่วมกันจะกลายเป็นคลังข้อมูลขนาดใหญ่ที่จะมีส่วนช่วยในการนำทางนโยบายและการตัดสินใจ BDI จึงเป็นเหมือน Central Intelligence ที่หาคำตอบที่ผู้บริหารแต่ละภาคส่วนต้องการได้อย่างแม่น ตรง และทันที”
ชำแหละบิ๊กดาต้าเฟรมเวิร์ก
การวางรากฐานการใช้ Big Data ขับเคลื่อนประเทศตามเฟรมเวิร์กที่เสนอไว้ในแผนปฏิบัติการด้านข้อมูลขนาดใหญ่ มี 3 ระดับแรก คือ โครงสร้างพื้นฐาน ทั้งคลาวด์ ภายใต้นโยบายคลาวด์เฟิรสต์ ใช้ได้ทั้งคลาวด์กลาง และคลาวด์สาธารณะของต่างชาติ ส่วนเรื่องความปลอดภัยในข้อมูล และระบบไซเบอร์ มีทั้งสำนักงานคุ้มครองข้อมูลส่วนบุคคล สำนักงานพัฒนาธุรกรรมทางอิเล็กทรอนิกส์ และสำนักงานคณะกรรมการการรักษาความมั่นคงปลอดภัยไซเบอร์แห่งชาติ ช่วยกันดูแล รวมถึงบริการพื้นฐาน ไมโครเซอร์วิสต่าง ๆ ที่ทุกหน่วยงานมี ไม่ว่าจะเป็น ดิจิทัลไอดี, เป๋าตัง และอื่น ๆ จะต้องร้อยเรียงเชื่อมโยงให้เชื่อมกันได้
ระดับที่สอง เมื่อมีโครงสร้างพื้นฐานก็ต้องมีเครื่องมือ และมาตรฐานการดำเนินงาน เนื่องจากปัจจุบันรัฐมักจ้างเวนเดอร์มาทำให้ ซึ่งแต่ละรายใช้มาตรฐานด้านซอฟต์แวร์ และความปลอดภัยไม่เหมือนกัน พอจะขอต่อ API เพื่อเชื่อมข้อมูลปรากฏว่ามาตรฐานไม่เข้ากัน ดังนั้นแต่ละหน่วยงานต้องกำหนด TOR เพื่อจ้างเอกชนกลับเข้ามาทำระบบให้ใหม่ กระบวนการงบประมาณจนถึงทำ TOR จัดจ้างเสียเวลา 2 ปี
“ต่อไปมาตรฐานกลาง จะมีระบุใน TOR เลยว่า ต้องทำท่อ API ให้เราเชื่อมต่อข้อมูลภายใต้ข้อกฎหมายที่กระทรวงดีอีกำหนด เอกชนที่เกี่ยวข้องก็ต้องเตรียมปรับตัว”
ระดับที่สาม ระบบนิเวศ คือ การพัฒนาทรัพยากรบุคคลและการใช้ประโยชน์ด้านนวัตกรรม รวมถึงการตระหนักรู้ด้านการใช้งานข้อมูลแก่คนในวงกว้าง เพื่อนำไปสู่ประเทศที่ขับเคลื่อนด้วยดาต้า
วางโครงสร้าง GenAI ของประเทศ
อีกส่วนที่จะทำในปีหน้า คือ โมเดลเอไอพื้นฐานภาษาไทยขนาดใหญ่ (ThaiLLM) จะเริ่ม Pretraining ปี 2568-2569 กำลังขอบริจาคข้อมูลจากหลายส่วนทั้งภาครัฐ เอกชน เอ็นจีโอ องค์กรสงฆ์ องค์กรสื่อ เพราะภาษาไทยมีบริบทเฉพาะ มีความหลากหลายของเนื้อหา
“ภาษาเป็นเรื่องสำคัญที่จะช่วยให้เกิดโมเดลภาษาพื้นฐานสำหรับคนไทยได้ ข้อมูลภาษาจะเทลงถังกลาง เราจะใช้อัลกอริทึ่มของบิ๊กเทค มาพรีเทรนเอไอ ไม่ใช่เรื่องยาก ไม่ได้ใช้เงินมาก น่าจะราว 80 ล้านบาท ThaiLLM เป็น OpenSource เปิดกว้างให้เอกชน และภาครัฐ หรือผู้สนใจ นำไปออกแบบ พัฒนา และเทรนให้เป็นเอไอเฉพาะทางต่อไปได้”
BDI และเครือข่ายพันธมิตร ได้แก่ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) สถาบันวิทยสิริเมธี (VISTEC) สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT) สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT) จุฬาลงกรณ์มหาวิทยาลัย และมหาวิทยาลัยมหิดล ร่วมกันพัฒนา ThaiLLM V.1 ระยะแรกมุ่งเน้นไปที่การพัฒนาโมเดลพื้นฐานสำหรับต่อยอด (Foundation Model) และโมเดลเฉพาะทางด้านการแพทย์
ในปี 2568 ตั้งเป้าสร้างมูลค่าผลกระทบทางเศรษฐกิจ สังคม และสิ่งแวดล้อม จากการใช้ประโยชน์จากข้อมูลขนาดใหญ่และเทคโนโลยีที่เกี่ยวข้องกว่า 1,000 ล้านบาท เพิ่มโอกาสในการจ้างบุคลากรในตลาด Big Data กว่า 10,000 ราย