มีของดี หากไม่รู้จักนำมาใช้หรือใช้ได้ไม่เต็มประสิทธิภาพ คุณค่าก็อาจลดลงหรือกลายเป็น “ไร้ค่า” ไปอย่างน่าเสียดาย ท่ามกลางมหาสมุทรข้อมูลจึงต้องมีการจำแนกแยกแยะข้อมูลก่อนที่จะนำมาใช้
ในงานสัมมนา DATA Science & Engineering Seminar “How Data ScienceCan Help Improve Business” ของสถาบันวิทยสิริ “ผศ.ดร.ธนาวินท์ รักธรรมานนท์” ภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ได้พูดถึง Data Classification & Prediction ว่า เป็นเทคนิคหนึ่งด้าน Data Mining โดยการ Classified Data หรือการแบ่งดาต้าที่มีว่าเป็นแบบไหน ประเภทไหนจะเรียนรู้จากลักษณะ เช่น แยกว่าเป็นขวดน้ำหรือน้ำอัดลมด้วยการเก็บข้อมูลหลาย ๆ มุมว่าขวดนี้หน้าตา รูปร่าง ลักษณะเป็นอย่างไร ความสูงเท่าไร ข้างในน้ำเป็นอะไร ฝาขวดเป็นอย่างไร จากนั้นจึงสร้างโมเดล เพื่อมาแยกว่าขวดแต่ละประเภทต้องมีลักษณะอย่างไร
- “มะพร้าว” ราคาพุ่งเป็นประวัติการณ์ ลูกเดียว 65-80 บาท เกิดอะไรขึ้น?
- บริษัทดัง ประกาศปิดกิจการ ทุกสาขาทั่วประเทศ เลิกจ้างหลายชีวิต
- แจกเงินดิจิทัล 10,000 ลุ้นซื้อไอโฟน-เครื่องใช้ไฟฟ้า “จุลพันธ์” นัดถกหาข้อสรุป
นั่นคือการสร้างโมเดล เพื่อแยกประเภทของสิ่งของ เช่น การที่บริษัทในนิวยอร์กรับซื้อข้อมูลภาพ วิดีโอ แล้วนำไปใช้จำแนกประเภท ซึ่งมีประโยชน์ช่วยเรื่องความเร็วในการจำแนกข้อมูล เช่น การตรวจคนเข้าเมือง ถ้าใช้กล้องจับแล้วมี feed ข้อมูลที่ดี จะช่วยในการประเมิน และคัดกรองพฤติกรรมเบื้องต้นได้ว่าคนนี้เป็นอย่างไร
“ดาต้า” ที่ผ่านการจำแนกทั้งภาพ เสียง สถิติ จะช่วยให้คาดการณ์ได้ถูกต้อง โดยเอาไว้แยกประเภท เช่น บริษัทที่รับซื้อดาต้าจะมีรูปมากมาย ซึ่งไม่ได้ใช้คนแยก แต่ใช้คอมพิวเตอร์แยกในเบื้องต้นก่อนว่า รูปไหนเป็นประเภทอะไร ปัจจุบันมีการใช้เทคโนโลยีนี้มากขึ้นเรื่อย ๆ ซึ่งการต่อยอดมี 2 แนวทางเช่นกัน คือ คนที่ยังไม่เคยใช้จะใช้มากขึ้น เช่น ตม. หรือแอปพลิเคชั่นต่าง ๆ ที่โหลดข้อมูลเข้าไป ทำให้ระบบเป็นอัตโนมัติมากขึ้น และคนที่ใช้อยู่แล้วจะพยายามพัฒนาให้แม่นยำขึ้น เช่น นำไปใช้ตรวจหาเนื้องอกว่าดีหรือไม่ดีจากแผ่นเอกซเรย์ เพราะถึงจะใช้คนตรวจได้แต่บางทีหมออาจตาเบลอหรือบางครั้งต้องการลดคอร์สในการให้หมอตรวจ เป็นต้น
“การพัฒนาเทคโนโลยีนี้ต่อไปจะมี 2 มุม คือพัฒนาโดยใช้ข้อมูลจากหลาย ๆ ฝ่ายมารวมกันมากขึ้น คือ ตัวข้อมูลมีความสลับซับซ้อนขึ้น เช่น การใช้ภาพ เสียง หรือภาพที่มีมากกว่า 1 ภาพมาประกอบกัน บวกกับฟีเจอร์บางอย่าง เช่น ถ้าเราเป็น ตม.ต้องการทราบว่าคนนี้เป็นอย่างไร จะไม่ได้ดูแค่หน้าหรือวิดีโอ แต่ Track ลงไปถึง ID ถึง Record อื่น เช่น มี Bank Statement อย่างไร มีประวัติครอบครัวอย่างไรทำได้ถึงระดับนั้น”
เพิ่มความแม่นยำดาต้า
ดาต้าในปัจจุบันมีมากมาย ใคร ๆ ก็พยายามเก็บแต่มีไม่กี่หน่วยงาน หรือไม่กี่คนที่ใช้ดาต้า เช่น เรามี CCTV บันทึกไว้ก็ไม่ได้ใช้ ไปร้านสะดวกซื้อก็จะโยนใบเสร็จทิ้งไปเฉย ๆ หรือเก็บดาต้าคนซื้อ คนไข้ไว้มากมาย แต่เป็นแค่การเก็บไว้เฉย ๆ ถ้าเอา Data Classification มาวิเคราะห์ จะทำให้แม่นยำขึ้น เช่น ถ้ามี CCTV อาจนำมาใช้นับคนเข้าออก
และหากใช้แพร่หลาย มี Cross Function มากขึ้น แม่นยำมากขึ้น และเชิงลึกมากขึ้น จะตอบคำถามใหม่ ๆ ที่ไม่เคยตอบไม่เคยเกิด เช่น การเก็บเสียงของคอลเซ็นเตอร์ เพื่อนำคลื่นเสียงไปโยงเข้ากระบวนการอัลกอริธึ่มบางอย่าง เพื่อวิเคราะห์ว่าเป็น Positive หรือ Negative วิเคราะห์ด้วยพฤติกรรมบางอย่างจากอารมณ์ของลูกค้า เช่น สตาร์บัคส์ในต่างประเทศมีกล้องตั้งไว้ในร้านตลอดให้ผู้จัดการดูจากหลังร้านว่า ถ้าจู่ ๆ มีลูกค้าถือกาแฟเดินย้อนกลับมา กล้องจะส่งสัญญาณไปที่ผู้จัดการ เพื่อให้เดินจากหลังร้านไปต้อนรับลูกค้ารายนั้น เผื่อแก้ไข กรณีเกิดปัญหานี่คือการใช้ “กล้อง” แทนคน หรือการใช้ “ไอโฟน” วัดความผิดปกติของคลื่นหัวใจ เป็นต้น
ศาสตร์สูงสุดของ Data Mining คือ การทำนายก่อน เริ่มจากการเก็บข้อมูลแล้วนำไปทำนาย หรือจำแนกประเภท ยกตัวอย่าง เรื่องการอ่านหนังสือ เมื่อก่อนเราไม่ทราบว่าลูกค้าต้องการอ่านอะไร แต่พอ Yahoo นำ Data Classified มาใช้ ก็จะเข้าไปแนะนำหนังสือตามที่ผู้อ่านต้องการได้ ซึ่งจริง ๆ คือการทำ CRM ที่มาจากการ Prediction ช่วยการขายของให้ Customize ไปที่แต่ละบุคคลมากขึ้น
“ถามว่าลูกค้าต้องการซื้อไหม เขาต้องการซื้อ แต่เราไม่รู้ว่าเขาต้องการซื้ออะไร นั่นคือจะ tailor-made มากขึ้น ทฤษฎีเดียวกันกับเฟซบุ๊ก ว่าถ้าเรากด Like ใครเยอะ ๆ มันจะ Feed หรือ pop up คนนั้นขึ้นมามากกว่า”
จะเห็นว่าธุรกิจต่าง ๆ นำไปใช้กันมาก แต่ที่มีมาก คือธุรกิจที่มีข้อมูลออนไลน์ หรือข้อมูลดิจิทัลเก็บในคอมพิวเตอร์ เช่น โซเชียลเน็ตเวิร์ก โดยเฉพาะเฟซบุ๊ก, ยูทูบ จะเป็น Data Classified มี Recommend มากมาย แนวความคิดแบบนี้จะมีอยู่ในหลายสิ่ง ทั้งเพลง สิ่งบันเทิงต่าง ๆ เป็นการตอบสนองให้ใกล้เคียงกับสิ่งที่แต่ละคนต้องการ
ดักจับโจรขี้โม้
ส่วนเรื่อง Preventive ปัจจุบันมีใช้จริง เช่น ตำรวจอเมริกันมีหลายแบบ แบบแรกเป็นสายตรวจธรรมดาแบบบ้านเรา อีกแบบหนึ่ง คือ สายหน่วยที่คาดการณ์ว่าจะมีเหตุเกิดที่ไหน ก็จะปลอมไปเป็นตำรวจนอกเครื่องแบบและไปรอดูสถานการณ์ที่นั่นได้ด้วย เช่น เวลานี้อาจมีการดักปล้น เขาจะเดาได้ว่าน่าจะที่ไหน เวลาประมาณไหน โดยใช้ข้อมูลจากโซเชียลเน็ตเวิร์ก เพราะมีโจรหลายแบบ บางแบบโจรมีสังคมของเขา ต้องคุยกันทางไหนสักทางเป็นช่องทางการติดต่อ ไม่โทรศัพท์ หรือเฟซบุ๊ก อาจไม่ได้บอกชัด ๆ ว่าจะไปที่ไหน แต่ต้องส่งสัญญาณ สัญลักษณ์ หรือแม้กระทั่งพฤติกรรมการเลียนแบบที่สื่อสารและเข้าใจกันได้ ตำรวจก็ทำ Preventive และใช้ได้ระดับหนึ่งแล้วในเชิงการป้องกัน ปกติข้อมูลที่ใช้ทำ Preventive เป็นข้อมูลที่สร้างขึ้นใหม่ทางออนไลน์ หรือทางโทรศัพท์ เป็นข้อมูลที่มีการขยับ ต่างจากข้อมูลส่วนตัวที่ไม่มีการขยับขยาย
ปกป้องสุขภาพ
ส่วน Preventive ด้านสุขภาพ เช่น หัวใจ ตรวจวัดได้เบื้องต้น ในอดีตต้องไปหาหมอ หรือถ้าเทียบกับวัคซีนที่ใช้ตรวจการตั้งครรภ์ ก็ต้องทดสอบปกติ เพราะต้องใช้เครื่องมือ หรือทดสอบว่าเป็นโรคเอดส์ไหม ก็จะทดสอบหลายระดับ บางระดับแพง บางระดับถูก แต่พอมาจำแนกข้อมูลยิ่งทำให้ถูกไปอีก หมายถึงทดสอบอย่างอื่นด้วย เช่น เนื้องอกที่เจอเป็นเนื้อดีหรือเนื้อร้ายก็ทดสอบด้วยระบบปกติง่าย ๆ ที่คาดเดาได้ทั่ว ๆ ไปอยู่แล้ว ซึ่งปกติการเอกซเรย์หาเนื้องอกไม่ต้องทำกันทุกคน แต่ถ้าวันนี้มีระบบนี้เกิดขึ้นก็อาจหาให้ทุกคนได้ฟรี ๆ
นอกจากนี้ ถ้ามีระบบที่ดีพอจะลดปริมาณภาระงานของหมอได้ การเป็นโรคเรื้อรัง เช่น อายุมากขึ้น มีค่าน้ำตาลสูงขึ้น จะบอกให้ปรับพฤติกรรมได้ เพราะมีแนวโน้มเกิดไทรอยด์ได้ จากปกติกว่าจะทราบว่าเป็นหรือไม่ต้องไปให้หมอตรวจ และเฉพาะเจาะจงตรวจโรคนั้นทั้งที่อาจไม่ต้องตรวจแค่โรคใดโรคหนึ่ง แต่มีข้อมูลอื่นที่ผู้ป่วยมีอัตราเสี่ยงได้
“ศาสตร์นี้มีมานาน ใช้กันเกือบทุกวงการ รวมถึงวงการบัตรเครดิต การเงินธนาคาร ใช้วิเคราะห์ความสามารถในการจ่าย การคาดการณ์การฉ้อฉลหรือวิเคราะห์แนวโน้มการเลี่ยงภาษี แต่กำลังทำให้เป็นอัตโนมัติมากขึ้น”