ถอดรหัส Data Mining “จำแนกข้อมูล-ทำนายอนาคต”

มีของดี หากไม่รู้จักนำมาใช้หรือใช้ได้ไม่เต็มประสิทธิภาพ คุณค่าก็อาจลดลงหรือกลายเป็น “ไร้ค่า” ไปอย่างน่าเสียดาย ท่ามกลางมหาสมุทรข้อมูลจึงต้องมีการจำแนกแยกแยะข้อมูลก่อนที่จะนำมาใช้

ในงานสัมมนา DATA Science & Engineering Seminar “How Data ScienceCan Help Improve Business” ของสถาบันวิทยสิริ “ผศ.ดร.ธนาวินท์ รักธรรมานนท์” ภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ได้พูดถึง Data Classification & Prediction ว่า เป็นเทคนิคหนึ่งด้าน Data Mining โดยการ Classified Data หรือการแบ่งดาต้าที่มีว่าเป็นแบบไหน ประเภทไหนจะเรียนรู้จากลักษณะ เช่น แยกว่าเป็นขวดน้ำหรือน้ำอัดลมด้วยการเก็บข้อมูลหลาย ๆ มุมว่าขวดนี้หน้าตา รูปร่าง ลักษณะเป็นอย่างไร ความสูงเท่าไร ข้างในน้ำเป็นอะไร ฝาขวดเป็นอย่างไร จากนั้นจึงสร้างโมเดล เพื่อมาแยกว่าขวดแต่ละประเภทต้องมีลักษณะอย่างไร

นั่นคือการสร้างโมเดล เพื่อแยกประเภทของสิ่งของ เช่น การที่บริษัทในนิวยอร์กรับซื้อข้อมูลภาพ วิดีโอ แล้วนำไปใช้จำแนกประเภท ซึ่งมีประโยชน์ช่วยเรื่องความเร็วในการจำแนกข้อมูล เช่น การตรวจคนเข้าเมือง ถ้าใช้กล้องจับแล้วมี feed ข้อมูลที่ดี จะช่วยในการประเมิน และคัดกรองพฤติกรรมเบื้องต้นได้ว่าคนนี้เป็นอย่างไร

“ดาต้า” ที่ผ่านการจำแนกทั้งภาพ เสียง สถิติ จะช่วยให้คาดการณ์ได้ถูกต้อง โดยเอาไว้แยกประเภท เช่น บริษัทที่รับซื้อดาต้าจะมีรูปมากมาย ซึ่งไม่ได้ใช้คนแยก แต่ใช้คอมพิวเตอร์แยกในเบื้องต้นก่อนว่า รูปไหนเป็นประเภทอะไร ปัจจุบันมีการใช้เทคโนโลยีนี้มากขึ้นเรื่อย ๆ ซึ่งการต่อยอดมี 2 แนวทางเช่นกัน คือ คนที่ยังไม่เคยใช้จะใช้มากขึ้น เช่น ตม. หรือแอปพลิเคชั่นต่าง ๆ ที่โหลดข้อมูลเข้าไป ทำให้ระบบเป็นอัตโนมัติมากขึ้น และคนที่ใช้อยู่แล้วจะพยายามพัฒนาให้แม่นยำขึ้น เช่น นำไปใช้ตรวจหาเนื้องอกว่าดีหรือไม่ดีจากแผ่นเอกซเรย์ เพราะถึงจะใช้คนตรวจได้แต่บางทีหมออาจตาเบลอหรือบางครั้งต้องการลดคอร์สในการให้หมอตรวจ เป็นต้น

“การพัฒนาเทคโนโลยีนี้ต่อไปจะมี 2 มุม คือพัฒนาโดยใช้ข้อมูลจากหลาย ๆ ฝ่ายมารวมกันมากขึ้น คือ ตัวข้อมูลมีความสลับซับซ้อนขึ้น เช่น การใช้ภาพ เสียง หรือภาพที่มีมากกว่า 1 ภาพมาประกอบกัน บวกกับฟีเจอร์บางอย่าง เช่น ถ้าเราเป็น ตม.ต้องการทราบว่าคนนี้เป็นอย่างไร จะไม่ได้ดูแค่หน้าหรือวิดีโอ แต่ Track ลงไปถึง ID ถึง Record อื่น เช่น มี Bank Statement อย่างไร มีประวัติครอบครัวอย่างไรทำได้ถึงระดับนั้น”

เพิ่มความแม่นยำดาต้า

ดาต้าในปัจจุบันมีมากมาย ใคร ๆ ก็พยายามเก็บแต่มีไม่กี่หน่วยงาน หรือไม่กี่คนที่ใช้ดาต้า เช่น เรามี CCTV บันทึกไว้ก็ไม่ได้ใช้ ไปร้านสะดวกซื้อก็จะโยนใบเสร็จทิ้งไปเฉย ๆ หรือเก็บดาต้าคนซื้อ คนไข้ไว้มากมาย แต่เป็นแค่การเก็บไว้เฉย ๆ ถ้าเอา Data Classification มาวิเคราะห์ จะทำให้แม่นยำขึ้น เช่น ถ้ามี CCTV อาจนำมาใช้นับคนเข้าออก

และหากใช้แพร่หลาย มี Cross Function มากขึ้น แม่นยำมากขึ้น และเชิงลึกมากขึ้น จะตอบคำถามใหม่ ๆ ที่ไม่เคยตอบไม่เคยเกิด เช่น การเก็บเสียงของคอลเซ็นเตอร์ เพื่อนำคลื่นเสียงไปโยงเข้ากระบวนการอัลกอริธึ่มบางอย่าง เพื่อวิเคราะห์ว่าเป็น Positive หรือ Negative วิเคราะห์ด้วยพฤติกรรมบางอย่างจากอารมณ์ของลูกค้า เช่น สตาร์บัคส์ในต่างประเทศมีกล้องตั้งไว้ในร้านตลอดให้ผู้จัดการดูจากหลังร้านว่า ถ้าจู่ ๆ มีลูกค้าถือกาแฟเดินย้อนกลับมา กล้องจะส่งสัญญาณไปที่ผู้จัดการ เพื่อให้เดินจากหลังร้านไปต้อนรับลูกค้ารายนั้น เผื่อแก้ไข กรณีเกิดปัญหานี่คือการใช้ “กล้อง” แทนคน หรือการใช้ “ไอโฟน” วัดความผิดปกติของคลื่นหัวใจ เป็นต้น

ศาสตร์สูงสุดของ Data Mining คือ การทำนายก่อน เริ่มจากการเก็บข้อมูลแล้วนำไปทำนาย หรือจำแนกประเภท ยกตัวอย่าง เรื่องการอ่านหนังสือ เมื่อก่อนเราไม่ทราบว่าลูกค้าต้องการอ่านอะไร แต่พอ Yahoo นำ Data Classified มาใช้ ก็จะเข้าไปแนะนำหนังสือตามที่ผู้อ่านต้องการได้ ซึ่งจริง ๆ คือการทำ CRM ที่มาจากการ Prediction ช่วยการขายของให้ Customize ไปที่แต่ละบุคคลมากขึ้น

“ถามว่าลูกค้าต้องการซื้อไหม เขาต้องการซื้อ แต่เราไม่รู้ว่าเขาต้องการซื้ออะไร นั่นคือจะ tailor-made มากขึ้น ทฤษฎีเดียวกันกับเฟซบุ๊ก ว่าถ้าเรากด Like ใครเยอะ ๆ มันจะ Feed หรือ pop up คนนั้นขึ้นมามากกว่า”

จะเห็นว่าธุรกิจต่าง ๆ นำไปใช้กันมาก แต่ที่มีมาก คือธุรกิจที่มีข้อมูลออนไลน์ หรือข้อมูลดิจิทัลเก็บในคอมพิวเตอร์ เช่น โซเชียลเน็ตเวิร์ก โดยเฉพาะเฟซบุ๊ก, ยูทูบ จะเป็น Data Classified มี Recommend มากมาย แนวความคิดแบบนี้จะมีอยู่ในหลายสิ่ง ทั้งเพลง สิ่งบันเทิงต่าง ๆ เป็นการตอบสนองให้ใกล้เคียงกับสิ่งที่แต่ละคนต้องการ

ดักจับโจรขี้โม้

ส่วนเรื่อง Preventive ปัจจุบันมีใช้จริง เช่น ตำรวจอเมริกันมีหลายแบบ แบบแรกเป็นสายตรวจธรรมดาแบบบ้านเรา อีกแบบหนึ่ง คือ สายหน่วยที่คาดการณ์ว่าจะมีเหตุเกิดที่ไหน ก็จะปลอมไปเป็นตำรวจนอกเครื่องแบบและไปรอดูสถานการณ์ที่นั่นได้ด้วย เช่น เวลานี้อาจมีการดักปล้น เขาจะเดาได้ว่าน่าจะที่ไหน เวลาประมาณไหน โดยใช้ข้อมูลจากโซเชียลเน็ตเวิร์ก เพราะมีโจรหลายแบบ บางแบบโจรมีสังคมของเขา ต้องคุยกันทางไหนสักทางเป็นช่องทางการติดต่อ ไม่โทรศัพท์ หรือเฟซบุ๊ก อาจไม่ได้บอกชัด ๆ ว่าจะไปที่ไหน แต่ต้องส่งสัญญาณ สัญลักษณ์ หรือแม้กระทั่งพฤติกรรมการเลียนแบบที่สื่อสารและเข้าใจกันได้ ตำรวจก็ทำ Preventive และใช้ได้ระดับหนึ่งแล้วในเชิงการป้องกัน ปกติข้อมูลที่ใช้ทำ Preventive เป็นข้อมูลที่สร้างขึ้นใหม่ทางออนไลน์ หรือทางโทรศัพท์ เป็นข้อมูลที่มีการขยับ ต่างจากข้อมูลส่วนตัวที่ไม่มีการขยับขยาย

ปกป้องสุขภาพ

ส่วน Preventive ด้านสุขภาพ เช่น หัวใจ ตรวจวัดได้เบื้องต้น ในอดีตต้องไปหาหมอ หรือถ้าเทียบกับวัคซีนที่ใช้ตรวจการตั้งครรภ์ ก็ต้องทดสอบปกติ เพราะต้องใช้เครื่องมือ หรือทดสอบว่าเป็นโรคเอดส์ไหม ก็จะทดสอบหลายระดับ บางระดับแพง บางระดับถูก แต่พอมาจำแนกข้อมูลยิ่งทำให้ถูกไปอีก หมายถึงทดสอบอย่างอื่นด้วย เช่น เนื้องอกที่เจอเป็นเนื้อดีหรือเนื้อร้ายก็ทดสอบด้วยระบบปกติง่าย ๆ ที่คาดเดาได้ทั่ว ๆ ไปอยู่แล้ว ซึ่งปกติการเอกซเรย์หาเนื้องอกไม่ต้องทำกันทุกคน แต่ถ้าวันนี้มีระบบนี้เกิดขึ้นก็อาจหาให้ทุกคนได้ฟรี ๆ

นอกจากนี้ ถ้ามีระบบที่ดีพอจะลดปริมาณภาระงานของหมอได้ การเป็นโรคเรื้อรัง เช่น อายุมากขึ้น มีค่าน้ำตาลสูงขึ้น จะบอกให้ปรับพฤติกรรมได้ เพราะมีแนวโน้มเกิดไทรอยด์ได้ จากปกติกว่าจะทราบว่าเป็นหรือไม่ต้องไปให้หมอตรวจ และเฉพาะเจาะจงตรวจโรคนั้นทั้งที่อาจไม่ต้องตรวจแค่โรคใดโรคหนึ่ง แต่มีข้อมูลอื่นที่ผู้ป่วยมีอัตราเสี่ยงได้

“ศาสตร์นี้มีมานาน ใช้กันเกือบทุกวงการ รวมถึงวงการบัตรเครดิต การเงินธนาคาร ใช้วิเคราะห์ความสามารถในการจ่าย การคาดการณ์การฉ้อฉลหรือวิเคราะห์แนวโน้มการเลี่ยงภาษี แต่กำลังทำให้เป็นอัตโนมัติมากขึ้น”