จาก คลื่นเสียง สู่ ตัวอักษร ด้วย Speech-to-Text by WordSense ผู้ช่วยอัจฉริยะแปลงเสียงเป็นข้อความ

รู้หรือไม่!? เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังจะเข้ามาเปลี่ยนแปลงการทำงานของ ‘คอลเซ็นเตอร์’ อย่างสิ้นเชิง จากอดีตที่ลูกค้าต้องถือสายรอเป็นเวลานานเพื่อพูดคุยกับเจ้าหน้าที่ แต่ปัจจุบันเราสามารถได้รับคำตอบที่รวดเร็วและแม่นยำภายในไม่กี่วินาที พร้อมทั้งสามารถเพิ่มประสิทธิภาพในการขายของ telesales ด้วยการแนะนำผลิตภัณฑ์บน sale script แบบ real-time ช่วยทำให้ยอดขายเพิ่มขึ้นและ QC อัตโนมัติลดความผิดพลาดทางการขาย

ทั้งหมดนี้เกิดขึ้นได้เพราะเทคโนโลยี ‘Speech-to-Text’ หรือ Automatic Speech Recognition (ASR) ที่เข้ามามีบทบาทสำคัญในการแปลงเสียงพูดของลูกค้าเป็นข้อความอย่างแม่นยำ ทำให้การบริการลูกค้ารวดเร็วและมีประสิทธิภาพยิ่งขึ้น

หนึ่งในผู้เชี่ยวชาญด้านการพัฒนาเทคโนโลยี Speech-to-Text ในประเทศไทย อย่าง บริษัท เวิร์ดเซนส์ จำกัด (WordSense) ภายใต้การดูแลของบริษัท ลูลู่ เทคโนโลยี จำกัด กำลังนำเทคโนโลยีนี้เข้าสู่ตลาดในวงกว้าง ด้วยความสามารถของ Speech-to-Text ที่สามารถทำงานแทนมนุษย์ในหลากหลายด้าน ช่วยเพิ่มประสิทธิภาพการทำงาน ลดข้อผิดพลาด ลดจำนวนกำลังคนที่จำเป็น และช่วยประหยัดต้นทุนให้กับองค์กรได้อย่างมีนัยสำคัญ

วันนี้เราจึงจะมาทำความรู้จักกับเทคโนโลยีล้ำสมัยนี้ให้มากยิ่งขึ้น ผ่านการพูดคุยกับ สหพัฒณ์ ล้ำสมบัติ CEO ของบริษัท เวิร์ดเซนส์ จำกัด ที่จะพาทุกคนไปเจาะลึกและเข้าใจเทคโนโลยี Speech-to-Text อย่างละเอียดและชัดเจน

จาก ‘คลื่นเสียง’ สู่ ‘ตัวอักษร’ นวัตกรรมการสื่อสารยุคใหม่

สหพัฒณ์ เริ่มต้นบทสนทนาด้วยการอธิบายถึงกระบวนการทำงานของเทคโนโลยี Speech-to-Text หรือ Automatic Speech Recognition (ASR) โดยกล่าวว่า เทคโนโลยีนี้เป็น AI ที่ใช้จับเสียงแล้วนำมาแปลงเป็นข้อความ ซึ่งรองรับไฟล์ได้หลากหลายรูปแบบ สำหรับหลักการทำงานของเทคโนโลยีนี้ โปรแกรมจะวิเคราะห์ ‘คลื่นเสียง’ เป็นหลัก ซึ่งคลื่นเสียงจะแตกต่างกันไปตามภาษาและน้ำเสียงที่ผู้พูดเปล่งออกมา นี่คือเหตุผลว่าทำไมโปรแกรมอย่าง SIRI หรือ Google Assistant จึงมีความสามารถในการฟังและเข้าใจภาษาอังกฤษได้ดีกว่าภาษาไทย เนื่องจากถูกพัฒนาโดยบริษัทต่างชาติที่เน้นภาษาอังกฤษเป็นหลัก

“ในยุคเริ่มต้น เทคโนโลยี Speech-to-Text ยังไม่แม่นยำมากนัก การแปลงเสียงเป็นข้อความมักเกิดข้อผิดพลาด หากมีการออกเสียงผิดเพียงเล็กน้อย ข้อความที่ได้ก็อาจไม่ถูกต้อง ดังนั้น เทคโนโลยี Speech-to-Text จึงถูกพัฒนาควบคู่กับความสามารถในการเข้าใจภาษา เพื่อให้มั่นใจว่าข้อความที่แปลงออกมานั้นถูกต้องและสอดคล้องกับคำพูดจริงๆ ไม่ใช่แค่คำที่สุ่มขึ้นมา” คุณสหพัฒณ์ CEO ของเวิร์ดเซนส์ อธิบายเพิ่มเติม

‘แม่นยำ-รวดเร็ว-ชัดเจน’ จุดเด่นของ Speech-to-Text by WordSense

หลังจากปูพื้นฐานเกี่ยวกับเทคโนโลยี Speech-to-Text แล้ว สหพัฒณ์ ยังได้เล่าถึงจุดเด่นของเทคโนโลยีดังกล่าว ที่ WordSense ได้พัฒนาและคิดค้นอีกด้วยว่า โมเดล Speech-to-Text ของบริษัทเรา มีความโดดเด่นตรงที่เทคโนโลยีมีความแม่นยำสูงในการแปลงเสียงพูดเป็นข้อความ โดยเฉพาะภาษาไทย

อย่างไรก็ตาม เทคโนโลยีของเรายังสามารถถอดเสียงและแปลงเป็นข้อความได้ในเวลาใกล้เคียงกับการพูด และสามารถแยกแยะเสียงของแต่ละบุคคลในระหว่างการสนทนา ทำให้เข้าใจและวิเคราะห์บทสนทนาได้อย่างชัดเจน ตลอดจนสามารถปรับแต่งให้รองรับการใช้งานเฉพาะของอุตสาหกรรม เช่น การบริการลูกค้า การประชุม หรือการฝึกอบรม

“โดยทั่วไปแล้ว โมเดล Speech-to-Text มักจะเรียนรู้จากข้อมูลที่มีอยู่บนโลกออนไลน์ หากเปรียบเทียบโมเดลตัวนี้เป็นเด็กคนหนึ่ง การที่โมเดลได้เรียนรู้ข้อมูลทั้งหมด ก็เหมือนเด็กที่เรียนจบระดับมัธยมศึกษาตอนปลาย แต่ยังไม่มีความรู้เชิงลึกในด้านใดด้านหนึ่ง ซึ่งหลายแห่งที่พัฒนาและคิดค้น Speech-to-Text ก็ยังคงอยู่ในขั้นตอนนี้เท่านั้น

“แต่ WordSense ไม่หยุดคิดค้น เราเลือกที่จะพัฒนาโมเดลให้ตอบโจทย์ลูกค้าโดยตรง ด้วยการเจาะลึกไปในบางหมวดเฉพาะ และสร้างโมเดลที่เหมาะกับอุตสาหกรรมนั้นๆ อาทิ ด้านการแพทย์ การก่อสร้าง การขายประกัน ฯลฯ โดยเราเทรนโมเดลให้เรียนรู้และเข้าใจศัพท์เฉพาะในแต่ละอุตสาหกรรม เพื่อให้โมเดลทำงานได้อย่างมีประสิทธิภาพสูงสุด” สหพัฒณ์ กล่าว

ผู้ช่วยอัจฉริยะยกระดับการทำงานของ ‘คอลเซ็นเตอร์’

ไม่เพียงเท่านั้น CEO เวิร์ดเซนส์ ยังได้ยกตัวอย่างเคสที่น่าสนใจด้วยว่า เทคโนโลยี Speech-to-Text ถือได้ว่ามีบทบาทสำคัญอย่างมากในการทำงานของ ‘คอลเซ็นเตอร์’ ในปัจจุบัน เพราะโดยทั่วไปแล้ว คอลเซ็นเตอร์จะบันทึกบทสนทนาทางโทรศัพท์ระหว่างเจ้าหน้าที่และลูกค้า ต่อจากนั้นจะนำ Speech-to-Text เข้ามาช่วยถอดคำพูดในบทสนทนาออกมาเป็นข้อความ ทำให้สามารถนำข้อมูลไปใช้วิเคราะห์ปัญหาต่างๆ ปรับปรุงและพัฒนาธุรกิจให้มีประสิทธิภาพมากขึ้น

นอกจากนี้ หลายคนอาจเคยได้รับโทรศัพท์ที่ตัวแทนโทรมาเสนอขายประกัน ซึ่งตัวแทนมักจะแจ้งข้อมูลตัวเองและแนะนำเลขที่กรมธรรม์ต่างๆ คุณอาจสงสัยว่าทำไมต้องทำเช่นนี้ นั่นเป็นเพราะกฎหมายบังคับของสำนักงานคณะกรรมการกำกับและส่งเสริมการประกอบธุรกิจประกันภัย (คปภ.) ที่กำหนดให้เจ้าหน้าที่ต้องเปิดเผยรายละเอียดใบอนุญาตและข้อมูลที่จำเป็นให้กับลูกค้า

ต่อมาเจ้าหน้าที่ Broker จะทำการตรวจสอบคุณภาพของบริษัทนายหน้าประกันภัย ให้แน่ใจว่ามีการให้ข้อมูลที่ชัดเจนและครบถ้วนกับลูกค้า เพื่อป้องกันการร้องเรียนจากลูกค้า ซึ่งปกติแล้วกระบวนการตรวจสอบนี้ต้องใช้ทีมงานจำนวนมากในการฟังและตรวจสอบบทสนทนา จึงมีบางบริษัทที่นำเทคโนโลยี Speech-to-Text ไปปรับใช้ในการตรวจสอบบทสนทนาเหล่านี้ เพื่อลดภาระงานของทีมงานตรวจสอบและเพิ่มความแม่นยำในการดำเนินการ

จากการนำเทคโนโลยี Speech-to-Text มาใช้ในการตรวจสอบคุณภาพของบริษัทนายหน้าประกันภัย แสดงให้เห็นถึงการเพิ่มประสิทธิภาพในการดำเนินงาน ด้วยการถอดเสียงและตรวจสอบบทสนทนาการขายประกันแบบอัตโนมัติ ช่วยลดจำนวนคนในการทำงาน และลดเวลาที่ต้องใช้ในการป้อนข้อมูลและการตรวจสอบด้วยมือ รวมถึงสามารถรวมเข้ากับโครงสร้างพื้นฐานเดิมก็ได้อย่างราบรื่นและมีประสิทธิภาพ

ไขปัญหาการใช้งาน Speech-to-Text : ความท้าทายที่มาพร้อมกับโซลูชัน

นอกเหนือจากคุณสมบัติอันโดดเด่นของเทคโนโลยี Speech-to-Text จาก WordSense ที่ก้าวล้ำไปอย่างไม่หยุดยั้ง เมื่อใช้งานไปแล้วก็อาจเกิดความไม่ชำนาญ ทำให้พบปัญหาและความท้าทายจากการใช้เทคโนโลยีดังกล่าวนี้ได้

ซึ่ง สหพัฒณ์ อธิบายเพิ่มเติมว่า โมเดลของเราถูกฝึกให้ฟังและจำแนกภาษา ทั้งภาษาไทยและภาษาอังกฤษ ทำให้ไม่ค่อยมีปัญหามากนักหากออกสำเนียงไม่ชัดเจน แต่ถ้าสภาพแวดล้อมมีเสียงรบกวนหรือคุณภาพเสียงไม่ดี ก็อาจส่งผลต่อความแม่นยำของ Speech-to-Text ได้เช่นกัน ดังนั้น การพัฒนาอัลกอริทึมที่สามารถจัดการกับเสียงรบกวนและปรับปรุงคุณภาพเสียงจึงเป็นสิ่งสำคัญ

ขณะเดียวกัน ภาษาไทยมีสำเนียงและวิธีการออกเสียงที่แตกต่างกันในแต่ละภูมิภาค การพัฒนา Speech-to-Text ให้สามารถรับมือกับความหลากหลายนี้ต้องใช้ข้อมูล การฝึกฝน และความเชี่ยวชาญในการประมวลผลมากยิ่งขึ้น ซึ่งอาจส่งผลต่อความถูกต้องและความแม่นยำในการแปลงเสียงเป็นข้อความได้

อีกทั้งเมื่อมีการพูดพร้อมกันจากหลายบุคคล การแยกแยะเสียงพูดแต่ละบุคคลก็เป็นเรื่องท้าทาย ดังนั้น การใช้เทคนิค Diarization จะช่วยให้ Speech-to-Text สามารถแยกแยะเสียงของแต่ละบุคคลได้อย่างมีประสิทธิภาพ

ทำงานเร็วขึ้น ง่ายขึ้น ด้วย WordSense ตัวช่วยที่คุณต้องมี

เมื่อมีการแปลงเสียงเป็นข้อความ ทุกคนย่อมรู้ว่าอาจเกิดความผิดพลาดได้ง่ายมาก แต่ค่า Word Error Rate (WER) ซึ่งเป็นเปอร์เซ็นต์ของความผิดพลาดจากการแปลงเสียงเป็นข้อความของ Speech-to-Text จาก WordSense สามารถทำได้สูงถึงเฉลี่ย 90% กล่าวคือ เมื่อแปลงเสียงเป็นข้อความ 100 คำ จะมีการแปลงข้อความผิดเพียง 10 คำเท่านั้น

“ค่า WER ดังกล่าว เป็นเพียงการวัดเริ่มต้นเท่านั้น ผู้ใช้งานยังสามารถแก้ไขข้อความที่ผิดพลาดได้อย่างต่อเนื่อง ขณะที่โมเดลยังคงทำงานถอดเสียงอยู่ หากพบข้อความที่แปลงผิด ผู้ใช้งานสามารถแก้ไขเองได้ และโมเดลจะเรียนรู้จากการแก้ไขนั้น เพื่อให้การแปลงครั้งต่อไปไม่มีความผิดพลาดซ้ำอีก” CEO เวิร์ดเซนส์ เน้นย้ำ

WordSense ถือเป็นหนึ่งในผู้ให้บริการเทคโนโลยี Speech-to-Text ที่มีความเชี่ยวชาญในการพัฒนาโซลูชัน ด้วยเทคโนโลยี AI ทันสมัยที่มีความแม่นยำสูง ใช้งานได้หลากหลาย และมีฟีเจอร์ที่ตอบโจทย์ความต้องการของผู้ใช้งานอย่างครบถ้วน นับเป็นผู้ช่วยอัจฉริยะที่ไม่เพียงแค่แปลงเสียงเป็นข้อความเท่านั้น แต่ยังช่วยเสริมประสิทธิภาพในการทำงานของทุกคนให้ดียิ่งขึ้น

จาก คลื่นเสียง สู่ ตัวอักษร ด้วย Speech-to-Text by WordSense ผู้ช่วยอัจฉริยะแปลงเสียงเป็นข้อความ

แชร์

ขนาดตัวอักษร