
Red Hat เปิดตัว “Red Hat AI Inference Server” โซลูชั่นการอนุมานแบบโอเพ่น เชื่อมการทำงานโมเดล Gen AI สร้างจากโปรเจกต์ vLLM
ผู้สื่อข่าวรายงานว่า ผู้ให้บริการโซลูชั่นโอเพ่นซอร์ซ “เร้ดแฮท” (Red Hat) เปิดตัว “Red Hat AI Inference Server” ที่จะทำให้ Generative AI (Gen AI) กลายเป็นเทคโนโลยีที่ใครก็ใช้ได้บนไฮบริดคลาวด์ทุกแห่ง โซลูชั่นใหม่อยู่ใน Red Hat AI
Red Hat AI Inference Server เป็นโซลูชั่นการอนุมานแบบโอเพ่นที่ออกแบบมาเพื่อมอบประสิทธิภาพที่สูง มีเครื่องมือบีบอัดและเพิ่มประสิทธิภาพโมเดลที่มีประสิทธิภาพชั้นนำติดตั้งมาพร้อม ช่วยเสริมให้องค์กรใช้สมรรถนะของ Gen AI ได้อย่างเต็มที่ ด้วยการมอบประสบการณ์การตอบสนองที่ดีขึ้นให้กับผู้ใช้ และผู้ใช้มีอิสระในการเลือกใช้ AI accelerators เลือกใช้โมเดลและสภาพแวดล้อมไอทีได้ตามต้องการ
เร้ดแฮทเพิ่มประสิทธิภาพด้วยการผสานรวมเข้ากับเทคโนโลยี Neural Magic ทำให้มีความเร็วมากขึ้น ช่วยเพิ่มประสิทธิภาพให้ accelerator และคุ้มค่าใช้จ่าย เป็นการตอบวิสัยทัศน์ของเร้ดแฮทในการมอบการใช้งานโมเดล Gen AI ใด ๆ บน AI accelerator ใด ๆ ก็ได้ บนทุกสภาพแวดล้อมคลาวด์
แพลตฟอร์มนี้จะช่วยให้องค์กรต่าง ๆ ใช้และสเกล Gen AI สู่การทำงานเป็นรูปธรรม ไม่ว่าจะใช้งานแบบสแตนด์อะโลน หรือผสานเป็นส่วนประกอบของ Red Hat Enterprise Linux AI (RHEL AI) และ Red Hat OpenShift AI
การอนุมานเป็นเครื่องมือทำงานที่สำคัญของ AI โดยโมเดลที่ผ่านการเทรนล่วงหน้าจะแปลงข้อมูลให้เป็นการใช้งานในสถานการณ์จริง ซึ่งเป็นจุดสำคัญของการปฏิสัมพันธ์กับผู้ใช้ ที่ต้องการการตอบสนองอย่างฉับไวและแม่นยำ
การที่โมเดล Gen AI ทั้งหลายขยายตัวอย่างรวดเร็วตามขนาดการใช้งานจริงและมีความซับซ้อน ทำให้การอนุมาน (Inference) อาจกลายเป็นคอขวดที่เป็นอุปสรรคสำคัญ สิ้นเปลืองทรัพยากรฮาร์ดแวร์ และเป็นเหตุให้การตอบสนองไม่มีประสิทธิภาพ ทั้งยังทำให้ค่าใช้จ่ายในการดำเนินงานเพิ่มขึ้น เซิร์ฟเวอร์การอนุมานที่มีประสิทธิภาพดีจึงเป็นสิ่งสำคัญ
ทั้งนี้ Red Hat AI Inference Server สร้างจากโปรเจ็กต์ vLLM ในวงการที่เริ่มต้นพัฒนาโดย University of California, Berkeley เมื่อกลางปี 2566 โปรเจ็กต์ของคอมมิวนิตี้นี้มอบการอนุมาน Gen AI ที่มีปริมาณงานในช่วงเวลาหนึ่ง ๆ ที่สูง (high-throughput gen AI inference) รองรับอินพุตขนาดใหญ่, multi-GPU model acceleration, การแบทช์ต่อเนื่อง และอื่น ๆ อีกมาก
vLLM สนับสนุนการใช้งานในวงกว้างกับโมเดลต่าง ๆ ที่เปิดเป็นสาธารณะ ควบคู่กับการบูรณาการเข้ากับโมเดลชั้นนำต่าง ๆ ตั้งแต่ day zero ซึ่งรวมถึง DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi และอื่น ๆ รวมถึงโมเดลการใช้เหตุผลระดับองค์กรแบบเปิด เช่น Llama Nemotron นับว่าเป็นมาตรฐานที่ได้รับการยอมรับและใช้กันโดยทั่วไปสำหรับนวัตกรรมการอนุมาน AI ในอนาคต
Red Hat AI Inference Server มีให้บริการทั้งแบบสแตนด์อะโลนในรูปแบบคอนเทนเนอร์ หรือให้บริการเป็นส่วนหนึ่งของ RHEL AI และ Red Hat OpenShift AI ประกอบด้วย
Intelligent LLM compression tools เพื่อลดขนาดของโครงสร้างพื้นฐาน และปรับแต่งโมเดล AI อย่างละเอียด ลดการใช้การประมวลผลให้เหลือน้อยที่สุด ในขณะที่ยังคงรักษาและเพิ่มความแม่นยำของโมเดลได้
พื้นที่เก็บข้อมูลโมเดลที่ปรับให้เหมาะสม ซึ่งโฮสต์อยู่ใน Red Hat AI organization บน Hugging Face ช่วยให้เข้าถึงคอลเลกชั่นของโมเดล AI ชั้นนำที่ได้รับการตรวจสอบและปรับให้เหมาะสม และพร้อมสำหรับใช้ในการอนุมานได้ทันที ซึ่งช่วยเร่งประสิทธิภาพความเร็วได้ 2-4 เท่า โดยไม่กระทบต่อความแม่นยำของโมเดล
การสนับสนุนระดับองค์กรของเร้ดแฮท และความเชี่ยวชาญที่สั่งสมหลายทศวรรษในการนำโปรเจ็กต์ต่าง ๆ จากคอมมิวนิตี้มาสู่การผลิตใช้งานจริง
การสนับสนุนจากบุคคลภายนอก (third-party) เพื่อให้เกิดความยืดหยุ่นในการใช้ Red Hat AI Inference Server ได้บน non-Red Hat Linux และ แพลตฟอร์ม Kubernetes ต่าง ๆ ซึ่งเป็นไปตามนโยบายสนับสนุน third-party ของเร้ดแฮท