นับตั้งแต่ Generative AI อย่าง ChatGPT ถือกำเนิดขึ้น แล้วแสดงอิทธิฤทธิ์ สามารถประมวลผลข้อมูลด้านภาษาได้อย่างน่าทึ่ง ส่งผลให้โลกทั้งใบเปลี่ยนไปอย่างรวดเร็ว และเกิด Gen AI ด้านภาษาให้ใช้บริการอีกมากมายนับไม่ถ้วน
อย่างไรก็ตาม Gen AI ทั้งหมดดูจะคล่องแคล่วเป็นพิเศษเมื่อทำงานเป็นภาษาอังกฤษ แต่กับภาษาอื่นๆ รวมถึงภาษาไทย กลับไม่ได้มีประสิทธิภาพเท่าที่ควร ทำให้ผู้คนจำนวนมากต่างเฝ้ารอว่าเมื่อไหร่จะมี Gen AI ที่เชี่ยวชาญภาษาท้องถิ่นของแต่ละประเทศ เพื่อจะได้นำไปใช้งานได้จริงเสียที
หากคนไทยคนไหนรอสิ่งนี้อยู่ล่ะก็ วันนั้นกำลังจะมาถึงอีกไม่นานเกินรอ เพราะเมื่อวันที่ 8 มีนาคม 2024 SCBX และ SCB 10X ร่วมกันจัดสัมมนา SCBX Unlocking AI: EP6 Unveiling SCB 10X’s Typhoon เพื่อเจาะลึกเบื้องหลังของ Typhoon (ไต้ฝุ่น) โมเดลภาษาขนาดใหญ่ที่ SCB 10X พัฒนาขึ้นมาสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai)
โดยจากการประเมินความสามารถพบว่า ประสิทธิภาพการทำงานของ Typhoon LLM มีความใกล้เคียงกับ GPT-3.5 รวมถึงยังสามารถประมวลผลหรือวิเคราะห์ข้อความและคำภาษาไทยได้อย่างมีประสิทธิภาพกว่า GPT-4 ถึง 2.62 เท่า สามารถถาม-ตอบเป็นภาษาไทยได้อย่างเป็นธรรมชาติ ด้วยความเข้าใจคำศัพท์และวัฒนธรรมของภาษาไทย
งานครั้งนี้ได้ 2 บุคคลสำคัญผู้อยู่เบื้องหลังการพัฒนาปัญญาประดิษฐ์สัญชาติไทย นั่นคือคุณกวีวุฒิ เต็มภูวภัทร (Kaweewut Temphuwapat) Head of R&D and Innovation Lab จาก SCBX และคุณกสิมะ ตันพิพิทชัย (Kasima Tharnpipitchai) Head of Al Strategy จาก SCB 10X มาอธิบายอย่างหมดเปลือกว่า เพราะเหตุใดถึงพัฒนา LLM ตัวนี้ขึ้นมา และจะช่วยยกระดับประเทศไทยอย่างเห็นผลได้อย่างไรบ้าง
ไม่แค่ใช้เทคโนโลยี แต่ต้องพัฒนาเทคโนโลยีด้วย
คุณกวีวุฒิ อธิบายก่อนว่า ที่ผ่านมามีองค์กรจำนวนมากสร้างสรรค์นวัตกรรมใหม่ๆ มากมาย นวัตกรรมเหล่านี้เป็นจุดแข็งที่ช่วยให้ยกระดับองค์กรได้ดียิ่ง แต่นั่นคือสิ่งที่ประเทศไทยขาดหายไปเพราะสนใจแต่การรับมาใช้มากกว่าพัฒนาเอง
หากอยากเห็นการพัฒนาที่นำไปสู่ความอยู่รอดในอนาคต องค์กรจะคิดแต่เป็นผู้ใช้งานอย่างเดียว ไม่ได้ ต้องคิดและพัฒนาสิ่งใหม่ขึ้นมาเองด้วย SCBX ที่ยึดมั่นในหลักการนี้จึงมุ่งมั่นสร้างสรรค์สิ่งใหม่ๆ อย่างไม่หยุดยั้ง และหนึ่งในนั้นก็คือ Generative AI ที่ชื่อว่า Typhoon นั่นเอง
ทั้งนี้ SCB ถือเป็นองค์กรที่คุ้นเคยกับการใช้งาน Gen AI มาอยู่แล้ว ปัจจุบันใช้งาน Microsoft Co-Pilot กับงานหลายภาคส่วน ทั้งหาข้อมูล สรุปประชุม และอื่นๆ อีกมากมาย ซึ่งก็พบ Pain Point ว่าต่อให้ Gen AI จากต่างชาติจะเก่งแค่ไหน แต่มันไม่เชี่ยวชาญภาษาไทยเสียเลย ดังนั้นจึงเป็นโอกาสที่องค์กรได้พัฒนา AI ตัวใหม่ เพื่อแก้ปัญหาดังกล่าวนี้
ที่สำคัญก็คือ จะเปิดเป็น Open Source ที่ให้ทุกคน ไม่เพียงแค่คนใน SCB เท่านั้นที่เข้าถึงและใช้ประโยชน์จากเทคโนโลยีนี้ด้วย
Gen AI Open Source เพื่อชาติ
ขณะที่คุณกสิมะเล่าว่า เขาเป็นหนึ่งในผู้ที่ร่วมผลักดันให้เกิด AI คลื่นพายุอย่าง Typhoon ขึ้นมาตั้งแต่แรก และยิ่งพัฒนาต่อไปเรื่อยๆ ก็พบว่า จะดีกว่าหรือไม่หากให้พายุไต้ฝุ่นลูกนี้โหมกระพือไปทั่วประเทศไทย ไม่แค่เฉพาะในหน่วยงานของ SCB เท่านั้น
“ปัจจุบัน เทคโนโลยีที่มีประโยชน์ควรต้องเป็นแบบ Open Source มากกว่าครับ เพราะการแข่งขันด้าน AI คือการแข่งในระดับโลก ถ้าเราจะแข่งกับต่างชาติที่ใช้ภาษาอังกฤษเป็นหลัก การพัฒนา AI แบบปิดจะไม่สามารถทำให้ไทยแข่งขันกับใครได้เลย นอกจากสู้กันเอง”
“ดังนั้นเราควรร่วมมือกันพัฒนามากกว่า เพื่อให้เกิดเป็นชุมชนเดียวกัน และสร้าง Ecosystem ให้ทำงานร่วมกันอย่างสอดประสานครับ”
คุณกวีวุฒิ เสริมอีกว่า ประเทศไทยมีนักพัฒนาเก่งๆ หลายท่าน แต่ไม่ได้หมายความว่า SCB จะสามารถร่วมงานกับทุกคนทั่วประเทศได้หมด การเปิด Open Source จึงเป็นวิธีที่ดีที่สุดแล้ว ที่จะช่วยให้ Typhoon สามารถพัฒนาได้เร็วขึ้น และขยายรูปแบบการใช้งานให้มากขึ้น จนเกิดประสิทธิภาพที่สูงยิ่งขึ้นตามมา
การเข้าถึง Data ปัญหาที่น่าปวดหัว
การจะให้ Gen AI พัฒนาขึ้น สิ่งสำคัญที่ต้องมีก็คือ ข้อมูล (Data) จำนวนมหาศาลค่อยๆ ป้อนเข้าไปให้ปัญญาประดิษฐ์ค่อยๆ เรียนรู้และเติบโต แต่ปัญหาสำคัญที่คุณกสิมะพบก็คือ จะเอาข้อมูลจากแหล่งไหนเพื่อให้ Typhoon เรียนรู้ดี
“การหาข้อมูลเป็นภาษาไทย ไม่เหมือนกับภาษาอังกฤษที่จะหาง่ายกว่า ทำให้การหาข้อมูลต้องลงทุนลงแรงมากกว่า นอกจากนั้นเมื่อเรารู้ว่าจะหาข้อมูลจากแหล่งไหนแล้ว ก็ต้องมาคัดกรองและคลีนข้อมูลเหล่านั้นให้เหลือแต่ข้อมูลที่ดีมีคุณภาพด้วยครับ”
คุณกสิมะเล่าว่าตอนพัฒนา Typhoon โมเดลเริ่มต้น 7B นั้นจะสอนผ่านข้อมูลในแบบข้อสอบ ONET, TGAT, TPAT และอีกหลายรูปแบบ โดยจะเน้นให้ Gen AI ไม่เพียงเรียนรู้ภาษาไทย แต่จะให้เรียนรู้บริบทของภาษา คลังคำศัพท์ บริบท หรือวัฒนธรรมของภาษาไทย รวมถึงความรู้ทั่วไปที่เกิดขึ้นทั่วโลกด้วย
และผลของการเรียนรู้ทำให้เขาเซอร์ไพรซ์กว่าที่คิดหลายเท่าเลยทีเดียว!
Typhoon vs ChatGPT เทียบกันหมัดต่อหมัด ใครรอบรู้เรื่องวัฒนธรรมไทยกว่ากัน
นอกจากมาเล่าถึงแนวคิดการพัฒนา Typhoon ในงานวันนี้คุณกสิมะและคุณกวีวุฒิยังทดลองใช้งาน Gen AI โมเดลใหม่นี้ให้ผู้เข้าร่วมงานได้ดูกันด้วยว่า หลังพัฒนามานานกว่า 7-8 เดือน ผลที่ออกมาเป็นอย่างไรบ้าง และสามารถให้ข้อมูลเป็นภาษาไทย ที่มีความเฉพาะเจาะจงกับวัฒนธรรมไทยได้แค่ไหน
หนึ่งในตัวอย่างที่เผยในงานครั้งนี้คือการลองกรอก Prompt เพื่อขอสูตรทำ ‘ไก่ย่าง’ จาก Typhoon ปรากฏว่าปัญญาประดิษฐ์สามารถให้ข้อมูลเกี่ยวกับการทำไก่ย่างครบถ้วน โดยมีสิ่งที่พอจะยืนยันได้ว่าสูตรดังกล่าวเป็นสูตรไทย คือการใช้วัตถุดิบอย่างข้าวคั่ว
ขณะเดียวกัน หากถาม ChatGPT ถึงสูตรทำ ‘ไก่ย่าง’ แม้ข้อมูลที่ได้จะเป็นระบบระเบียบมากกว่า แต่สูตรดังกล่าวไม่มีอะไรที่บ่งชี้ว่า เป็นสูตรไก่ย่างฉบับประเทศไทยจริงๆ และเป็นไปได้ว่ามันอาจเป็นสูตรไก่ย่างแบบนานาชาติมากกว่า ซึ่งแสดงให้เห็นว่า Typhoon เข้าใจวัฒนธรรมไทยที่มีความเฉพาะตัวได้ดีทีเดียว
สำหรับแผนการต่อไป SCBX และ SCB 10X มีเป้าหมายที่จะพัฒนา Typhoon เพื่อเพิ่มขีดความสามารถด้านการแข่งขันให้แก่อุตสาหกรรม AI ของไทยให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้นในอนาคต
หากนักพัฒนาคนไหนสนใจร่วมขับเคลื่อน Typhoon ให้เติบโตไปพร้อมกันอย่างแข็งแกร่งล่ะก็ สามารถลงทะเบียนเพื่อรอทดลองใช้งานโมเดล Instruction-tuned เวอร์ชันเริ่มต้นในรูปแบบของ API เพื่อการพัฒนาโมเดลภาษาไทยขนาดใหญ่ให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้นได้ในเร็วๆ นี้ ที่ https://opentyphoon.ai