ประเมินประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายในองค์กรและการบริการลูกค้า
1. บทนำเกี่ยวกับ ChindaLLM
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT เวอร์ชันล่าสุด ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายใน องค์กรและการบริการลูกค้าอย่างมีประสิทธิภาพ
คุณสมบัติที่สำคัญ ได้แก่ การสร้างแบบเสริมด้วยการดึงข้อมูล (RAG) พร้อมระบบสำหรับจัดการเอกสารหลายฉบับ การผสานรวมผ่าน LINE, Messenger และเว็บไซต์ การใช้งานฟังก์ชันแบบกำหนดเองและการเรียกใช้เครื่องมือโดยใช้ AI แบบเอเจนต์ การรองรับแบบจำลองต่างๆ และการปรับแต่งส่วนบุคคล ความสามารถในการค้นหาเว็บ การรองรับมัลติโมดอล รวมถึงการแปลงข้อความเป็นเสียง เสียงเป็นข้อความ และการสร้างภาพ
ระบบได้รับการประเมินโดยใช้ชุดข้อมูลสามชุด ได้แก่ TyDiQA, XQuAD และ iapp_wiki_qa_squad ชุดข้อมูลเหล่านี้ประกอบด้วยคู่คำถาม-คำตอบแบบสกัดภาษาไทยพร้อมบริบท รวบรวมจากตัวอย่าง 2,695 ตัวอย่าง
การตั้งค่าการประเมิน
การกำหนดค่าแบบจำลอง
- แบบจำลอง: OpenThaiGPT1.5 7B
- อุณหภูมิ: 0.2
เราเก็บบริบทที่ไม่ซ้ำกันทั้งหมดในชุดข้อมูลและจัดเก็บไว้ สำหรับแต่ละคำถาม ระบบจะดึงเอกสารที่เกี่ยวข้องมากที่สุด k อันดับแรก และประเมินว่าตรงกับเอกสารความจริงสำหรับคำถามนั้นหรือไม่
ใน P@k ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง จะได้รับคะแนน 1 มิฉะนั้นจะได้คะแนน 0 จากนั้นคำนวณคะแนนเฉลี่ยสำหรับคำถามทั้งหมด
ใน MRR@k คะแนนจะถูกกำหนดตามลำดับของเอกสาร: คะแนน 1/rank ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง และ 0 ถ้าไม่ตรง คะแนนเฉลี่ยจะถูกคำนวณสำหรับคำถามทั้งหมด สุดท้าย เอกสารและคำถามที่ดึงมาจะถูกนำไปใช้สร้างคำตอบเพื่อเปรียบเทียบ