ประเมินประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายในองค์กรและการบริการลูกค้า
1. บทนำเกี่ยวกับ ChindaLLM
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT เวอร์ชันล่าสุด ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายในองค์ก รและการบริการลูกค้าอย่างมีประสิทธิภาพ
คุณสมบัติที่สำคัญ ได้แก่ การสร้างแบบเสริมด้วยการดึงข้อมูล (RAG) พร้อมระบบสำหรับจัดการเอกสารหลายฉบับ การผสานรวมผ่าน LINE, Messenger และเว็บไซต์ การใช้งานฟังก์ชันแบบกำหนดเองและการเรียกใช้เครื่องมือโดยใช้ AI แบบเอเจนต์ การรองรับแบบจำลองต่างๆ และการปรับแต่งส่วนบุคคล ความสามารถในการค้นหาเว็บ การรองรับมัลติโมดอล รวมถึงการแปลงข้อความเป็นเสียง เสียงเป็นข้อความ และการสร้างภาพ
ระบบได้รับการประเมินโดยใช้ชุดข้อมูลสามชุด ได้แก่ TyDiQA, XQuAD และ iapp_wiki_qa_squad ชุดข้อมูลเหล่านี้ประกอบด้วยคู่คำถาม-คำตอบแบบสกัดภาษาไทยพร้อมบริบท รวบรวมจากตัวอย่าง 2,695 ตัวอย่าง
การตั้งค่าการประเมิน
การกำหนดค่าแบบจำลอง
- แบบจำลอง: OpenThaiGPT1.5 7B
- อุณหภูมิ: 0.2
เราเก็บบริบทที่ไม่ซ้ำกันทั้งหมดในชุดข้อมูลและจัดเก็บไว้ สำหรับแต่ละคำถาม ระบบจะดึงเอกสารที่เกี่ยวข้องมากที่สุด k อันดับแรก และประเมินว่าตรงกับเอกสารความจริงสำหรับคำถามนั้นหรือไม่
ใน P@k ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง จะได้รับคะแนน 1 มิฉะนั้นจะได้คะแนน 0 จากนั้นคำนวณคะแนนเฉลี่ยสำหรับคำถามทั้งหมด
ใน MRR@k คะแนนจะถูกกำหนดตามลำดับของเอกสาร: คะแนน 1/rank ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง และ 0 ถ้าไม่ตรง คะแนนเฉลี่ยจะถูกคำนวณสำหรับคำถามทั้งหมด สุดท้าย เอกสารและคำถามที่ดึงมาจะถูกนำไปใช้สร้างคำตอบเพื่อเปรียบเทียบ
ชุดข้อมูลการประเมิน
TyDiQA (763 ตัวอย่าง): การตอบคำถามครอบคลุม 11 ภาษาที่หลากหลาย โดยมีคู่คำถาม-คำตอบ 204,000 คู่ (รวมถึงภาษาไทย) ประกอบด้วยปรากฏการณ์ทางภาษาที่ไม่พบในกลุ่มข้อมูลภาษาอังกฤษเท่านั้น เพื่อให้ภารกิจการค้นหาข้อมูลสมจริงและหลีกเลี่ยงผลกระทบจากการเตรียมข้อมูล คำถามจะถูกเขียนโดยผู้คนและข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษาโดยไม่ใช้การแปล ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai Sentence Embedding Leaderboard
XQuAD (1,190 ตัวอย่าง): ชุดข้อมูลมาตรฐานสำหรับประเมินประสิทธิภาพการตอบคำถามข้ามภาษา ชุดข้อมูลประกอบด้วยย่อยของย่อหน้า 240 ย่อหน้าและคู่คำถาม-คำตอบ 1,190 คู่จากชุดพัฒนาของ SQuAD v1.1 พร้อมกับการแปลมืออาชีพเป็นสิบภาษา: สเปน เยอรมัน กรีก รัสเซีย ตุรกี อาหรับ เวียดนาม ไทย จีน และฮินดี ดังนั้น ชุ ดข้อมูลจึงขนานกันอย่างสมบูรณ์ใน 11 ภาษา ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai Sentence Embedding Leaderboard
Iapp_wiki_qa_squad (742 ตัวอย่าง): ชุดข้อมูลการตอบคำถามแบบสกัดจากบทความวิกิพีเดียภาษาไทย ปรับปรุงจาก iapp-wiki-qa-dataset ดั้งเดิมเป็นรูปแบบ SQuAD ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai LLM Leaderboard
ภาพรวมตัวชี้วัดหลัก
- P@K (Precision at K): วัดประสิทธิภาพของระบบการดึงข้อมูลในการดึงเอกสารฉลากความจริงภายในเอกสาร K อันดับแรก แสดงเป็นเปอร์เซ็นต์ของจำนวนคำถามทั้งหมด
- MRR@K (Mean Reciprocal Rank at K): วัดประสิทธิภาพของระบบการดึงข้อมูลในการดึงเอกสารฉลากความจริงเพิ่มเติมและพิจารณาลำดับของเอกสารเป็นคะแนนภายในเอกสาร K อันดับแรก แสดงเป็นเ ปอร์เซ็นต์ของจำนวนคำถามทั้งหมด
ผลการประเมิน
Precision@K
ชุดข้อมูล | Precision@1 | Precision@5 | Precision@10 |
---|---|---|---|
TyDiQA | 0.8912 | 0.9879 | 0.9934 |
XQuAD | 0.9059 | 0.9916 | 0.9941 |
iapp_wiki_qa_squad | 0.9286 | 0.9663 | 0.9784 |
MRR@K
ชุดข้อมูล | MRR@10 |
---|---|
TyDiQA | 0.9343 |
XQuAD | 0.9439 |
iapp_wiki_qa_squad | 0.9446 |
สรุป
- Precision@1 สูงสุดใน iapp_wiki_qa_squad (0.9286) → ระบบการดึงข้อมูลมีความสามารถในการดึงเอกสารที่เกี่ยวข้องที่ถูกต้องในตำแหน่งที่ 1 บ่อยกว่าในชุดข้อมูลนี้เมื่อเทียบกับชุดข้อมูลอื่นๆ
- Precision@5 และ Precision@10 ใกล้เคียงกับ 1.0 ในชุดข้อมูลการประเมินทั้งหมด → ซึ่งหมายความว่าเอกสาร 5 และ 10 อันดับแรกมักจะมีเอกสารที่เกี่ยวข้องที่ถูกต้อง
- ในชุดข้อมูล XQuAD Precision@5 และ Precision@10 สูงที่สุด (0.9916 และ 0.9941) → ซึ่งแสดงให้เห็นว่าระบบการดึงข้อมูลดึงเอกสารที่เกี่ยวข้องที่ถูกต้องที่สุดในชุดข้อมูลนี้
- MRR@10 สูงสุดใน iapp_wiki_qa_squad (0.9446) → เอกสารที่เกี่ยวข้องมักจะถูกดึงมาในตำแหน่งที่ 1-2
- จากนั้น XQuAD ตามมาด้วย MRR@10 (0.9439) → ซึ่งใกล้เคียงกับ iapp_wiki_qa_squad มาก
- TyDiQA มี MRR@10 (0.9343) ต่ำที่สุด → แม้ว่าค่านี้จะต่ำที่สุดในสามชุดข้อมูล แต่ก็ยังสูงมาก โดยเอกสารที่เกี่ยวข้องมักปรากฏในตำแหน่งที่ 1-2