Skip to main content

ประเมินประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายในองค์กรและการบริการลูกค้า

1. บทนำเกี่ยวกับ ChindaLLM

การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่ถูกต้องแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT เวอร์ชันล่าสุด ซึ่งเป็นแบบจำลอง LLM ภาษาไทยที่ล้ำสมัยที่สุด ChindaLLM ให้คำตอบที่แม่นยำใน 10 ภาษา ช่วยปรับปรุงการสื่อสารภายในองค์กรและการบริการลูกค้าอย่างมีประสิทธิภาพ
คุณสมบัติที่สำคัญ ได้แก่ การสร้างแบบเสริมด้วยการดึงข้อมูล (RAG) พร้อมระบบสำหรับจัดการเอกสารหลายฉบับ การผสานรวมผ่าน LINE, Messenger และเว็บไซต์ การใช้งานฟังก์ชันแบบกำหนดเองและการเรียกใช้เครื่องมือโดยใช้ AI แบบเอเจนต์ การรองรับแบบจำลองต่างๆ และการปรับแต่งส่วนบุคคล ความสามารถในการค้นหาเว็บ การรองรับมัลติโมดอล รวมถึงการแปลงข้อความเป็นเสียง เสียงเป็นข้อความ และการสร้างภาพ
ระบบได้รับการประเมินโดยใช้ชุดข้อมูลสามชุด ได้แก่ TyDiQA, XQuAD และ iapp_wiki_qa_squad ชุดข้อมูลเหล่านี้ประกอบด้วยคู่คำถาม-คำตอบแบบสกัดภาษาไทยพร้อมบริบท รวบรวมจากตัวอย่าง 2,695 ตัวอย่าง

การตั้งค่าการประเมิน

การกำหนดค่าแบบจำลอง

  • แบบจำลอง: OpenThaiGPT1.5 7B
  • อุณหภูมิ: 0.2
    เราเก็บบริบทที่ไม่ซ้ำกันทั้งหมดในชุดข้อมูลและจัดเก็บไว้ สำหรับแต่ละคำถาม ระบบจะดึงเอกสารที่เกี่ยวข้องมากที่สุด k อันดับแรก และประเมินว่าตรงกับเอกสารความจริงสำหรับคำถามนั้นหรือไม่
    ใน P@k ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง จะได้รับคะแนน 1 มิฉะนั้นจะได้คะแนน 0 จากนั้นคำนวณคะแนนเฉลี่ยสำหรับคำถามทั้งหมด
    ใน MRR@k คะแนนจะถูกกำหนดตามลำดับของเอกสาร: คะแนน 1/rank ถ้าเอกสารในชุดที่ดึงมาตรงกับความจริง และ 0 ถ้าไม่ตรง คะแนนเฉลี่ยจะถูกคำนวณสำหรับคำถามทั้งหมด สุดท้าย เอกสารและคำถามที่ดึงมาจะถูกนำไปใช้สร้างคำตอบเพื่อเปรียบเทียบ

ชุดข้อมูลการประเมิน

TyDiQA (763 ตัวอย่าง): การตอบคำถามครอบคลุม 11 ภาษาที่หลากหลาย โดยมีคู่คำถาม-คำตอบ 204,000 คู่ (รวมถึงภาษาไทย) ประกอบด้วยปรากฏการณ์ทางภาษาที่ไม่พบในกลุ่มข้อมูลภาษาอังกฤษเท่านั้น เพื่อให้ภารกิจการค้นหาข้อมูลสมจริงและหลีกเลี่ยงผลกระทบจากการเตรียมข้อมูล คำถามจะถูกเขียนโดยผู้คนและข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษาโดยไม่ใช้การแปล ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai Sentence Embedding Leaderboard
XQuAD (1,190 ตัวอย่าง): ชุดข้อมูลมาตรฐานสำหรับประเมินประสิทธิภาพการตอบคำถามข้ามภาษา ชุดข้อมูลประกอบด้วยย่อยของย่อหน้า 240 ย่อหน้าและคู่คำถาม-คำตอบ 1,190 คู่จากชุดพัฒนาของ SQuAD v1.1 พร้อมกับการแปลมืออาชีพเป็นสิบภาษา: สเปน เยอรมัน กรีก รัสเซีย ตุรกี อาหรับ เวียดนาม ไทย จีน และฮินดี ดังนั้น ชุดข้อมูลจึงขนานกันอย่างสมบูรณ์ใน 11 ภาษา ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai Sentence Embedding Leaderboard
Iapp_wiki_qa_squad (742 ตัวอย่าง): ชุดข้อมูลการตอบคำถามแบบสกัดจากบทความวิกิพีเดียภาษาไทย ปรับปรุงจาก iapp-wiki-qa-dataset ดั้งเดิมเป็นรูปแบบ SQuAD ชุดข้อมูลการประเมินนี้เป็นส่วนหนึ่งของ Thai LLM Leaderboard

ภาพรวมตัวชี้วัดหลัก

  • P@K (Precision at K): วัดประสิทธิภาพของระบบการดึงข้อมูลในการดึงเอกสารฉลากความจริงภายในเอกสาร K อันดับแรก แสดงเป็นเปอร์เซ็นต์ของจำนวนคำถามทั้งหมด
  • MRR@K (Mean Reciprocal Rank at K): วัดประสิทธิภาพของระบบการดึงข้อมูลในการดึงเอกสารฉลากความจริงเพิ่มเติมและพิจารณาลำดับของเอกสารเป็นคะแนนภายในเอกสาร K อันดับแรก แสดงเป็นเปอร์เซ็นต์ของจำนวนคำถามทั้งหมด

ผลการประเมิน

Precision@K

ชุดข้อมูลPrecision@1Precision@5Precision@10
TyDiQA0.89120.98790.9934
XQuAD0.90590.99160.9941
iapp_wiki_qa_squad0.92860.96630.9784

MRR@K

ชุดข้อมูลMRR@10
TyDiQA0.9343
XQuAD0.9439
iapp_wiki_qa_squad0.9446

สรุป

  • Precision@1 สูงสุดใน iapp_wiki_qa_squad (0.9286) → ระบบการดึงข้อมูลมีความสามารถในการดึงเอกสารที่เกี่ยวข้องที่ถูกต้องในตำแหน่งที่ 1 บ่อยกว่าในชุดข้อมูลนี้เมื่อเทียบกับชุดข้อมูลอื่นๆ
  • Precision@5 และ Precision@10 ใกล้เคียงกับ 1.0 ในชุดข้อมูลการประเมินทั้งหมด → ซึ่งหมายความว่าเอกสาร 5 และ 10 อันดับแรกมักจะมีเอกสารที่เกี่ยวข้องที่ถูกต้อง
  • ในชุดข้อมูล XQuAD Precision@5 และ Precision@10 สูงที่สุด (0.9916 และ 0.9941) → ซึ่งแสดงให้เห็นว่าระบบการดึงข้อมูลดึงเอกสารที่เกี่ยวข้องที่ถูกต้องที่สุดในชุดข้อมูลนี้
  • MRR@10 สูงสุดใน iapp_wiki_qa_squad (0.9446) → เอกสารที่เกี่ยวข้องมักจะถูกดึงมาในตำแหน่งที่ 1-2
  • จากนั้น XQuAD ตามมาด้วย MRR@10 (0.9439) → ซึ่งใกล้เคียงกับ iapp_wiki_qa_squad มาก
  • TyDiQA มี MRR@10 (0.9343) ต่ำที่สุด → แม้ว่าค่านี้จะต่ำที่สุดในสามชุดข้อมูล แต่ก็ยังสูงมาก โดยเอกสารที่เกี่ยวข้องมักปรากฏในตำแหน่งที่ 1-2