Skip to main content

ประเมินประสิทธิภาพของ Thanoy ผู้ช่วยด้านกฎหมาย AI ภาษาไทย

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

รายงานการประเมินต่อไปนี้ประเมิน Thanoy ผู้ช่วยด้านกฎหมาย AI ภาษาไทย ที่ขับเคลื่อนโดย OpenThaiGPT ซึ่งออกแบบมาเพื่อให้คำแนะนำทางกฎหมายที่ถูกต้องและเชื่อถือได้ในเอกสารทางกฎหมายและคำถามต่างๆ Thanoy ฝึกฝนจากบทความและกฎหมายของไทยมากกว่า 10,000 รายการ เสนอโซลูชันขั้นสูงสำหรับผู้เชี่ยวชาญด้านกฎหมายและผู้ใช้ทั่วไปที่ต้องการคำแนะนำทางกฎหมาย

Thanoy AI Assistant

1. บทนำเกี่ยวกับ Thanoy

Thanoy คือผู้ช่วยที่ใช้พลังของ AI ที่พัฒนาขึ้นเพื่อเพิ่มการเข้าถึงข้อมูลและคำแนะนำทางกฎหมายของไทย มันใช้ OpenThaiGPT ในการวิเคราะห์และตอบคำถามของผู้ใช้ เสนอมุมมองเชิงลึกเกี่ยวกับกฎหมายและข้อบังคับของไทย คุณสมบัติที่สำคัญรวมถึงการใช้งานผ่านทางอินเทอร์เฟซแชทบอท LINE ทำให้ผู้ใช้สามารถเข้าถึงคำแนะนำทางกฎหมายได้ตลอดเวลา Thanoy ออกแบบมาเพื่อให้แน่ใจว่าคำตอบนั้นอิงจากความเข้าใจอย่างครอบคลุมเกี่ยวกับภูมิทัศน์ทางกฎหมายของประเทศไทย ทำให้เป็นเครื่องมือที่มีค่าสำหรับทั้งผู้เชี่ยวชาญและผู้ที่ไม่ใช่ผู้เชี่ยวชาญ

2. วิธีการประเมิน

2.1 ทีมประเมินและวิธีการ

การประเมินอย่างครอบคลุมนี้ดำเนินการโดยทีม LLM ของ iApp นำโดย @Por โดยใช้วิธีการประเมินอัตโนมัติเพื่อให้แน่ใจว่ามีความเป็นกลางและสามารถปรับขนาดได้

2.2 การตั้งค่าทางเทคนิค

  • แบบจำลองการประเมิน: OpenAI GPT-4o API
  • การตั้งค่าอุณหภูมิ: 0 (เพื่อความสอดคล้องและความถูกต้องสูงสุด)
  • ขนาดตัวอย่าง: 1,000 ตัวอย่างจากชุดแรก
  • แหล่งข้อมูล: บันทึกการแชทมากกว่า 100,000 รายการในรูปแบบ JSON-Lines
  • ชุดข้อมูลในอนาคต: ชุดข้อมูลต่อไปจะสุ่มตัวอย่างเพิ่มเติม 1,000 ตัวอย่าง

2.3 เกณฑ์การประเมิน

การประเมินประเมินองค์ประกอบหลักสามอย่างสำหรับการโต้ตอบแต่ละครั้ง:

  1. คำถาม: คำถามทางกฎหมายของผู้ใช้
  2. บริบท: เอกสารและข้อบังคับทางกฎหมายที่ดึงมา
  3. คำตอบ: คำแนะนำทางกฎหมายที่สร้างโดย AI ของ Thanoy

สำหรับแต่ละตัวอย่าง GPT-4o ประเมิน:

  • ความเกี่ยวข้อง: คำตอบของ Thanoy เกี่ยวข้องกับคำถามของผู้ใช้และบริบทที่ดึงมาหรือไม่
  • คะแนนคุณภาพ: การให้คะแนนจาก 0-10 สำหรับคุณภาพของคำตอบโดยรวม

3. ผลการทดลองโดยละเอียด

3.1 ตัวชี้วัดประสิทธิภาพโดยรวม

  • จำนวนตัวอย่างทั้งหมดที่ประเมิน: 1,000
  • คะแนนความเกี่ยวข้องเฉลี่ย: 4.325/10
  • ส่วนเบี่ยงเบนมาตรฐาน: 3.29
  • เอกสารอ้างอิง: Internal LarkSuite Wiki

3.2 การกระจายความเกี่ยวข้อง

หมวดหมู่จำนวนเปอร์เซ็นต์
ไม่เกี่ยวข้อง659 คำขอ65.9%
เกี่ยวข้อง341 คำขอ34.1%

3.3 การกระจายคะแนนสูงสุด

คะแนนจำนวนเปอร์เซ็นต์
2 คะแนน248 คำขอ24.8%
3 คะแนน244 คำขอ24.4%
8 คะแนน165 คำขอ16.5%

4. การวิเคราะห์เชิงลึกและข้อค้นพบที่สำคัญ

4.1 การจัดตำแหน่งคำตอบ-คำถาม

ข้อค้นพบ: คำตอบส่วนใหญ่ของ Thanoy แสดงให้เห็นถึงการจัดตำแหน่งที่แข็งแกร่งกับคำถามของผู้ใช้ บ่งชี้ถึงความสามารถในการทำความเข้าใจภาษาธรรมชาติและการใช้เหตุผลทางกฎหมายที่มีประสิทธิภาพ

4.2 ความท้าทายในการดึงข้อมูลบริบท

ปัญหาสำคัญที่ระบุ: ข้อจำกัดด้านประสิทธิภาพหลักอยู่ที่ระบบ Retrieval-Augmented Generation (RAG):

  • ความไม่ตรงกันของบริบทบ่อยครั้ง: ระบบ RAG มักดึงเอกสารทางกฎหมายที่ไม่เกี่ยวข้อง
  • ผลกระทบต่อคะแนน: บริบทที่ไม่เกี่ยวข้องลดคะแนนการประเมินลงอย่างมากแม้ว่าคำตอบจะถูกต้อง

4.3 การวิเคราะห์การพึ่งพาบริบท

สถานการณ์ที่ 1 - บริบทที่ไม่จำเป็นพร้อมการดึงข้อมูล:

  • คำถามบางคำไม่ต้องการบริบทเอกสารทางกฎหมายสำหรับคำตอบที่ถูกต้อง
  • เมื่อมีการให้บริบทที่ไม่เกี่ยวข้อง คะแนนจะลดลงแม้ว่าคำตอบจะถูกต้อง

สถานการณ์ที่ 2 - บริบทที่ไม่จำเป็นโดยไม่มีการดึงข้อมูล:

  • คำถามที่ไม่ต้องการบริบทและไม่ได้รับบริบทมักได้คะแนนต่ำกว่า
  • สิ่งนี้เกิดขึ้นแม้ว่าคำตอบจะตอบคำถามของผู้ใช้ได้อย่างถูกต้อง

4.4 ความสามารถของแบบจำลองพื้นฐาน

ข้อค้นพบเชิงบวก: OpenThaiGPT แสดงให้เห็นถึงความรู้ด้านกฎหมายพื้นฐานที่แข็งแกร่ง:

  • สามารถให้คำแนะนำทางกฎหมายที่ถูกต้องแม้ว่าการดึงข้อมูลบริบทจะไม่ถูกต้อง
  • แสดงให้เห็นถึงความเข้าใจหลักการและแนวคิดทางกฎหมายของไทยที่แข็งแกร่ง
  • รักษาคุณภาพของคำตอบแม้ว่าระบบ RAG จะมีข้อจำกัด

5. ข้อเสนอแนะทางเทคนิคและการปรับปรุงในอนาคต

5.1 การเพิ่มประสิทธิภาพระบบ RAG เป็นลำดับความสำคัญ

ต้องดำเนินการทันที: ระบบ RAG ในปัจจุบันจำเป็นต้องมีการพัฒนาใหม่ทั้งหมด:

  • ความท้าทายในปัจจุบัน: การดึงเอกสารทางกฎหมายที่ไม่เกี่ยวข้องบ่อยครั้ง
  • วิธีแก้ปัญหาที่เสนอ: การนำเทคโนโลยี GraphRAG มาใช้
  • สถานะของทีม: การวิจัยและตรวจสอบวิธีการของ GraphRAG อย่างแข็งขัน

5.2 การปรับปรุงวิธีการประเมิน

กลยุทธ์ชุดข้อมูลในอนาคต:

  • ดำเนินการต่อด้วยชุดข้อมูลขนาด 1,000 ตัวอย่างโดยใช้การสุ่มตัวอย่างแบบสุ่ม
  • นำการทดสอบ A/B มาใช้กับระบบ RAG ที่ได้รับการปรับปรุง
  • พัฒนาตัวชี้วัดการประเมินที่ละเอียดมากขึ้นสำหรับความถูกต้องทางกฎหมาย

5. อนาคตของ Thanoy และ AI ในบริการทางกฎหมาย

Thanoy ไม่ใช่แค่เครื่องมือสำหรับคำแนะนำทางกฎหมายในทันที แต่ยังเป็นรากฐานสำหรับความก้าวหน้าในอนาคตของบริการทางกฎหมายที่ขับเคลื่อนด้วย AI เมื่อเทคโนโลยี AI พัฒนาขึ้น ความสามารถของผู้ช่วยเช่น Thanoy คาดว่าจะดีขึ้น โดยเฉพาะอย่างยิ่งในแง่ของการทำความเข้าใจภาษาทางกฎหมายที่ซับซ้อนและการให้ข้อมูลเชิงลึกที่แม่นยำยิ่งขึ้น ข้อเสนอแนะและประสิทธิภาพจากการประเมินนี้มีความสำคัญในการผลักดันการปรับปรุงในอนาคตและทำให้ Thanoy สามารถตอบสนองความต้องการที่เพิ่มขึ้นสำหรับการช่วยเหลือทางกฎหมายที่สามารถเข้าถึงได้ในประเทศไทย

6. บทสรุปและการประเมินผลกระทบ

การประเมินอย่างครอบคลุมของ 1,000 ตัวอย่างนี้เผยให้เห็นข้อมูลเชิงลึกที่สำคัญเกี่ยวกับประสิทธิภาพของ Thanoy ในฐานะผู้ช่วยด้านกฎหมาย AI ภาษาไทย:

6.1 จุดแข็งที่สำคัญ

  • ความเข้าใจภาษาที่แข็งแกร่ง: OpenThaiGPT แสดงให้เห็นถึงความเข้าใจคำถามทางกฎหมายภาษาไทยที่แข็งแกร่ง
  • ความรู้ด้านกฎหมายพื้นฐาน: สามารถให้คำแนะนำที่ถูกต้องแม้ว่าการดึงข้อมูลบริบทจะไม่ดีที่สุด
  • ความสอดคล้องของคำตอบ: รักษาคุณภาพในหัวข้อทางกฎหมายและประเภทคำถามที่หลากหลาย

6.2 พื้นที่สำคัญที่ต้องปรับปรุง

  • การปรับปรุงระบบ RAG: เน้นการปรับปรุงความถูกต้องของการดึงข้อมูลบริบท (อัตราความไม่เกี่ยวข้อง 65.9%)
  • การนำ GraphRAG มาใช้: การวิจัยอย่างแข็งขันต่อเทคโนโลยีการดึงข้อมูลรุ่นต่อไป
  • การปรับปรุงการประเมิน: ตัวชี้วัดที่ได้รับการปรับปรุงสำหรับการประเมินความถูกต้องเฉพาะทางกฎหมาย

6.3 ความสำคัญเชิงกลยุทธ์

การประเมินนี้ ดำเนินการโดยทีม LLM ของ iApp ให้ข้อมูลที่สำคัญสำหรับวิวัฒนาการของ Thanoy ในฐานะผู้ช่วยด้านกฎหมาย AI ภาษาไทยชั้นนำ ข้อค้นพบแสดงให้เห็นทั้งศักยภาพและข้อจำกัดในปัจจุบัน สร้างแผนที่เส้นทางที่ชัดเจนสำหรับการบรรลุมาตรฐานประสิทธิภาพที่สูงขึ้นในบริการทางกฎหมายที่ขับเคลื่อนด้วย AI

อ้างอิง: วิธีการประเมินที่สมบูรณ์และผลลัพธ์โดยละเอียดมีการบันทึกไว้ใน วิกิการวิจัยภายในของ iApp สำหรับการปรับปรุงทางเทคนิคอย่างต่อเนื่อง