ประเมินประสิทธิภาพของ Thanoy ผู้ช่วยด้านกฎหมาย AI ภาษาไทย
รายงานการประเมินต่อไปนี้ประเมิน Thanoy ผู้ช่วยด้านกฎหมาย AI ภาษาไทย ที่ขับเคลื่อนโดย OpenThaiGPT ซึ่งออกแบบมาเพื่อให้คำแนะนำทางกฎหมายที่ถูกต้องและเชื่อถือได้ในเอกสารทางกฎหมายและคำถามต่างๆ Thanoy ฝึกฝนจากบทความและกฎหมายของไทยมากกว่า 10,000 รายการ เสนอโซลูชันขั้นสูงสำหรับผู้เชี่ยวชาญด้านกฎหมายและผู้ใช้ทั่วไปที่ต้องการคำแนะนำทางกฎหมาย
1. บทนำเกี่ยวกับ Thanoy
Thanoy คือผู้ช่วยที่ใช้พลังของ AI ที่พัฒนาขึ้นเพื่อเพิ่มการเข้าถึงข้อมูลและคำแนะนำทางกฎหมายของไทย มันใช้ OpenThaiGPT ในการวิเคราะห์และตอบคำถามของผู้ใช้ เสนอมุ มมองเชิงลึกเกี่ยวกับกฎหมายและข้อบังคับของไทย คุณสมบัติที่สำคัญรวมถึงการใช้งานผ่านทางอินเทอร์เฟซแชทบอท LINE ทำให้ผู้ใช้สามารถเข้าถึงคำแนะนำทางกฎหมายได้ตลอดเวลา Thanoy ออกแบบมาเพื่อให้แน่ใจว่าคำตอบนั้นอิงจากความเข้าใจอย่างครอบคลุมเกี่ยวกับภูมิทัศน์ทางกฎหมายของประเทศไทย ทำให้เป็นเครื่องมือที่มีค่าสำหรับทั้งผู้เชี่ยวชาญและผู้ที่ไม่ใช่ผู้เชี่ยวชาญ
2. วิธีการประเมิน
2.1 ทีมประเมินและวิธีการ
การประเมินอย่างครอบคลุมนี้ดำเนินการโดยทีม LLM ของ iApp นำโดย @Por โดยใช้วิธีการประเมินอัตโนมัติเพื่อให้แน่ใจว่ามีความเป็นกลางและสามารถปรับขนาดได้
2.2 การตั้งค่าทางเทคนิค
- แบบจำลองการประเมิน: OpenAI GPT-4o API
- การตั้งค่าอุณหภูมิ: 0 (เพื่อความสอดคล้องและความถูกต้องสูงสุด)
- ขนาดตัวอย่าง: 1,000 ตัวอย่างจากชุดแรก
- แหล่งข้อมูล: บันทึกการแชทมากกว่า 100,000 รายการในรูปแบบ JSON-Lines
- ชุดข้อมูลในอนาคต: ชุดข้อมูลต่อไปจะสุ่มตัวอย่างเพิ่มเติม 1,000 ตัวอย่าง
2.3 เกณฑ์การประเมิน
การประเมินประเมินองค์ประกอบหลักสามอย่างสำหรับการโต้ตอ บแต่ละครั้ง:
- คำถาม: คำถามทางกฎหมายของผู้ใช้
- บริบท: เอกสารและข้อบังคับทางกฎหมายที่ดึงมา
- คำตอบ: คำแนะนำทางกฎหมายที่สร้างโดย AI ของ Thanoy
สำหรับแต่ละตัวอย่าง GPT-4o ประเมิน:
- ความเกี่ยวข้อง: คำตอบของ Thanoy เกี่ยวข้องกับคำถามของผู้ใช้และบริบทที่ดึงมาหรือไม่
- คะแนนคุณภาพ: การให้คะแนนจาก 0-10 สำหรับคุณภาพของคำตอบโดยรวม
3. ผลการทดลองโดยละเอียด
3.1 ตัวชี้วัดประสิทธิภาพโดยรวม
- จำ นวนตัวอย่างทั้งหมดที่ประเมิน: 1,000
- คะแนนความเกี่ยวข้องเฉลี่ย: 4.325/10
- ส่วนเบี่ยงเบนมาตรฐาน: 3.29
- เอกสารอ้างอิง: Internal LarkSuite Wiki
3.2 การกระจายความเกี่ยวข้อง
หมวดหมู่ | จำนวน | เปอร์เซ็นต์ |
---|---|---|
ไม่เกี่ยวข้อง | 659 คำขอ | 65.9% |
เกี่ยวข้อง | 341 คำขอ | 34.1% |
3.3 การกระจายคะแนนสูงสุด
คะแนน | จำนวน | เปอร์เซ็นต์ |
---|---|---|
2 คะแนน | 248 คำขอ | 24.8% |
3 คะแนน | 244 คำขอ | 24.4% |
8 คะแนน | 165 คำขอ | 16.5% |
4. การวิเคราะห์เชิงลึกและข้อค้นพบที่สำคัญ
4.1 การจัดตำแหน่งคำตอบ-คำถาม
ข้อค้นพบ: คำตอบส่วนใหญ่ของ Thanoy แสดงให้เห็นถึงการจัดตำแหน่งที่แข็งแกร่งกับคำถามของผู้ใช้ บ่งชี้ถึงความสามารถในการทำความเข้าใจภาษาธรรมชาติและการใช้เหตุผลทางกฎหมายที่มีประสิทธิภาพ
4.2 ความท้าทายในการดึงข้อมูลบริบท
ปัญหาสำคัญที่ระบุ: ข้อจำกัดด้านประสิทธิภาพหลักอยู่ที่ระบบ Retrieval-Augmented Generation (RAG):
- ความไม่ตรงกันของบริบทบ่อยครั้ง: ระบบ RAG มักดึงเอกสารทางกฎหมายที่ไม่เกี่ยวข้อง
- ผลกระทบต่อคะแนน: บริบทที่ไม่เกี่ยวข้องลดคะแนนการประเมินลงอย่างมากแม้ว่าคำตอบจะถูกต้อง
4.3 การวิเคราะห์การพึ่งพาบริบท
สถานการณ์ที่ 1 - บริบทที่ไม่จำเป็นพร้อมการดึงข้อมูล:
- คำถามบางคำไม่ต้องการบริบทเอกสารทางกฎหมายสำหรับคำตอบที่ถูกต้อง
- เมื่อมีการให้บริบทที่ไม่เกี่ยวข้อง คะแนนจะลดลงแม้ว่าคำตอบจะถูกต้อง
สถานการณ์ที่ 2 - บริบทที่ไม่จำเป็นโดยไม่มีการดึงข้อมูล:
- คำถามที่ไม่ต้องการบริบทและไม่ได้รับบริบทมักได้คะแนนต่ำกว่า
- สิ่งนี้เกิดขึ้นแม้ว่าคำตอบจะตอบคำถามของผู้ใช้ได้อย่างถูกต้อง
4.4 ความสามารถของแบบจำลองพื้นฐาน
ข้อค้นพบเชิงบวก: OpenThaiGPT แสดงให้เห็นถึงความรู้ด้านกฎหมายพื้นฐานที่แข็งแกร่ง:
- สามารถให้คำแนะนำทางกฎหมายที่ถูกต้องแม้ว่าการดึงข้อมูลบริบทจะไม่ถูกต้ อง
- แสดงให้เห็นถึงความเข้าใจหลักการและแนวคิดทางกฎหมายของไทยที่แข็งแกร่ง
- รักษาคุณภาพของคำตอบแม้ว่าระบบ RAG จะมีข้อจำกัด
5. ข้อเสนอแนะทางเทคนิคและการปรับปรุงในอนาคต
5.1 การเพิ่มประสิทธิภาพระบบ RAG เป็นลำดับความสำคัญ
ต้องดำเนินการทันที: ระบบ RAG ในปัจจ ุบันจำเป็นต้องมีการพัฒนาใหม่ทั้งหมด:
- ความท้าทายในปัจจุบัน: การดึงเอกสารทางกฎหมายที่ไม่เกี่ยวข้องบ่อยครั้ง
- วิธีแก้ปัญหาที่เสนอ: การนำเทคโนโลยี GraphRAG มาใช้
- สถานะของทีม: การวิจัยและตรวจสอบวิธีการของ GraphRAG อย่างแข็งขัน
5.2 การปรับปรุงวิธีการประเมิน
กลยุทธ์ชุดข้อมูลในอนาคต:
- ดำเนินการต่อด้วยชุดข้อมูลขนาด 1,000 ตัวอย่างโดยใช้การสุ่มตัวอย่างแบบสุ่ม
- นำการทดสอบ A/B มาใช้กับระบบ RAG ที่ได้รับการปรับปรุง
- พัฒนาตัวชี้วัดการประเมินที่ละเอียดมากขึ้นสำหรับความถูกต้องทางกฎหมาย
5. อนาคตของ Thanoy และ AI ในบริการทางกฎหมาย
Thanoy ไม่ใช่แค่เครื่องมือสำหรับคำแนะนำทางกฎหมายในทันที แต่ยังเป็นรากฐานสำหรับความก้าวหน้าในอนาคตของบริการทางกฎหมายที่ขับเคลื่อนด้วย AI เมื่อเทคโนโลยี AI พัฒนาขึ้น ความสามารถของผู้ช่วยเช่น Thanoy คาดว่าจะดีขึ้น โดยเฉพาะอย่างยิ่งในแง่ของการทำความเข้าใจภาษาทางกฎหมายที่ซับซ้อนและการให้ข้อมูลเชิงลึกที่แม่นยำยิ่งขึ้น ข้อเสนอแนะและประสิทธิภาพจากการประเมินนี้มีความสำคัญในการผลักดันการปรับปรุงในอนาคตและทำให้ Thanoy สามารถตอบสนองความต้องการที่เพิ่มขึ้นสำหรับการช่วยเหลือทางกฎหมายที่สามารถเข้าถึงได้ในประเทศไทย