🗣️ 泰语文本转语音 V3(Kaitom 声音)
⚠️ Alpha 版本说明: 此 API 目前处于 alpha 测试阶段。服务可能会出现间歇性可用性问题。生产环境请使用 TTS V2(稳定版)。
欢迎使用 泰语文本转语音 API V3,全新推出的 Kaitom 声音(น้องไข่ต้ม 第 3 版)。新一代版本通过先进的文本规范化、声音克隆支持以及自动泰英语言处理,显著提升了语音的自然度。
V3 新功能
- 智能文本规范化 - 自动处理数字、日期、货币和特殊字符
- 自动语言检测 - 无需指定语言模式,V3 自动处理泰英混合
- 延长字符限制 - 每次请求最多支持 10,000 字符
- 简化的 JSON API - 使用清晰的 JSON 请求体替代表单数据
- 高质量音频 - 24 kHz WAV 输出,适用于专业应用
试用演示 — 默认声音 (Kaitom)
V3 automatically handles Thai-English mixed text. No language mode selection needed.
Natural range: 0.8 – 1.2. Default 1.0.
试用演示 — 声音克隆(泰语)
⚠️ ALPHA上传 8–12 秒清晰的泰语语音片段,并提供其逐字对应的文本,模型将以该声音说出您的泰语文本。声音克隆目前仅支持泰语。
📋 How to use this demo
- Step 1: Record yourself (max 10 seconds) speaking any short Thai sentence — OR upload an existing Thai audio clip.
- Step 2: Type the exact Thai words you spoke into the "Reference Transcript" box. (Word-for-word — not a description.)
- Step 3: Type the new Thai text you want the cloned voice to say.
- Step 4: Click Generate Cloned Voice.
💡 Speak a natural Thai sentence such as: "สวัสดีครับ ผมชื่อไข่ต้ม วันนี้อากาศดีมาก". Recording will stop automatically at 10 seconds.
⚠️ This must match your recording word-for-word. Do not write a description like "เสียงผู้ชายพูดทักทาย" — write the actual sentence you spoke. The clone quality depends on this matching the audio exactly.
Natural range: 0.8 – 1.2. Default 1.0.
入门
-
先决条件
- 艾艾普科技 (iApp Technology) 的 API 密钥
- 泰语和/或英语文本输入
- 最大文本长度: 10,000 字符
- 支持的输出格式: WAV (24 kHz)
-
快速入门
- 快速处理,输出高质量
- 改进的自然语音生成
- 自动支持泰英混合文本
- 无需选择语言模式
-
核心功能
- 新一代语音合成引擎
- 智能文本规范化(数字、日期、货币)
- 自动泰英语言处理
- 支持表情符号和特殊字符
- 延长至 10,000 字符限制
-
安全与合规
- 符合 GDPR 和 PDPA 规范
- 处理后不保留任何数据
请访问 API 密钥管理 页面查看现有 API 密钥或申请新密钥。
API 端点
| 端点 | 方法 | Content-Type | 描述 | 价格 |
|---|---|---|---|---|
/v3/store/audio/tts | POST | application/json | 默认声音 (Kaitom) — 泰英混合文本 | 1 IC 每 400 字符 |
/v3/store/audio/tts/clone | POST | multipart/form-data | 声音克隆 — 用自定义声音合成泰语文本 | 1 IC 每 400 字符 |
/v3/store/audio/tts/detect | POST | multipart/form-data | AI 水印检测 — 验证音频片段是否由 V3 生成 | 免费 |
快速示例
默认声音 — 示例请求
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts' \
--header 'apikey: YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่ น 3", "speed": 1.0}' \
--output 'output.pcm'
声音克隆 — 示例请求
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียง' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'
AI 水印检测 — 示例请求
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/detect' \
--header 'apikey: YOUR_API_KEY' \
--form 'audio=@suspect.wav'
返回 JSON:
{ "is_ai_generated": true, "confidence": 1.0 }
示例响应
响应主体为 原始 16-bit 小端 PCM, 单声道, 24 kHz, 以 application/octet-stream 流式传输。请用 WAV 头部封装以播放或保存为 .wav:
ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav
API 参考
1. 默认声音端点 (Kaitom)
- 端点:
POSThttps://api.iapp.co.th/v3/store/audio/tts - Content-Type:
application/json - Headers:
apikey(必填)
请求体
| 字段 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
text | string | 是 | — | 每次请求最多约 1,000 个泰文字符。更长的文本将由服务器自动分块 |
speed | float | 否 | 1.0 | 自然区间 0.8–1.2。值越小越慢 |
{
"text": "สวัสดีครับ ยินดีต้อนรับสู่ iApp",
"speed": 1.0
}
2. 声音克隆端点 (仅限泰语)
- 端点:
POSThttps://api.iapp.co.th/v3/store/audio/tts/clone - Content-Type:
multipart/form-data - Headers:
apikey(必填)
表单字段
| 字段 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
text | string | 是 | — | 要合成的泰语文本 |
speed | float | 否 | 1.0 | 语速 |
ref_text | string | 是 | — | ref_audio 的逐字泰语文字稿(不是描述) |
ref_audio | file | 是 | — | WAV 或 MP3, 8–12 秒 干净的单声道泰语语音 |
约束:
- 参考片段必须 ≤ 15 秒。超过部分将被静默截断;若
ref_text描述了被截断的部分,输出会加速并失真。 ref_text必须与ref_audio中所说的内容逐字一致。- 声音克隆请求在服务器端串行处理。在并发负载下会出现排队延迟。
- 声音克隆目前仅支持泰语。
响应 (TTS + 克隆端点)
- Content-Type:
application/octet-stream - 主体: 原始 16-bit 小端 PCM, 单声道, 24 kHz, 以字节流方式传输
- 计算时长:
duration_seconds = byte_length / 48000 - 要保存为可播放文件, 请用 WAV 头部封装, 或使用
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
3. AI 水印检测端点
验证给定的音频片段是否由泰语 TTS V3 生成。默认声音和声音克隆端点产生的每一份输出都嵌入了不可听的 AudioSeal 水印;此端点将其读取出来。
- 端点:
POSThttps://api.iapp.co.th/v3/store/audio/tts/detect - Content-Type:
multipart/form-data - Headers:
apikey(必填)
表单字段
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
audio | file | 是 | WAV(任意采样率, 推荐单声道)或原始 PCM (.pcm, 视为 24 kHz 单声道 int16) |