🇨🇳 中文语音转文本 (ASR) 基础版
1 IC每60秒
试用演示
入门指南
先决条件
- 来自艾艾普科技的 API 密钥
- 支持格式的音频文件
- 最长文件时长:不超过 10 小时
主要特点
- 从音频文件中提取文本
- 支持说话人分离,适用于多说话人对话
- 支持多种音频格式
- 带有时间戳的高质量转录
安全与合规
- API 密钥认证
- 符合 GDPR 和 PDPA 标准
API 端点
| 端点 | 方法 | 描述 | 费用 |
|---|---|---|---|
/v3/store/speech/speech-to-text/base/zh旧版: /asr/v3/zh | POST | 将中文语音转换为文本(基础模型) | 1 IC/60 秒 |
API 用法
支持的文件格式
API 支持以下音频和视频文件格式:
- 音频:
.mp3,.wav,.m4a,.aac,.aif,.cda,.flac,.mid,.ogg,.wma
端点: POST /v3/store/speech/speech-to-text/base/zh
请求头:
Content-Type: multipart/form-dataapikey: 您的 API 密钥用于认证
表单参数:
| 参数 | 类型 | 是否必填 | 默认值 | 描述 |
|---|---|---|---|---|
file | 文件 | 是 | - | 要转录的音频文件 |
prompt | 字符串 | 否 | "base" | 要使用的提示模板 |
chunk_size | 整数 | 否 | 20 | 处理音频分块的秒数 |
请求示例:
curl -X POST "https://api.iapp.co.th/v3/store/speech/speech-to-text/base/zh" \
-H "Content-Type: multipart/form-data" \
-H "apikey: YOUR_API_KEY" \
-F "file=@/path/to/your/audio.mp3" \
-F "prompt=base" \
-F "chunk_size=20"
响应示例:
{
"output": [
{
"text": "来自片段一的转录文本。",
"start": 0.0,
"end": 5.28,
"speaker": "SPEAKER_00",
"segment": 0
},
{
"text": "来自片段二的转录文本。",
"start": 5.28,
"end": 10.56,
"speaker": "SPEAKER_01",
"segment": 1
}
],
"audio_duration_in_seconds": 60.5,
"uploaded_file_name": "example.mp3",
"processing_time_in_seconds": 12.34,
"use_asr_pro": false,
"asr_pro_is_used": false,
"iapp": {
"seconds": 60.5
}
}
响应状态码
200 OK: 请求成功400 Bad Request: 请求无效(例如,未上传文件、不支持的文件格式)404 Not Found: 任务 ID 未找到500 Internal Server Error: 处理失败,服务器错误
注意事项
- 支持说话人分离,每个片段包含说话人 ID 和时间戳信息。
代码示例
Curl
curl -X POST https://api.iapp.co.th/v3/store/speech/speech-to-text/base/zh \
-H "apikey: YOUR_API_KEY" \
-F "file=@/path/to/audio.mp3"