Elftia 集成了语音识别(ASR,Automatic Speech Recognition)和语音合成(TTS,Text-to-Speech)两类语音服务,让你在对话和内容创作中自由切换语音和文字形式。
使用场景
- 将语音消息或录音文件自动转录为文字
- 将 AI 的回复或自定义文本转换为语音播放
- 在不方便打字时使用语音输入
- 为生成的内容配音
语音识别(ASR)
语音识别功能将音频文件中的语音内容转录为文字。
支持的提供商
| 提供商 | 类型标识 | 说明 |
|---|
| OpenAI Whisper | openai-whisper | OpenAI 的 Whisper 语音识别 API,支持多语言 |
| ElevenLabs Scribe | elevenlabs-stt | ElevenLabs 的语音转文字服务 |
| Fish Audio | fishaudio-asr | Fish Audio 的语音识别服务 |
配置步骤
- 打开 设置 > 媒体提供商 > 语音识别
- 选择一个 ASR 提供商
- 输入 API Key
- 选择默认模型(如
whisper-1)
- 保存并启用
- (可选)将其设为默认提供商
配置参数
| 配置项 | 说明 | 是否必填 |
|---|
| API Key | 提供商的 API 密钥 | 是 |
| 默认模型 | 转录使用的模型 | 否(使用提供商默认值) |
| 默认提供商 | 是否设为默认 ASR 提供商 | 否 |
使用方法
- 选择或录制一段音频
- 系统自动将音频发送给配置的 ASR 提供商
- 转录结果以文字形式返回
自动格式转换
ASR 服务内置了自动格式转换能力。如果上传的音频文件格式不在 Whisper API 原生支持的范围内,系统会尝试使用 ffmpeg 自动转换为 WAV 格式后再进行转录。
原生支持的音频格式
| 格式 | 扩展名 |
|---|
| FLAC | .flac |
| M4A | .m4a |
| MP3 | .mp3 |
| MP4 | .mp4 |
| MPEG | .mpeg, .mpga |
| OGG | .oga, .ogg |
| WAV | .wav |
| WebM | .webm |
其他格式(如 .amr、.silk 等)会自动转换为 WAV 再处理。
:::info ffmpeg 依赖
自动格式转换功能需要系统安装 ffmpeg。如果未安装 ffmpeg,不支持的格式将直接发送给 API(API 可能拒绝处理)。
:::
转录参数
| 参数 | 说明 |
|---|
providerId | 指定使用的 ASR 提供商(可选,默认使用默认提供商) |
modelId | 指定使用的模型(可选) |
language | 指定音频语言(可选,自动检测) |
语音合成(TTS)
语音合成功能将文字内容转换为自然语音。
支持的提供商
| 提供商 | 类型标识 | 说明 |
|---|
| ElevenLabs | elevenlabs-tts | 高质量多语言语音合成,提供丰富的声音选择 |
| Fish Audio | fishaudio-tts | Fish Audio 的语音合成服务 |
配置步骤
- 打开 设置 > 媒体提供商 > 语音合成
- 选择一个 TTS 提供商
- 输入 API Key
- 选择默认模型
- 选择默认声音(Voice)
- 保存并启用
- (可选)将其设为默认提供商
配置参数
| 配置项 | 说明 | 是否必填 |
|---|
| API Key | 提供商的 API 密钥 | 是 |
| 默认模型 | 语音合成使用的模型 | 否 |
| 默认声音 | 默认使用的声音 ID | 否 |
| 默认提供商 | 是否设为默认 TTS 提供商 | 否 |
使用方法
- 选择要转换的文字内容
- 选择声音(Voice)
- 系统将文字发送给 TTS 提供商
- 生成的音频可以直接播放或保存
声音选择
每个 TTS 提供商都提供多种声音供选择。你可以:
- 在 TTS 设置中查看可用声音列表
- 预览不同声音的效果
- 选择一个声音设为默认
声音列表通过 API 动态获取,会随提供商更新而变化。
输出格式
| 格式 | 说明 |
|---|
mp3 | 通用音频格式(默认) |
wav | 无损音频格式 |
ogg | 开源压缩格式 |
opus | 高效压缩格式 |
pcm | 原始音频数据 |
合成参数
| 参数 | 说明 |
|---|
providerId | 指定使用的 TTS 提供商(可选) |
modelId | 指定使用的模型(可选) |
voiceId | 指定使用的声音(可选) |
outputFormat | 输出音频格式(可选,默认 mp3) |
outputDir | 保存目录(可选) |
常见问题
| 问题 | 解决方案 |
|---|
| ASR 转录为空 | 检查音频文件是否包含有效的语音内容,确认文件未损坏 |
| 不支持的音频格式 | 安装 ffmpeg 以启用自动格式转换功能 |
| TTS 生成的语音不自然 | 尝试切换不同的声音或模型,部分声音在特定语言下效果更好 |
| 声音列表为空 | 确认 API Key 有效且提供商服务正常 |
| 转录结果不准确 | 尝试指定正确的语言参数,或选择更适合的模型 |
| TTS 无声音输出 | 检查系统音量和音频输出设备,确认生成的文件非空 |
相关链接