媒体生成概览
Elftia 集成了多种 AI 媒体生成能力,覆盖图片、视频、音乐创作以及语音识别(ASR)和语音合成(TTS),让你在聊天和创作流程中直接使用 AI 生成多媒体内容。
使用场景
- 在聊天中使用 AI 生成配图、概念设计或艺术作品
- 根据文本描述生成短视频
- 通过文本提示和可选歌词创作 AI 音乐
- 将语音消息自动转录为文字
- 将 AI 回复或自定义文本转换为语音播放
支持的媒体类型
| 媒体类型 | 说明 | 支持的提供商 |
|---|---|---|
| 图片生成 | 根据文本提示生成图片 | Gemini、OpenAI (DALL-E)、Vertex AI、自定义提供商 |
| 视频生成 | 根据文本或图片生成视频 | Kling AI、OpenAI (Sora)、Replicate、VolcEngine、Wan |
| 音乐生成 | 根据文本提示创作音乐 | ACEMusic |
| 语音识别 (ASR) | 将音频文件转录为文字 | OpenAI Whisper、ElevenLabs Scribe、Fish Audio |
| 语音合成 (TTS) | 将文字转换为语音 | ElevenLabs、Fish Audio |
通用工作流程
所有媒体生成功能遵循相似的工作流程:
配置提供商 → 选择模型 → 输入参数 → 生成 → 查看/保存结果
第一步:配置提供商
- 打开 设置 > 媒体提供商
- 找到你要使用的媒体类型对应的提供商
- 输入 API Key 和必要的配置
- 启用该提供商
第二步:生成内容
根据不同的媒体类型,在对应的界面中输入参数并生成内容。具体操作请参阅各媒体类型的详细文档。
第三步:查看和保存
生成的媒体内容可以直接预览,并保存到本地文件系统。
全局设置
所有媒体生成功能共享以下全局设置:
| 设置项 | 说明 | 默认值 |
|---|---|---|
| 并发数 | 同时进行的生成任务数量上限 | 3 |
| 重试次数 | 生成失败时的自动重试次数 | 2 |
提供商管理
内置提供商
Elftia 预置了主流的媒体生成提供商定义,你只需填入 API Key 即可使用。
自定义提供商
对于不在预置列表中的提供商,你可以手动添加自定义提供商:
- 在媒体提供商设置中点击 添加自定义提供商
- 填写提供商名称、API 端点和认证信息
- 配置模型列表和默认参数
- 保存并启用
详细文档
常见问题
| 问题 | 解决方案 |
|---|---|
| 提供商显示未配置 | 检查是否已填入正确的 API Key |
| 生成请求超时 | 部分生成任务(尤其是视频)需要较长时间,请耐心等待 |
| 生成结果质量不佳 | 尝试优化提示词描述,增加细节和风格说明 |
| API 配额用尽 | 检查提供商的用量配额,考虑升级套餐或切换提供商 |