媒体生成概览

Elftia 集成了多种 AI 媒体生成能力，覆盖图片、视频、音乐创作以及语音识别（ASR）和语音合成（TTS），让你在聊天和创作流程中直接使用 AI 生成多媒体内容。

使用场景

在聊天中使用 AI 生成配图、概念设计或艺术作品
根据文本描述生成短视频
通过文本提示和可选歌词创作 AI 音乐
将语音消息自动转录为文字
将 AI 回复或自定义文本转换为语音播放

支持的媒体类型

媒体类型	说明	支持的提供商
图片生成	根据文本提示生成图片	Gemini、OpenAI (DALL-E)、Vertex AI、自定义提供商
视频生成	根据文本或图片生成视频	Kling AI、OpenAI (Sora)、Replicate、VolcEngine、Wan
音乐生成	根据文本提示创作音乐	ACEMusic
语音识别 (ASR)	将音频文件转录为文字	OpenAI Whisper、ElevenLabs Scribe、Fish Audio
语音合成 (TTS)	将文字转换为语音	ElevenLabs、Fish Audio

通用工作流程

所有媒体生成功能遵循相似的工作流程：

配置提供商 → 选择模型 → 输入参数 → 生成 → 查看/保存结果

第一步：配置提供商

打开 设置 > 媒体提供商
找到你要使用的媒体类型对应的提供商
输入 API Key 和必要的配置
启用该提供商

第二步：生成内容

根据不同的媒体类型，在对应的界面中输入参数并生成内容。具体操作请参阅各媒体类型的详细文档。

第三步：查看和保存

生成的媒体内容可以直接预览，并保存到本地文件系统。

全局设置

所有媒体生成功能共享以下全局设置：

设置项	说明	默认值
并发数	同时进行的生成任务数量上限	3
重试次数	生成失败时的自动重试次数	2

提供商管理

内置提供商

Elftia 预置了主流的媒体生成提供商定义，你只需填入 API Key 即可使用。

自定义提供商

对于不在预置列表中的提供商，你可以手动添加自定义提供商：

在媒体提供商设置中点击 添加自定义提供商
填写提供商名称、API 端点和认证信息
配置模型列表和默认参数
保存并启用

详细文档

图片生成 — 使用 AI 生成图片的完整指南
视频生成 — 使用 AI 生成视频的操作说明
音乐生成 — 使用 AI 创作音乐的参数配置
语音服务 — 语音识别和语音合成功能

常见问题

问题	解决方案
提供商显示未配置	检查是否已填入正确的 API Key
生成请求超时	部分生成任务（尤其是视频）需要较长时间，请耐心等待
生成结果质量不佳	尝试优化提示词描述，增加细节和风格说明
API 配额用尽	检查提供商的用量配额，考虑升级套餐或切换提供商

使用场景​

支持的媒体类型​

通用工作流程​

第一步：配置提供商​

第二步：生成内容​

第三步：查看和保存​

全局设置​

提供商管理​

内置提供商​

自定义提供商​

详细文档​

常见问题​

相关链接​