Skip to main content

媒体生成概览

Elftia 集成了多种 AI 媒体生成能力,覆盖图片、视频、音乐创作以及语音识别(ASR)和语音合成(TTS),让你在聊天和创作流程中直接使用 AI 生成多媒体内容。

使用场景

  • 在聊天中使用 AI 生成配图、概念设计或艺术作品
  • 根据文本描述生成短视频
  • 通过文本提示和可选歌词创作 AI 音乐
  • 将语音消息自动转录为文字
  • 将 AI 回复或自定义文本转换为语音播放

支持的媒体类型

媒体类型说明支持的提供商
图片生成根据文本提示生成图片Gemini、OpenAI (DALL-E)、Vertex AI、自定义提供商
视频生成根据文本或图片生成视频Kling AI、OpenAI (Sora)、Replicate、VolcEngine、Wan
音乐生成根据文本提示创作音乐ACEMusic
语音识别 (ASR)将音频文件转录为文字OpenAI Whisper、ElevenLabs Scribe、Fish Audio
语音合成 (TTS)将文字转换为语音ElevenLabs、Fish Audio

通用工作流程

所有媒体生成功能遵循相似的工作流程:

配置提供商 → 选择模型 → 输入参数 → 生成 → 查看/保存结果

第一步:配置提供商

  1. 打开 设置 > 媒体提供商
  2. 找到你要使用的媒体类型对应的提供商
  3. 输入 API Key 和必要的配置
  4. 启用该提供商

第二步:生成内容

根据不同的媒体类型,在对应的界面中输入参数并生成内容。具体操作请参阅各媒体类型的详细文档。

第三步:查看和保存

生成的媒体内容可以直接预览,并保存到本地文件系统。

全局设置

所有媒体生成功能共享以下全局设置:

设置项说明默认值
并发数同时进行的生成任务数量上限3
重试次数生成失败时的自动重试次数2

提供商管理

内置提供商

Elftia 预置了主流的媒体生成提供商定义,你只需填入 API Key 即可使用。

自定义提供商

对于不在预置列表中的提供商,你可以手动添加自定义提供商:

  1. 在媒体提供商设置中点击 添加自定义提供商
  2. 填写提供商名称、API 端点和认证信息
  3. 配置模型列表和默认参数
  4. 保存并启用

详细文档

常见问题

问题解决方案
提供商显示未配置检查是否已填入正确的 API Key
生成请求超时部分生成任务(尤其是视频)需要较长时间,请耐心等待
生成结果质量不佳尝试优化提示词描述,增加细节和风格说明
API 配额用尽检查提供商的用量配额,考虑升级套餐或切换提供商

相关链接

  • LLM 提供商配置 — LLM 文本模型的配置方式(与媒体提供商独立)
  • 聊天 — 在对话中使用媒体生成功能