AI 口播视频生成

按音频时长计费：480p 为 100 积分/秒，720p 为 200 积分/秒。

概述

AI 口播视频生成工具将一张静止的角色图片和一段语音音频合成为口型同步的说话视频。输入一张 JPG 或 PNG 人物图片和一段音频（MP3、WAV、M4A、AAC），选择 480p 或 720p 分辨率，AI 会将音频的音素节奏映射到图片中人物的嘴唇和面部表情上，输出 MP4 格式的说话视频，音频最长支持 60 秒。

输入

语音音频

输出

结果视频

角色图片怎么选效果最好

图片中人物的面部在画面中占比越大、越正面，嘴唇和下颌的动作映射越准确。以下图片通常效果更稳定：

正脸或轻微侧脸（不超过 30°）的单人肖像
人脸占画面宽度的 40% 以上
光线均匀，嘴唇轮廓清晰可见
嘴唇没有被遮挡（不戴口罩、手不遮住嘴部）

极侧脸、人物过小（人群合影里的一个小人）或嘴部被遮挡的图片，生成的口型动作质量会明显下降。

480p 和 720p 有什么实际差别

积分消耗较少
处理速度相对更快
适合快速预览、测试效果、社交媒体草稿

积分消耗更多
面部细节更清晰
适合正式发布、广告内容、教程视频

先用 480p 确认效果满意，再切换 720p 出最终版本，可以节省试错成本。积分按音频秒数×分辨率系数计算，具体费率可在生成前查看。

音频对口型效果的影响

工具通过分析音频中的音素节奏驱动口型，背景噪声和背景音乐会干扰音素识别，导致口型与讲话内容不匹配。建议：

使用纯人声录音，尽量减少背景噪声
有背景音乐的音频，可先用人声分离工具处理后再上传
语速适中、吐字清晰的录音效果最好

适合与不适合的使用场景

该工具基于单张静态图片生成，不支持头部大幅移动、复杂肢体动作或场景切换。适合短时长口播类内容（产品介绍、角色讲解、品牌代言人）；不适合需要肢体配合、多镜头或长剧情叙事的视频。