请先登录后使用该工具
该工具可能会消耗积分,请先登录后继续使用。

文字转语音

概述
Generated by AI

文字转语音工具将输入的文本合成为自然语音音频,支持美式英语、英式英语、日语、中文、西班牙语、法语、印地语、意大利语、巴西葡萄牙语共 9 种语言,每种语言提供多个音色可选。生成的音频可在线播放或下载,英语支持词语级别的时间戳高亮。

文本长度上限与积分消耗

单次合成最多 10,000 个字符。中文字符每个算 1 个字符,英文单词的每个字母也各算 1 个字符。积分按每 1,000 字符计费,10,000 字符约等于中文 5,000 汉字或英文约 1,800 个单词,接近一篇中等篇幅的博客文章。

音频格式的选择

MP3 / AAC / OGG

  • 文件体积小,适合分享和嵌入网页
  • MP3 兼容性最广,几乎所有设备支持
  • AAC 在同等码率下音质略优于 MP3
  • OGG 开源格式,部分旧设备不支持

WAV / FLAC / PCM

  • 无损或未压缩,文件体积大
  • 适合后期音频剪辑处理(需原始音质)
  • WAV 兼容性好,FLAC 体积比 WAV 小约 50%
  • PCM 为原始采样数据,多数播放器不能直接播放

语速调节范围

语速范围为 0.5 倍(约半速,语速非常慢)到 4.0 倍(约四倍速,极快)。1.0 为正常语速,1.3–1.5 倍通常是朗读音频的舒适上限,超过 2.0 倍速时发音清晰度会明显下降。

词语时间戳功能

开启词语时间戳后(仅限英语),生成语音的同时会返回每个单词的起止时间,播放时文本中对应单词会被高亮。适合制作跟读字幕、语言学习同步显示,或将生成语音嵌入需要文字同步的页面。仅英语支持此功能,其他语言选项为灰色不可选。

试听音色再生成

每个音色旁边有预览按钮,点击后会播放该音色的示例音频(约 3 秒),帮助在合成前判断音色风格是否合适。中文音色男女各有差异,建议通过预览选定后再输入完整文本生成,避免生成后发现音色不符合要求再重复消耗积分。