排行榜/VoxCPM

VoxCPM

OpenBMB/VoxCPM

一个能生成多语言语音、自定义音色甚至克隆声音的免费开源工具,效果自然且支持实时流式输出。

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

Stars
14,382
Forks
1,719
Watchers
90
Issues
69
💡

一个能生成多语言语音、自定义音色甚至克隆声音的免费开源工具,效果自然且支持实时流式输出。

📂 AI 与自动化🤖 AI 相关💻 Python📄 Apache-2.0

AI 分析简介

🔍

这个项目是做什么的

简单来说,这是一个能把文字变成说话声音的工具,而且声音非常像真人。它不仅能读多国语,还能让你描述一个声音特征(比如“年轻男声、温柔”)直接生成新音色,或者上传一小段录音就能克隆那个人的声音。

🔧

它能帮你解决什么问题

解决了传统语音合成听起来像机器人、多语言切换麻烦、以及克隆声音需要复杂调参的问题。以前你可能需要买昂贵的商业 API 或者自己训练模型,现在开源方案就能达到录音室级别的效果。

👥

适合哪些人

适合做视频内容的创作者、需要批量配音的开发者、研究语音技术的极客,以及任何想要低成本拥有高质量 AI 语音的个人或团队。

📋

典型使用场景

1. 给 YouTube 或 B 站视频制作多语种配音,不用请人。

2. 开发游戏或 APP,为 NPC 角色生成独特的声音。

3. 制作有声书或播客,快速克隆特定主播的声线。

4. 个人备份声音,防止未来声音数据丢失。

核心优势与亮点

支持 30 种语言直接生成,不需要选语言标签;能根据文字描述创造全新音色;输出音质高达 48kHz,比很多商业软件更清晰;支持实时流式输出,延迟很低。

🚀

上手门槛

需要一定的技术基础,主要使用 Python 环境,最好有独立显卡(如 NVIDIA RTX)来运行模型,否则速度会很慢。如果是纯小白,建议先去看在线 Demo 体验。

🎯

用途

适合需要做高质量配音且能部署模型的人,不适合只想点按钮没技术基础的人。如果你需要批量生成语音且在意成本,这个项目值得尝试。

分类

AI 与自动化AI 相关

技术栈

PythonPyTorchDiffusion Model

标签

ttsVoice CloningMultilingualOpen SourceAI SpeechPythonPyTorch

项目信息

主语言
Python
默认分支
main
协议
Apache-2.0
创建时间
2025年9月16日
最近提交
昨天
最近推送
昨天
收录时间
2026年4月18日