李沐,李沐团队开源语音大模型：Higgs Audio V2！

2025-11-11 发布在财讯

　　消失许久的AI大神李沐带着新作重返B站！

　　这一次，他亲自演示团队研发的 Higgs Audio V2 语音大模型，不仅支持文本理解，还能生成逼真语音，甚至实现多语言对话、语音与背景音乐同步生成等“黑科技”。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　李沐在B站视频中展示的三人对话案例——暴躁的怪物、喋喋不休的驴子和冷静的公主——每个角色声音都带着独特的情感纹理。

　　功能特点：

　　多说话人对话生成能力：它能模拟多人互动场景，自动匹配说话者的情绪和能量水平，使生成的对话如真人交流般自然流畅。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　自动韵律调整：在长文本朗读中，模型能根据内容自动调整语速、停顿和语调，无需人工干预，让旁白更具生命力。这种能力在生成有声读物时尤其重要，使听众获得更自然的听觉体验。

　　语音克隆与歌声合成功能：用户只需提供简短语音样本，即可实现零样本语音克隆，复制特定人物的声音特征。

　　克隆的声音哼唱旋律：甚至同步生成背景音乐，实现“写一首歌并唱出来”的创作流程。

　　实时语音交互能力：模型支持低延迟响应，能理解用户情绪并做出情感化表达，超越了机械式问答的局限。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　这种能力为虚拟主播、实时语音助手等场景提供了接近人类的交互体验。

　　技术创新：

　　技术细节Higgs Audio v2其强劲的表现是由三项关键技术创新推动的：

　　1. 开发了一个自动化标注系统，该系统利用了多个ASR模型、声音事件分类模型和内部音频理解模型。使用这个系统清洗并标注了1000 万小时的音频数据。音频理解模型是在Higgs Audio v1 Understanding 之上进行微调的。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　2. 从头开始训练了一个统一的Higgs Audio Tokenizer，可以捕获语义和声学特征。

　　3. 提出了DualFFN 架构，它增强了LLM以最小的计算开销对音频进行建模的能力。

　　性能表现：

　　在权威评测中，Higgs Audio V2 表现惊艳：

　　EmergentTTS-Eval基准：情绪表达胜率超GPT-4o-mini-tts 75.7%，问题处理胜率高55.7%；

　　Seed-TTS、ESD等传统测试：全面领先行业模型。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　评估了模型在MMAU上的音频推理能力。由于Higgs Audio V2 数据集中的音乐数据覆盖范围有限，它在音乐任务中落后于其他公司。尽管如此，通过利用基础 LLM 的思维链（COT）能力，其在音乐任务上的性能得到了显著增强。

　　李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　目前该项目技术代码已在GitHub开源，等待全球开发者共同探索语音AI的下一站未来。

　　GitHub：https://github.com/boson-ai/higgs-audio

　　#AI开源项目推荐##github##AI技术##ai语音模型##李沐团队开源#开源TTS模型

　　本文标题：李沐,李沐团队开源语音大模型：Higgs Audio V2！

　　本文链接：http://www.hniuzsjy.cn/caixun/11136.html

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。