李沐,李沐团队开源语音大模型:Higgs Audio V2!
消失许久的AI大神李沐带着新作重返B站!

这一次,他亲自演示团队研发的 Higgs Audio V2 语音大模型,不仅支持文本理解,还能生成逼真语音,甚至实现多语言对话、语音与背景音乐同步生成等“黑科技”。

李沐在B站视频中展示的三人对话案例——暴躁的怪物、喋喋不休的驴子和冷静的公主——每个角色声音都带着独特的情感纹理。
功能特点:
多说话人对话生成能力:它能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使生成的对话如真人交流般自然流畅。

自动韵律调整:在长文本朗读中,模型能根据内容自动调整语速、停顿和语调,无需人工干预,让旁白更具生命力。这种能力在生成有声读物时尤其重要,使听众获得更自然的听觉体验。
语音克隆与歌声合成功能:用户只需提供简短语音样本,即可实现零样本语音克隆,复制特定人物的声音特征。
克隆的声音哼唱旋律:甚至同步生成背景音乐,实现“写一首歌并唱出来”的创作流程。
实时语音交互能力:模型支持低延迟响应,能理解用户情绪并做出情感化表达,超越了机械式问答的局限。

这种能力为虚拟主播、实时语音助手等场景提供了接近人类的交互体验。
技术创新:
技术细节Higgs Audio v2其强劲的表现是由三项关键技术创新推动的:
1. 开发了一个自动化标注系统,该系统利用了多个ASR模型、声音事件分类模型和内部音频理解模型。使用这个系统清洗并标注了1000 万小时的音频数据。音频理解模型是在Higgs Audio v1 Understanding 之上进行微调的。

2. 从头开始训练了一个统一的Higgs Audio Tokenizer,可以捕获语义和声学特征。
3. 提出了DualFFN 架构,它增强了LLM以最小的计算开销对音频进行建模的能力。
性能表现:
在权威评测中,Higgs Audio V2 表现惊艳:
EmergentTTS-Eval基准:情绪表达胜率超GPT-4o-mini-tts 75.7%,问题处理胜率高55.7%;
Seed-TTS、ESD等传统测试:全面领先行业模型。

评估了模型在MMAU上的音频推理能力。由于Higgs Audio V2 数据集中的音乐数据覆盖范围有限,它在音乐任务中落后于其他公司。尽管如此,通过利用基础 LLM 的思维链 (COT) 能力,其在音乐任务上的性能得到了显著增强。

目前该项目技术代码已在GitHub开源,等待全球开发者共同探索语音AI的下一站未来。
GitHub:https://github.com/boson-ai/higgs-audio
#AI开源项目推荐##github##AI技术##ai语音模型##李沐团队开源#开源TTS模型
本文标题:李沐,李沐团队开源语音大模型:Higgs Audio V2!
本文链接:http://www.hniuzsjy.cn/caixun/11136.html
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
