消失许久的AI大神李沐带着新作重返B站!

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  这一次,他亲自演示团队研发的 Higgs Audio V2 语音大模型,不仅支持文本理解,还能生成逼真语音,甚至实现多语言对话、语音与背景音乐同步生成等“黑科技”。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  李沐在B站视频中展示的三人对话案例——暴躁的怪物、喋喋不休的驴子和冷静的公主——每个角色声音都带着独特的情感纹理。

  功能特点:

  多说话人对话生成能力:它能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使生成的对话如真人交流般自然流畅。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  自动韵律调整:在长文本朗读中,模型能根据内容自动调整语速、停顿和语调,无需人工干预,让旁白更具生命力。这种能力在生成有声读物时尤其重要,使听众获得更自然的听觉体验。

  语音克隆与歌声合成功能:用户只需提供简短语音样本,即可实现零样本语音克隆,复制特定人物的声音特征。

  克隆的声音哼唱旋律:甚至同步生成背景音乐,实现“写一首歌并唱出来”的创作流程。

  实时语音交互能力:模型支持低延迟响应,能理解用户情绪并做出情感化表达,超越了机械式问答的局限。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  这种能力为虚拟主播、实时语音助手等场景提供了接近人类的交互体验。

  技术创新:

  技术细节Higgs Audio v2其强劲的表现是由三项关键技术创新推动的:

  1. 开发了一个自动化标注系统,该系统利用了多个ASR模型、声音事件分类模型和内部音频理解模型。使用这个系统清洗并标注了1000 万小时的音频数据。音频理解模型是在Higgs Audio v1 Understanding 之上进行微调的。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  2. 从头开始训练了一个统一的Higgs Audio Tokenizer,可以捕获语义和声学特征。

  3. 提出了DualFFN 架构,它增强了LLM以最小的计算开销对音频进行建模的能力。

  性能表现:

  在权威评测中,Higgs Audio V2 表现惊艳:

  EmergentTTS-Eval基准:情绪表达胜率超GPT-4o-mini-tts 75.7%,问题处理胜率高55.7%;

  Seed-TTS、ESD等传统测试:全面领先行业模型。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  评估了模型在MMAU上的音频推理能力。由于Higgs Audio V2 数据集中的音乐数据覆盖范围有限,它在音乐任务中落后于其他公司。尽管如此,通过利用基础 LLM 的思维链 (COT) 能力,其在音乐任务上的性能得到了显著增强。

  李沐,李沐团队开源语音大模型:Higgs Audio V2!

  目前该项目技术代码已在GitHub开源,等待全球开发者共同探索语音AI的下一站未来。

  GitHub:https://github.com/boson-ai/higgs-audio

  #AI开源项目推荐##github##AI技术##ai语音模型##李沐团队开源#开源TTS模型

  本文标题:李沐,李沐团队开源语音大模型:Higgs Audio V2!

  本文链接:http://www.hniuzsjy.cn/caixun/11136.html