InspireMusic是由阿里巴巴通义实验室开源的音乐生成技术,旨在打造一个集音乐生成、歌曲生成和音频生成能力为一体的开源 AIGC 工具包。它基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的高质量音乐作品。
GitHub 仓库:https://github.com/FunAudioLLM/InspireMusic
ModelScope:https://modelscope.cn/studios/iic/InspireMusic/summary
HuggingFace:https://huggingface.co/spaces/FunAudioLLM/InspireMusic
InspireMusic 的核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder。它通过具有高压缩比的单码本 WavTokenizer 将输入的连续音频特征转换成离散音频 token,然后利用基于 Qwen 模型初始化的自回归 Transformer 模型预测音频 token,再由 CFM 扩散模型重建音频的潜层特征,最终通过 Vocoder 输出高质量的音频波形。
本网站提供的「InspireMusic」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-06-07]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!
虚拟人像(1) 智能体模型(6) ai视频精修(6) ai对话工具(39) ai聊天(38) CogAgent(1) 文本转语音(12) 语音合成(3) 人工智能模型(3) 声音克隆(7) ai翻译工具(14) AI视频创作(37) 大语言模型(5) ai编程(27) 智能编码(4) 大模型(13) ai创作(11) ai搜索(10) 文档生成(1) 视频模型(3) ai语音生成(7) ai开发工具(4) ai论文助手(9) ai视频剪辑(12) AI编程助手(20) ai文生视频(22) AI添加字幕(1) 自然语言处理(9) ai写作(24) 智能编程助手(6)