InspireMusic是由阿里巴巴通义实验室开源的音乐生成技术,旨在打造一个集音乐生成、歌曲生成和音频生成能力为一体的开源 AIGC 工具包。它基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的高质量音乐作品。
GitHub 仓库:https://github.com/FunAudioLLM/InspireMusic
ModelScope:https://modelscope.cn/studios/iic/InspireMusic/summary
HuggingFace:https://huggingface.co/spaces/FunAudioLLM/InspireMusic
InspireMusic 的核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder。它通过具有高压缩比的单码本 WavTokenizer 将输入的连续音频特征转换成离散音频 token,然后利用基于 Qwen 模型初始化的自回归 Transformer 模型预测音频 token,再由 CFM 扩散模型重建音频的潜层特征,最终通过 Vocoder 输出高质量的音频波形。
本网站提供的「InspireMusic」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-06-07]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!
声音克隆(11) 虚拟人像(1) ai机器人(5) ai创作(14) 文本转语音(25) 人工智能模型(3) ai对话工具(43) ai聊天(41) CogAgent(1) 智能体模型(8) 智能编码(5) 语音合成(8) ai视频精修(8) AI视频创作(50) ai编程(27) ai图片生成(96) 大模型(13) 开源AI(27) ai翻译工具(18) ai小说写作(2) ai浏览器(4) ai电商工具(19) 大语言模型(6) ChatGLM2(1) 多模态(18) ai语音生成(13) ai双语翻译(1) ai文生视频(31) ai写作(26) ai大模型(17)