又刷屏了，昆仑万维奇袭音乐大模型

首页 > AI资讯 > 最新资讯 > 又刷屏了，昆仑万维奇袭音乐大模型

新火种 2025-05-20

文｜阑夕

出道即巅峰，又一款纯正中国血统的大模型，跑出了SOTA（当前最佳水平）的分数。

昆仑万维发布的音乐大模型Mureka O1，在音乐生成品质的评测上，全面超越作为行业领头羊的Suno——相当于ChatGPT在文本大模型的优势地位——成了又一个空降而来的「新王」。

当然，和普通大模型通常通过做题的准确率来对比能力差异不同，音乐内容的好坏缺少完全客观的评判标准，所以昆仑万维也做到了力所能及的公平：

在最新的音乐评测中，Mureka O1展现出卓越的音乐品质，在最终的整体听感评测超过了Suno V4。

图丨Mureka O1在主观测评中整体听感超越Suno V4

而在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标，多个维度上，Mureka O1都完全胜过了目前市场份额最高的Sonu V4，让海外的AI技术圈再次发出了灵魂三问：

图丨Mureka O1在文本生成音乐的客观测评中得分

这是谁?哪儿来的？怎么办到的？

怎么说呢，疑惑的起点都是傲慢，从看不到中国AI的奋起，到不关心大厂以外的突破，这笔认知债务，还有很长时间要还。

· · ·

作为一家上市公司，昆仑万维没有所谓「2VC」的叙事需求，它对AI的研究投入，一方面是对技术创新的敏感，另一方面也是自身业务的延伸。

早在3年前，昆仑万维就用AI生成的音乐和图形为旗下游戏业务做了降本增效——2万块钱的一首BGM版权，被5块钱的AI成本顶替——这种基于现实需要的回报，客观上也为昆仑万维的AI版图去掉了表演性质。

昆仑万维的创始人周亚辉每年都会在朋友圈锐评各家公司的AI表现，并经常流传出媒体喜闻乐见的金句，比如「字节跳动2023年的AI战略不及格，但并不影响它在2024年的AI战略能打满分。」

而在对自家公司的评价上，周亚辉用了一个自创的词组：「小而大美」。

昆仑万维的市值，在500亿人民币左右，真要和全球互联网大厂正面硬刚，显然没有多少胜算，但在周亚辉看来，昆仑万维的AI进展不是「小而美」，而是「小而大美」，大在哪儿？

大在全球，大在对AI商业化上游的卡位。

如果在YouTube搜索Mureka，就能发现已经有很多创作者在用这款产品创作音乐了，这和很多AI概念产品的扩散路径——先由技术社区引爆，再去寻找应用场景——还不太一样，是市场先行、「炸裂」后至。

这和昆仑万维的海外业务早已打下基底有关，语音社交应用StarMaker是中国互动娱乐出海的标志性产品，全球几千万人挤在里面唱歌打榜，对于音乐创作者会在多大程度上为生产力买单，熟念于心。

在这波AI浪潮袭来之前，StarMaker就在自己做语料库了，单个小语种每个月要花几百万美元，这种积累，也相当于昆仑万维在今天闯入音乐大模型的「合法外挂」，当一个高等级玩家出现在新手村，任何动作都会是降维打击。

于是就有了Mureka O1的顺利登顶。

· · ·

某种程度上，Mureka O1会让海外的AI从业者内心生出「快别卷了」的无奈，因为它是第一个引入思维链（Chain-of-Thought）的音乐大模型。

思维链就是OpenAI o1和DeepSeek-R1为大模型行业带来的第二条进化曲线，通过教会大模型推理能力，在预训练陷入瓶颈之后重新解决了智能不再提升的问题。

不过思维链几乎只被用在文本大模型领域，从来没有在音乐大模型有过尝试，而昆仑万维实现了让Mureka O1像一个真实的唱作人那样，用经验和思考——而非直觉——来谱曲写歌。

在已经发布的论文里，Mureka团队意识到传统自回归模型在生成音频时的局限性，也就是遵循Transformer的预测模式，只能按顺序吐出音符（Token），而在开创了思维链之后，Mureka O1可以在生成之前就对整体作曲结构做出计划和梳理，大幅提高音乐的连贯性。

而这正是现阶段音乐大模型最深的痛点，没有之一。

简单来说，以Suno为代表的旧式音乐大模型，在创作音乐时很容易出现「有曲调而无旋律」的特点，有曲调意味着这确实可被辨识出是一首音乐作品，无旋律则说明和那些真正由人谱写出来的音乐相比，AI的工作成果不够动听，没有朗朗上口的艺术审美。

这和文本大模型被诟病的地方是一致的，看起来AI很能写作，吐起词句来连绵不绝，却在很多时候经不起细看，因为堆砌痕迹过重，给人「AI味」太浓的观感，更严重的指责，甚至将AI生成的作品称作是「尸块」。

而Mureka O1提供的推理能力，可以让AI站在全局的视角规划一首音乐从无到有的构建过程，避免「走一步算一步」的强行成分，这在实际体验上再造了魔法般的美学功底。

比如这首放克风格的音乐作品「Hands up high」，你们听完一定会和我产生同样的惊讶，不止是完整度，连同旋律构思和歌词卡点，包括逼真的人声唱腔，几乎都不再有AI生成时那种挥之不散的电子感，达到了可以发行的地步：

还有充满自由气息的欢快的乡村歌曲：

Tags:

大模型模型音乐

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。