首页 > AI资讯 > 最新资讯 > 又刷屏了,昆仑万维奇袭音乐大模型

又刷屏了,昆仑万维奇袭音乐大模型

新火种    2025-05-20

文 | 阑夕

出道即巅峰,又一款纯正中国血统的大模型,跑出了SOTA(当前最佳水平)的分数。

昆仑万维发布的音乐大模型Mureka O1,在音乐生成品质的评测上,全面超越作为行业领头羊的Suno——相当于ChatGPT在文本大模型的优势地位——成了又一个空降而来的「新王」。

当然,和普通大模型通常通过做题的准确率来对比能力差异不同,音乐内容的好坏缺少完全客观的评判标准,所以昆仑万维也做到了力所能及的公平:

在最新的音乐评测中,Mureka O1展现出卓越的音乐品质,在最终的整体听感评测超过了Suno V4。

图丨Mureka O1在主观测评中整体听感超越Suno V4

而在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标,多个维度上,Mureka O1都完全胜过了目前市场份额最高的Sonu V4,让海外的AI技术圈再次发出了灵魂三问:

图片

图片

图丨Mureka O1在文本生成音乐的客观测评中得分

这是谁?哪儿来的?怎么办到的?

怎么说呢,疑惑的起点都是傲慢,从看不到中国AI的奋起,到不关心大厂以外的突破,这笔认知债务,还有很长时间要还。

· · ·

作为一家上市公司,昆仑万维没有所谓「2VC」的叙事需求,它对AI的研究投入,一方面是对技术创新的敏感,另一方面也是自身业务的延伸。

早在3年前,昆仑万维就用AI生成的音乐和图形为旗下游戏业务做了降本增效——2万块钱的一首BGM版权,被5块钱的AI成本顶替——这种基于现实需要的回报,客观上也为昆仑万维的AI版图去掉了表演性质。

昆仑万维的创始人周亚辉每年都会在朋友圈锐评各家公司的AI表现,并经常流传出媒体喜闻乐见的金句,比如「字节跳动2023年的AI战略不及格,但并不影响它在2024年的AI战略能打满分。」

而在对自家公司的评价上,周亚辉用了一个自创的词组:「小而大美」。

昆仑万维的市值,在500亿人民币左右,真要和全球互联网大厂正面硬刚,显然没有多少胜算,但在周亚辉看来,昆仑万维的AI进展不是「小而美」,而是「小而大美」,大在哪儿?

大在全球,大在对AI商业化上游的卡位。

如果在YouTube搜索Mureka,就能发现已经有很多创作者在用这款产品创作音乐了,这和很多AI概念产品的扩散路径——先由技术社区引爆,再去寻找应用场景——还不太一样,是市场先行、「炸裂」后至。

这和昆仑万维的海外业务早已打下基底有关,语音社交应用StarMaker是中国互动娱乐出海的标志性产品,全球几千万人挤在里面唱歌打榜,对于音乐创作者会在多大程度上为生产力买单,熟念于心。

在这波AI浪潮袭来之前,StarMaker就在自己做语料库了,单个小语种每个月要花几百万美元,这种积累,也相当于昆仑万维在今天闯入音乐大模型的「合法外挂」,当一个高等级玩家出现在新手村,任何动作都会是降维打击。

于是就有了Mureka O1的顺利登顶。

· · ·

某种程度上,Mureka O1会让海外的AI从业者内心生出「快别卷了」的无奈,因为它是第一个引入思维链(Chain-of-Thought)的音乐大模型。

思维链就是OpenAI o1和DeepSeek-R1为大模型行业带来的第二条进化曲线,通过教会大模型推理能力,在预训练陷入瓶颈之后重新解决了智能不再提升的问题。

不过思维链几乎只被用在文本大模型领域,从来没有在音乐大模型有过尝试,而昆仑万维实现了让Mureka O1像一个真实的唱作人那样,用经验和思考——而非直觉——来谱曲写歌。

在已经发布的论文里,Mureka团队意识到传统自回归模型在生成音频时的局限性,也就是遵循Transformer的预测模式,只能按顺序吐出音符(Token),而在开创了思维链之后,Mureka O1可以在生成之前就对整体作曲结构做出计划和梳理,大幅提高音乐的连贯性。

而这正是现阶段音乐大模型最深的痛点,没有之一。

简单来说,以Suno为代表的旧式音乐大模型,在创作音乐时很容易出现「有曲调而无旋律」的特点,有曲调意味着这确实可被辨识出是一首音乐作品,无旋律则说明和那些真正由人谱写出来的音乐相比,AI的工作成果不够动听,没有朗朗上口的艺术审美。

这和文本大模型被诟病的地方是一致的,看起来AI很能写作,吐起词句来连绵不绝,却在很多时候经不起细看,因为堆砌痕迹过重,给人「AI味」太浓的观感,更严重的指责,甚至将AI生成的作品称作是「尸块」。

而Mureka O1提供的推理能力,可以让AI站在全局的视角规划一首音乐从无到有的构建过程,避免「走一步算一步」的强行成分,这在实际体验上再造了魔法般的美学功底。

比如这首放克风格的音乐作品「Hands up high」,你们听完一定会和我产生同样的惊讶,不止是完整度,连同旋律构思和歌词卡点,包括逼真的人声唱腔,几乎都不再有AI生成时那种挥之不散的电子感,达到了可以发行的地步:

还有充满自由气息的欢快的乡村歌曲:

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。