首页 > 北大

北大

  • 北大通知:开放多项AI应用

    每经AI快讯,北京大学计算中心发布通知,北大本地化部署的deepseek满血版R1和V3已深度适配教学应用场景,向校内多项人工智能应用北大问学、AIMD、化小北、金融AI助教提供服务。每日经济新闻

  • 用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    北京大学与腾讯等机构的研究者们提出了多模态对齐框架 ——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能,刷榜多项评估榜单,这标志着多模态学习领域向着「大一统」理念迈进了重要一步。在现代社会,信息传递和交流不再局限于单一模态。

  • 3B模型不输7BLLaVA!北大多模态MoE模型登GitHub热榜

    混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。它仅有3B激活参数,表现却已和7B稠密模型持平,甚至部分指标比13B的模型还要好。

  • 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

    北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:传统

  • 训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

    北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,

  • 北大提出首个通用指令导航大模型系统|CoRL24

    想象一下当你躺在沙发上,只需要不假思索地说出指令,机器人就能帮你干活,是不是听起来就十分惬意?如今这种科幻电影中的场景正在变为现实,来自北京大学的助理教授、博士生导师董豪团队近日提出首个通用指令导航大模型系统InstructNav。不论是寻找物体,走到指定位置,还是满足抽象的人类需求,只要你说出指令

  • 协鑫集团携手北大、NVIDIA发布光伏功率预测大模型

    人民财讯3月21日电,3月17日至21日,2025 NVIDIA GTC(英伟达GPU技术大会)在美国加州圣何塞召开。在本次GTC大会上,协鑫集团联合北京大学、NVIDIA达成产学研深度协同,联合推出基于NVIDIA Earth-2平台的光伏功率预测大模型,这标志着能源行业智能化转型取得突破性进展。

  • 微软联手北大,发布PPTC大模型测试基准

    DoNews11月7日消息,据品玩引述 HuggingFace 页面报道,微软研究院联手北京大学,共同发布了一款名为 PPTC 的大模型测试基准,可以用于测试大模型在PPT 生成方面的能力。研究团队表示,PPTC包含 279 个涵盖不同主题的多回合会话和数百条涉及多模式操作的说明。研究团队还提出了P