首页 > 基准

基准

  • 宁德时代否认小米事故车辆搭载其电池OpenAI推出AIAgent评测基准

    《科创板日报》4月3日讯 今日科创板早报主要内容有:四部门:上海市等9个城市列入首批车网互动规模化应用试点范围;湖北:重点支持武汉智能网联汽车等领域培育千亿级集群;山东:将出台文化与科技融合、脑机接口、量子科技3个行动计划。《科创板日报》主播小K为您播报。市场动态宁德时代否认小米事故车辆搭载其电池随

  • 谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻

    站长之家11月9日 消息:最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实

  • OpenAI将开源SimpleQA新基准以衡量大模型真实性

    财联社10月31日电,美国开放人工智能研究中心(OpenAI)当地时间10月30日宣布,为了衡量语言模型的真实性,将开源一个名为SimpleQA的新基准。该基准可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

  • 大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务

    伴随着全球人工智能技术飞速进步,具身智能产业迅猛发展,赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一,实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时,能够展现出卓越的性能。正如ChatGPT需要海量文本数据来训练一样,想要培养出一个能力全面的机器人,也需要大量优质

  • SIGIR2023|30万真实查询、200万互联网段落,中文段落排序基准数据集发布

    段落排序是信息检索领域中十分重要且具有挑战性的话题,受到了学术界和工业界的广泛关注。段落排序模型的有效性能够提高搜索引擎用户的满意度并且对问答系统、阅读理解等信息检索相关应用有所助益。在这一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基准数据集被构建用于支持段落排序的

  • Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”

    要点:Meta发布了名为FACET的数据集,用于探测计算机视觉模型对某些“类别”人群的偏见。FACET包含32000张图片,50000人的图像,标注了职业和活动“类别”,以及人口统计和身体特征。FACET可用于测试模型在不同人口属性上的分类、检测、分割和定位任务的公平性。新火种(xinhuozhon

  • 第四代至强可扩展AI性能有多强?最新MLPerf基准测试结果展示强劲性能

    从蒸汽机、电气再到互联网,每一次革命都代表着科技的飞速发展和人类文明的巨大进步,现如今,随着生成式AI的广泛应用,以人工智能为代表的新一轮科技浪潮则正在引领整个社会走向第四次工业革命,作为一种模拟人类智能的技术,AI可以通过学习、推理和自我修正等方式实现自主决策和行动,