首页 > 真实性

真实性

  • 史上最严中文真实性评估:OpenAIo1第1豆包第2,其它全部不及格

    新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五个特性,用于评估语言模型回答简短问题的真实性能力。研究人员表示,中文简短问答