SimpleQA

OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。 AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。 当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。
  • 1