AIGC宇宙 AIGC宇宙

统计

Anthropic新研究:用统计思维评估大模型

目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。
1/10/2025 10:30:00 AM
AIGC开放社区
  • 1