方法

大模型智障检测 + 1:Strawberry 有几个 r 纷纷数不清,最新最强 Llama3.1 也傻了

继分不清 9.11 和 9.9 哪个大以后,大模型又“集体失智”了!数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。GPT-4o 不仅错了还很自信。刚出炉的 Llama-3.1 405B,倒是能在验证中发现问题并改正。比较离谱的是 Claude 3.5 Sonnet,还越改越错了。说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论:好吧,也许 AGI 比我想
  • 1