Commons

整合海量公共数据,谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息,一直是大语言模型产生幻觉的重灾区。知识是现成的,但学是不可能学的。并非此身惰怠,只因现实太多阻碍。对于这个问题,谷歌在近日推出了自己筹划已久的大型数据库 Data Commons,以及在此基础上诞生的大模型 DataGemma。论文地址: Commons 是一个庞大的开源公共统计数据存储库,包含来自联合国(UN)、疾病控制与预防中心(CDC)、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前,整个语料库包含超过 2500 亿个数据点和超过 2
  • 1