谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。 通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。 视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。

QQ_1739519411614.png

视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。过去,这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集,虽然这些数据集包含了数百万到数十亿的图像 - 文本对,但它们的进展速度已放缓至100亿对的规模,这对进一步提高模型的准确性和包容性形成了限制。

WebLI-100B 数据集的推出,正是为了应对这一挑战。与以往的数据集不同,WebLI-100B 并不依赖严格的过滤方式,这种方法通常会删除重要的文化细节。相反,它更注重于扩大数据的范围,特别是在低资源语言和多样文化表达等领域。研究团队通过在 WebLI-100B 的不同子集上进行模型预训练,以分析数据规模对模型性能的影响。

经过测试,使用完整数据集进行训练的模型,在文化和多语言任务上的表现,明显优于在较小数据集上训练的模型,即使在计算资源相同的情况下。此外,研究发现,将数据集从10B 扩大到100B 对以西方为中心的基准测试的影响较小,但在文化多样性任务和低资源语言检索方面则显著改善。

论文:https://arxiv.org/abs/2502.07617

划重点:  

🌐 ** 全新数据集 **:WebLI-100B 是一个包含1000亿个图像 - 文本对的巨大数据集,旨在增强 AI 模型的文化多样性和多语言性。  

📈 ** 模型性能提升 **:使用 WebLI-100B 数据集训练的模型在多文化和多语言任务中的表现优于以往的数据集。  

🔍 ** 减少偏差 **:WebLI-100B 的数据集避免了严格过滤,保留了更多文化细节,提高了模型的包容性和准确性。

相关资讯

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与

院士、委员、专家共议“双智建设”:场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施,已经成为日常生活中随处可见的元素。2021年,住建部和工信部将16个城市列为双智试点城市,探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路?双智的未来该走向何处?这些问题成为当前双智行业关注的重点。近日,由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“,共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研

6年技术迭代,阿里全球化出海&合规的挑战和探索

全球化技术根植于全球化业务,经过五个阶段的演进,逐渐发展成为阿里巴巴集团内相对独立的技术体系。本文会首先重点讲解全球化基础设施层的挑战和技术实践。