AIGC宇宙 AIGC宇宙

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

作者:AI在线
2025-04-18 11:01
维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。

维基百科

该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但不包括参考文献和音频文件等非文本元素。

维基媒体希望,Kaggle 用户能够通过这份数据集,获得更为便利的获取信息的方式,从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问,爬虫抓取行为正在给维基百科的服务器带来沉重负担。

Kaggle 的合作伙伴关系负责人布伦达・弗林表示,Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出,Kaggle 致力于保持数据的可访问性、可用性和实用性,以服务更广泛的机器学习社区。

通过此次合作,维基百科不仅保护了自身资源,也为小型企业和独立数据科学家提供了更为便利的访问途径,推动了人工智能的发展和应用。

划重点:

🌐 维基百科与 Kaggle 合作,发布英语和法语的结构化数据集,旨在减少 AI 爬虫抓取行为。  

🗂️ 数据集包括研究摘要、简短描述和图像链接等,开放许可,便于 AI 开发者使用。  

🔧 Kaggle 承诺维护数据的可访问性,支持小企业和独立数据科学家的研究。

相关资讯

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

编辑 | 白菜叶可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中
10/24/2023 11:25:00 AM
ScienceAI

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
10/12/2024 1:51:58 PM
故渊

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线