数据
ChatGPT 可以实时互动分析 Excel 数据了,网友挖出背后新模型
【新智元导读】GPT-4o 之后,ChatGPT 又迎来更新。这次,数据分析能力再上一个新台阶,将支持谷歌、微软在线文档上传,并实时交互,自定义图表。更重要的是,网友已经灰度测试到背后的新模型了。ChatGPT 更强了...刚刚,OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文件,完成实时数据分析。全新的增强功能,具体包括:- 直接从 Google Drive 和 Microsoft OneDrive 上传最新版本的文件- 在新的可扩展视图中与表格和图表进行交互- 自定义并下载图表,用于演示文
5/17/2024 11:38:20 PM
清源
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
新智元报道 编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们已经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!图像托管网站 Photobucket 的陈年旧数据,本来已经多年无人问津,但
4/7/2024 1:36:43 PM
远洋
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼
OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里
感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,无法明确说明 Sora 的训练数据来源。在采访中,记者直接询问 Murati 关于 Sora 训练数据来源时,她仅以含糊的官方话术搪塞:“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时,Murati 竟然表示“我实际上并不确定(I'm actually not sure about that)”,并拒绝回答有关 In
3/18/2024 4:07:57 PM
远洋
OpenAI 视频生成服务 Sora 引发隐私担忧,意大利数据监管机构展开调查
感谢意大利数据保护机构 (Garante) 周五宣布,已对微软支持的 OpenAI 公司开发的一项服务展开调查,这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一,一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到,去年该机构就以涉嫌违规使用用户数据为由,禁止了聊天机器人 ChatGPT 在意大利的使用。
3/10/2024 5:42:41 PM
远洋
OpenLAM | 深度势能预训练大模型DPA-2发布
在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型计划。OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作,深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2,将成为 OpenLAM
12/28/2023 6:02:00 PM
ScienceAI
OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽
众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。
8/8/2023 2:24:00 PM
机器之心
单细胞生物学基础大型语言模型scGPT更新版来了,在超3300万个细胞上进行预训练
编辑 | 紫罗就在前不久,多伦多大学研究团队发布首个单细胞生物学基础大型语言模型:scGPT,其在超 1000 万个细胞上进行预训练。现在,该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文:「令人兴奋的 scGPT 更新:自 4 月份发布以来,受到社区的极大关注,我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio
7/5/2023 6:11:00 PM
ScienceAI
5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」
内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。
关键词:机器学习 数据集
6/2/2023 9:49:00 AM
HyperAI超神经
关键点检测项目代码开源了!
作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛 ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:
3/30/2022 6:11:00 PM
格物钛Graviti
百分点认知智能实验室:基于不完全标注样本集的信息抽取实践
编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业
3/25/2021 2:12:00 PM
百分点科技
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型