理论
ChatGPT终于也推出Projects功能,却故意露出一个“AGI”的项目
就在刚刚,在OpenAI“双十二”的第七天,一种全新的对话交互模式诞生——Projects。 它“长”在这儿,主页的左侧导航栏中:如其名,Projects的功能就是按照项目来组织和管理文件,正如官方介绍的那样:Projects将聊天记录、文件和自定义指令集中在一个地方。 你可以用它们进行持续性的工作,或者仅仅是让它们变得井然有序(看着干净、整洁)。
使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”
一、引言将视觉能力与大型语言模型(LLMs)结合,正在通过多模态 LLM(MLLM)彻底改变计算机视觉领域。 这些模型结合了文本和视觉输入,展示了在图像理解和推理方面的卓越能力。 虽然这些模型以前只能通过 API 访问,但最近的开放源代码选项现在允许本地执行,使其在生产环境中更具吸引力。
使用小型视觉语言模型(VLM)进行物体识别与计数
今天的重点是一个具有无数实际应用的功能:在边缘设备(如智能手机、物联网设备和嵌入式系统)上运行小型视觉语言模型(VLM)。 这些模型在识别和指出物体方面越来越出色。 具体来说,它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。
AI机器人的头号威胁:大模型越狱
随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球,越来越多的公司开始将这种技术引入机器人控制。 然而,最新研究发现,黑客可以通过自动化方式轻松绕过AI系统的安全防护,甚至能够操控机器人执行极具破坏性的任务,例如控制自动驾驶系统撞向行人,或者将机器狗引导到敏感地点实施爆炸任务。 从文本到行动:大模型赋能机器人大语言模型的核心功能类似于智能手机的“自动补全”,通过分析用户输入内容预测下一步操作。
微软出招!新模型数学超GPT-4o编程胜Llama3.3,训练新范式引热议:midtraining
OpenAI谷歌天天刷流量,微软也坐不住了,推出最新小模型Phi-4。 参数量仅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。 数学能力上,Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型,分数冲上90。
扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性
扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗? 从表面上看,这两种方法似乎各有侧重:扩散模型专注于通过迭代的方式逐步去除噪声,将数据还原成清晰的样本。 而流匹配则侧重于构建可逆变换系统,目标是学习如何将简单的基础分布精确地映射到真实数据分布。
ChatGPT「睁眼」了!OpenAI版「Her」满血上线,还有圣诞限定彩蛋
OpenAI直播第六天,可以说是把圣诞氛围拉满了。 在高级语音模式中,不仅加入了视频聊天,而且还有限定版圣诞老人语音。 这就意味着,通过设备共享摄像头摄取到的内容,我们就可以和「Her」实时视频对话了!
谷歌成功狙击 OpenAI:ChatGPT Vision 深夜紧急上线,OpenAI 还能守住江山吗
昨天谷歌放大招发布Gemini 2并提供免费服务后,OpenAI 今天(12天发布会Day6)紧随其后,推出了鸽了很久的 ChatGPT Vision 功能,为用户带来更丰富的多模态交互体验。 除了原有的高级语音模式外,现在你可以与 ChatGPT 进行视频通话、共享屏幕,也可以与圣诞老人实时互动! 11分钟发布会乏善可陈,感觉有点拉先说重点:ChatGPT Vision 有哪些新功能?
在大模型时代,智能化推荐怎么做呢?
自2022年11月30日OpenAI发布ChatGPT以来,大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域(如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等)取得了比之前算法好得多的成绩,很多方面都超越了人类专家的水平,特别是人机对话具备了一定的共情能力,这让AI领域的工作者和普通大众都相信AGI(Artificial General Intelligence,通用人工智能)时代马上就要来临了。 大模型除了对话能力达到了跟真正互动的水准,更厉害的是当模型参数规模达到一定量(100B ,这里B是billion,十亿的意思)时,会涌现出新的能力,即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力,这在之前的机器学习范式中是从没见到过的。
为什么ETL和AI不是竞争对手,而是数据未来的合作伙伴
译者 | 晶颜审校 | 重楼去年,大模型经历了爆炸式增长,进一步完善了人工智能解决问题的能力。 今年,随着炒作的热度消退,大模型进入了更深层次的阶段,旨在重塑各行业的基础逻辑。 在大数据处理中,大模型与传统ETL (即提取Extract、转换Transform、加载Load)过程之间的冲突引发了新的争论。
专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形
大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢? 来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。 在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。
OpenAI版《Her》全量来袭:实时视频对话,你每个动作AI都看得见
OpenAI“双十二”的*第六天,依旧重磅来袭——《Her》一样的视频通话功能,全量开发! 而且这次的版本名字也是非常应景,叫做Santa Mode(圣诞模式)。 现在(直到月底),你可以随时开启跟AI的实时对话,点击“雪花”就能让ChatGPT用圣诞老人的调调跟你对话:除此之外,你现在还可以打开摄像头,让ChatGPT睁开“眼睛”,边看边聊!
OpenAI犯了大公司病
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第五天直播,小编只能说,这次没什么特别new的新闻,更像是一个苹果和OpenAI的联合发布吧。 本来一个事情,苹果说更新的iOS18.2系统集成了ChatGPT,放到OpenAI这边,自然会说ChatGPT集成到了iPhone、iPad、Mac中。 总结起来,值得一看的是三种场景:一、Siri对话:Siri会判断什么时候更适合ChatGPT回答,适当时会让ChatGPT来处理,当然处于保护用户隐私的考虑,这时会需要用户点击确认。
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
在iOS 18.2向用户推送的周三,OpenAI展示了其新款iPhone集成功能,将ChatGPT直接融入Siri、写作工具和相机功能中。 在OpenAI“Shipmas 12天”产品发布的第五天展示的这项功能更新,标志着苹果罕见地向外部软件开放了其核心iPhone功能。 ChatGPT现在可以通过Siri处理命令,并在整个操作系统中处理任务。
豆包 Marscode 优秀实践
毫无疑问,Marscode 能解决非常多基础问题,特别对于编程新手而言,它能相对准确地生成各种代码,完成编程任务,但其底层并不神秘,本质上就是在传统 IDE 基础上,搭配足够好的交互与足够好的 LLM,从而超越传统 IDE。 交互方面,它在 VS Code 基础上,补充提供了:提供了几乎毫无门槛的代码自动补全能力,并且支持多行编辑,这在一些场景,如修改变量名时,非常好用。 行内、独立问答面板,可用于快速解答问题。
如何在安卓手机上本地安装和运行LLM?
译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上:没有云,没有互联网,只有纯粹的设备端智能! 在安卓手机上本地运行大语言模型(LLM)意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能(AI)模型。 这种本地环境通过确保数据安全、并在设备端来确保隐私。
OpenAI下一代模型突遭泄露!「半GPT-5」旗舰模型猎户座要来了?
OpenAI的新模型,竟被意外泄露了? 圣诞马拉松第四天,网友们从OpenAI研究员Karina Nguyen介绍Canvas功能的帖子里,发现了蛛丝马迹。 一个名叫「ChatGPT ε」的模型,现身了。
NeurIPS 2024 | LLM智能体真能模拟人类行为吗?答案有了
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。