大模型
总有人问,出海怎么用 DeepSeek 满血版(别问了,上答案)
有好几个小伙伴问我,他们出海业务,该怎么用DeepSeek满血版,今天直接告诉你答案:毫无疑问,AWS Bedrock是不二的选择。 出海DeepSeek云平台的选择,主要需要考虑这么几个因素:是不是大平台?对平台上大模型的接入,是严格,还是放水?是不是战略上支持DeepSeek? 有没有上下游配套基础设施?
3/19/2025 9:00:00 AM
架构师之路
AI 狂飙倒计时!李开复预言:2025年,开源大模型将掀起商业巨浪!
AI的战鼓已经擂响,冲锋号即将吹响!科技圈大佬李开复近日发出重磅预言:2025年,绝非平平无奇,而是AI应用迎来井喷式爆发的元年,更是大模型商业化战场上的“生死大考”!机遇与挑战并存,一场关乎AI未来格局的变革风暴,正在酝酿之中。 李开复的这番豪言壮语,并非空穴来风,而是基于他对行业趋势的深刻洞察。 他以DeepSeek的横空出世为例,激动地表示,这不仅仅是中国AI力量的一次惊艳亮相,更在全球范围内奏响了开源的最强音!DeepSeek的出现,仿佛一盏指路明灯,让人们清晰地看到,开源,必将成为大模型领域的终极答案!图源备注:图片由AI生成,图片授权服务商Midjourney未来的AI世界,将不再是技术参数的冰冷比拼,而是谁能更好地拥抱开源,将开源模型转化为驱动商业增长的引擎。
3/18/2025 3:35:00 PM
AI在线
金山办公申请青丘大模型商标,布局科学仪器与网站服务领域
近日,北京金山办公软件股份有限公司(以下简称 “金山办公”)向国家知识产权局提交了「青丘大模型」商标的注册申请,涵盖科学仪器和网站服务的相关领域。 这一商标申请目前正在审查当中。 金山办公的注册资本约为4.6亿人民币,主要业务包括办公软件的开发、销售及计算机系统集成等。
3/18/2025 11:11:00 AM
AI在线
阿里QwQ-32B大模型成功上线国家超算互联网平台,助力Chatbot服务
近日,国家超算互联网平台宣布了一项重要更新:阿里 QwQ-32B 推理大模型正式集成至其 Chatbot 可视化对话服务与 API 在线调用服务。 这一进展意味着用户可以通过平台体验到更加智能和多样化的对话服务,涵盖学术研究、代码生成和日常咨询等多个场景。 据了解,QwQ-32B 模型是由阿里 Qwen 团队开发的,基于 Qwen2.5-32B 及强化学习技术构建。
3/18/2025 10:38:00 AM
AI在线
陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目
大模型持续震惊科学家! 以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。
3/18/2025 9:19:26 AM
量子位
突发!百川智能两位联合创始人出走,一位正在走离职手续
出品 | 51CTO技术栈(微信号:blog51cto)刚刚收到消息,大模型六小虎之一的百川智能高层出现了很大的变动——两位联合创始人被媒体曝出了离职创业的消息。 其中,联合创始人焦可已经离职,另一位联合创始人陈炜鹏也将离职,目前还在走内部流程。 另据知情人士称,焦可和陈炜鹏两人都已经分别开始AI领域的创业。
3/17/2025 3:59:19 PM
北大团队提出全新框架LIFT 将长上下文知识注入模型参数
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning (LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。 这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。 目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大 模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索,容易引入噪声导致幻觉 长上下文适配的推理复杂度高,上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段 避免因过长上下文造成的推理复杂度提升和长程依赖丢失 训练复杂度对长文本长度呈线性增长 平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构 动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解 允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务 补偿模型在切段训练中可能损失的能力 帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
3/17/2025 3:59:00 PM
AI在线
钉钉推出AI客服助理 可自动接入企业官网、公众号等平台
2025年3月17日,钉钉宣布推出一项重磅AI能力——AI客服助理,该功能可自动接入企业官网、公众号等平台,直接服务消费者和企业客户。 这一创新举措一经推出便受到企业客户的广泛欢迎,目前已有包括云深处科技、Rokid(乐奇)、瑞德林、艾为电子、精准学等在内的700多家企业接入使用。 钉钉AI客服助理通过多轮对话能够精准理解用户的真实需求,并有效回复复杂问题,如“产品参数对比”等深度咨询内容。
3/17/2025 1:54:00 PM
AI在线
一次排查 Cursor Bug 的经历
相信很多同学日常编码已经用上了Cursor。 最近,我在用Cursor过程中遇到了「注册的MCP服务不调用」的问题。 经过一顿排查,最终确定是Cursro自身bug导致。
3/17/2025 10:01:07 AM
卡颂
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果
全面评估大模型电商领域能力,首个聚焦电商基础概念的可扩展问答基准来了! ChineseEcomQA,来自淘天集团。 此前,大模型常因生成事实性错误信息而受限,而传统基准又难以兼顾电商任务的多样性与领域特殊性。
3/17/2025 8:48:00 AM
量子位
北京新增34款已完成登记的生成式AI服务,小米AI搜索、Monica在列
网信北京发布了最新北京市生成式人工智能服务已登记信息公告,公称,根据《生成式人工智能服务管理暂行办法》及有关规定,对于通过API接口或其他方式直接调用已备案大模型能力的生成式人工智能应用或功能,采用登记管理方式,允许上线提供服务。 截至3月14日,我市新增34款已完成登记的生成式人工智能服务,累计已完成46款生成式人工智能服务登记。 其中,小米AI搜索、小米AI写作、Monica等产品在列。
3/14/2025 2:20:00 PM
AI在线
炸裂官宣!大佬亲自站台,AWS 全力支持 DeepSeek!
月11日凌晨,AWS宣布在AWS Bedrock推出全托管的DeepSeek-R1模型,成为首个提供DeepSeek-R1全托管的海外云厂商。 与此同时,DeepSeek也成为是首个登陆Amazon Bedrock的国产大模型。 Amazon CEO Andy .
3/14/2025 10:43:27 AM
架构师之路
无缝切换,实现多厂家大模型高效对接
1、问题介绍在 AI 技术迅猛发展的今天,越来越多的研发同学面临着众多大模型选型的挑战。 随着业务需求的多样化,大家希望能够逐一对比和探索不同的大模型,以便选择最适合的解决方案。 然而,不同模型的对接方式各异,请求格式、参数解析也各不相同,这给开发者带来了不小的困扰。
3/14/2025 9:02:03 AM
架构精进之路
阶跃星辰与智元机器人达成合作 探索大模型+具身机器人应用
上海阶跃星辰智能科技有限公司与智元机器人正式签署深度战略合作协议,双方将在基座大模型和机器人研发领域展开深度合作,共同探索“大模型 具身机器人”的技术突破与应用创新。 此次合作涉及世界模型技术研发、具身智能领域数据合作以及新零售等应用场景的落地,旨在推动具身智能技术在家庭服务、新零售、智能制造等领域的规模化应用。 阶跃星辰与智元机器人的合作内容涵盖了模型研发、行业解决方案以及数据体系建设等多个方面。
3/13/2025 5:31:00 PM
AI在线
RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本
上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
3/13/2025 12:24:34 PM
Glodma
迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang
14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位
大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒
还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型