AIGC宇宙 AIGC宇宙

文章列表

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。
11/22/2024 10:45:20 AM
小枣君

没有思考过 Embedding,谈何 RAG,更不足以谈 AI大模型

今天,我们来聊聊 AI 大模型,有一个非常重要概念 "Embedding"。 你可能听说过它,也可能对它一知半解。 如果你没有深入了解过 Embedding,那你就无法真正掌握 RAG 技术,更不能掌握 AI 大模型精髓所在。
11/21/2024 3:44:21 PM
渔夫

OpenAI薪酬大曝光!奥特曼身价145亿,年薪只有55万

刚刚,一份新发布的税务申报文件显示,奥特曼去年仅领取了76001美元(约55万人民币)的薪酬。 相比起2022年的73546美元,略有增加。 2022年数据身为OpenAI的CEO,年薪仅为55万。
11/21/2024 1:36:35 PM
新智元

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

DeepSeek 又出手了,这次又是重磅炸弹。 昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。 在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。
11/21/2024 1:20:00 PM
机器之心

史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格

新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。 近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五个特性,用于评估语言模型回答简短问题的真实性能力。 研究人员表示,中文简短问答能够指导开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。
11/21/2024 12:43:06 PM

收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 | NeurIPS 2024

混合专家模型(MoE, Mixture of Experts)是一种通过动态激活网络的部分结构来提升计算效率的架构,可以在保持相对稳定的计算成本的前提下大幅增加参数量,从而有效提升模型性能。 这一特性使得MoE能够兼顾模型的规模与效率,已广泛应用于各种大规模任务。 然而,MoE模型通常需要在大型数据集上预训练以获得理想性能,导致其对时间和计算资源的需求极高,这也限制了其在深度学习社区中的普及性。
11/21/2024 10:21:06 AM
新智元

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

生产级大模型应用线性注意力的方法,来了。 线性Attention(包括RNN系列),再也不用困在几B参数的范围内娱乐了。 一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!
11/21/2024 8:39:08 AM
新智元

微调大型语言模型(LLM)的五个技巧

译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。 为什么微调至关重要大型语言模型(LLM)配备了处理广泛任务的通用能力,包括文本生成、翻译、提取摘要和回答问题。 尽管LLM的性能表现非常强大,但它们在特定的任务导向型问题或特定领域(例如医学和法律等)上仍然效果不佳。
11/21/2024 8:22:45 AM
李睿

推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview

官方表示,该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。
11/20/2024 11:02:11 PM
沛霖(实习)

OpenAI 推出免费 AI 培训课程,教老师如何将 ChatGPT 用于教育

OpenAI 与非营利组织 Common Sense Media 共同宣布推出免费的教师培训课程,旨在帮助教师更好地理解人工智能和提示工程(prompt engineering,是指设计和优化提示词以引导大语言模型生成更准确、有用的输出的工程)。
11/20/2024 8:08:10 PM
远洋

昆仑万维推出“天工大模型 4.0”4o 版及实时语音助手 Skyo,号称可克服大模型幻觉

今天上午,昆仑万维宣布推出“天工大模型4.0”4o版(Skywork 4o)以及新产品“实时语音对话助手Skyo”。
11/20/2024 6:15:47 PM
清源

谷歌 Gemini 引入“记忆”功能:AI 记住用户偏好、习惯,提供更贴心服务

科技媒体 TechCrunch 昨日(11 月 19 日)发布博文,报道称谷歌开始向 Gemini Advanced 用户,推出“记忆”(memory)功能,可以记住用户的生活细节、工作习惯以及个人偏好。
11/20/2024 1:54:51 PM
故渊

年度世界互联网科技大奖公布,腾讯Angel机器学习平台获领先科技奖

11月19日,2024年世界互联网大会领先科技奖在乌镇发布,腾讯Angel机器学习平台凭借其卓越的技术积累、创新的关键技术和广泛的应用场景,荣获本年度领先科技奖。 腾讯Angel 机器学习平台,突破了万亿级模型分布式训练和推理以及大规模应用部署等难题,率先实现大模型技术从底层硬件到关键软件技术的自主研发,在业务场景广泛应用,显著推动实体产业和数字经济发展,提升社会效率。 世界互联网大会领先科技奖由世界互联网大会主办,旨在奖励全球年度最具领先性的互联网科技成果,倡导互联网技术国际交流合作。
11/20/2024 11:13:00 AM
新闻助手

ChatGPT付费功能免费用!Mistral把Canvas、Artifact全复制了

欧洲的OpenAI,把ChatGPT功能都复制了。 Mistral AI大模型平台Le Chat新增Canvas、联网搜索、上传PDF等ChatGPT同款功能,而且全都免费! 三大主流大模型产品的功能,现在可以一站式访问。
11/20/2024 7:00:00 AM

德国音乐版权代理机构 GEMA、印度 ANI 通讯社起诉 OpenAI 侵犯版权

ANI 通讯社认为 OpenAI 聊天机器人捏造的“幻觉”采访内容对其声誉构成了真正的威胁,假新闻的传播也会导致公共混乱。
11/19/2024 5:45:31 PM
溯波(实习)

OpenAI 早有“造芯梦”:曾考虑收购晶圆级芯片企业 Cerebras

对于 OpenAI 而言,自研 AI 芯片可降低对英伟达等外部供应商的依赖,获得更强的对英伟达议价能力,在 AI GPU 紧缺时保障业务推进不受影响。
11/19/2024 4:32:22 PM
溯波(实习)

谷歌回应 Gemini 聊天机器人回复“人类去死吧”:已采取措施防止类似事件再次发生

人工智能聊天机器人再次引发争议。一名用户在使用谷歌的 AI 聊天机器人 Gemini 时,收到了极其可怕的回复:“人类请去死吧。”谷歌方面承认了这一事件,将其归咎于一次“无意义”的回应,并表示这违反了他们的安全指南。该公司已采取措施,以防止类似事件再次发生。
11/19/2024 3:23:43 PM
远洋

LLM为何频频翻车算术题?研究追踪单个神经元,「大脑短路」才是根源

由于缺少对运行逻辑的解释,大模型一向被人称为「黑箱」,但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。 例如Claude在2023年发表的一项研究,将大模型中大约500个神经元分解成约4000个可解释特征。 而10月28日的一项研究,以算术推理作为典型任务,借鉴类似的研究方法,确定了大模型中的一个模型子集,能解释模型大部分的基本算术逻辑行为。
11/19/2024 12:53:50 PM
新智元