大模型
阿里云 all in AI 的决心
如何抓住 AI 的机会? 这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。 毋庸置疑,AI 与云已经成为紧密的拍档。
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。 此前,杨红霞为大家所熟知的是,她曾是阿里达摩院万亿参数规模多模态预训练模型 M6 的技术负责人,参与过北京智源研究院主导的“悟道”大模型项目,而该项目是中国最早的大模型项目之一。 2007 年,杨红霞从南开大学本科毕业后,赴杜克大学攻读博士,师从著名统计学家 David Dunson,著有超过 100 篇杰出学术论文。
对话零一万物:大模型产品要找到 TC-PMF
上次零一万物(以下简称“零一”)开发布会还是在 2023 年 11 月,宣布成立后的模型首秀:发布中英双语大模型“Yi”,并将其开源。 这一次,时隔半年,零一不仅将基座模型卷到千亿量级,甚至还直接拿出一款 C 端新品“万知”,零一万物创始人李开复称其为“AI-First 版 office”。 在模型层,零一发布了千亿参数的 Yi-Large 闭源模型,在第三方评测基准斯坦福大学的英语排行 AlpacaEval 2.0上,Yi-Large 可与 GPT-4 比肩(如下图所示);并全面升级了开源模型系列 Yi-1.5,分为 34B、9B、6B三个版本,且提供了 Yi-1.5-Chat 微调模型可供开发者选择。
字节跳动发布豆包大模型,主力模型比行业价格低99.3%
5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。 火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。 “大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。
在 ICLR 2024,看见中国大模型的力量
作者 | 赖文昕编辑 | 陈彩娴近日(5.7-5.11),第十二届国际学习表征会议(ICLR)在奥地利维也纳的展览会议中心召开。 ICLR 2024 的论文终审工作自 1 月份启动以来,共收到了7262篇提交论文,相较于上一年度的 4966 篇,增幅达到了 46.1%,接近翻了一番。 在严格的评审过程中,大会最终接受了 2260 篇论文,整体接收率维持在 31%,与去年的31.8%基本持平,其中 Spotlights 和 Oral 两种类型的论文展示分别有 367 篇(占5%)和 86 篇(占1.2%)论文获选。
别再说国产大模型技术突破要靠 Llama 3 开源了
Meta 表示,Llama 3 已经在多种行业基准测试上展现了最先进的性能,提供了包括改进的推理能力在内的新功能,是目前市场上最好的开源大模型。 根据Meta的测试结果,Llama 3 8B模型在语言(MMLU)、知识(GPQA)、编程(HumanEval)等多项性能基准上均超过了Gemma 7B和Mistral 7B Instruct,70B 模型则超越了名声在外的闭源模型 Claude 3的中间版本 Sonnet,和谷歌的 Gemini Pro 1.5 相比三胜两负。 Meta还透露,Llama 3的 400B 模型仍在训练中。
当「养老」遇上 AI 大模型
作者:赖文昕编辑:陈彩娴鲜少有人关注到这样一个现象:在大模型的发展初期,「研发」与「产品」往往来自同一个群体——程序员。 由于大模型技术的系统复杂,新一代大模型产品经理的数量稀少,程序员往往既是技术、又是产品。 因此,程序员对 AI 大模型「究竟能解决什么问题」、「如何解决某个问题」的思考,也就在一定程度上刻画了第一批大模型落地应用的模样。
从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型
音乐早已成为人类表达情感的最佳载体。 但音乐创作是一件门槛很高的事情,因为音乐创作不是某一个人的独角戏,而一个团队高度协作的过程。 从作词、作曲到编曲、混音,再到歌曲录制,每个环节都需要专业音乐人付出努力,并伴随着高昂的成本投入。
浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力
去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。 如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而国内,大模型公司开始考虑商业化,落地应用成为国内大模型的主旋律。 但在这个过程中,当大模型走进应用,如何更好地落地,已然成为一众AI领域厂商关注的焦点所在。
开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4
ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3。 扎克伯格在 Facebook 上发帖:Big AI news today.与此同时,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Faceboo
谁将替代 Transformer?
Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。 今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。 Transformer 已然代表了当今人工智能技术无可争议的黄金标准,其主导地位至今无人能撼动。
手机大模型崛起:荣米 OV 的战场厮杀
作者丨郭思编辑丨陈彩娴数据显示,2023年全球智能手机出货量同比下滑3.2%,总数仅为11.7亿部。 手机市场的饱和,早已是行业共识。 尽管如此,智能手机作为主流的通讯和娱乐工具,业界人士表示,其地位在未来五年内不太可能被迅速替代。
零一万物 API 上线,用户反馈多模态中文能力超过 GPT-4V
零一万物由创新工场董事长兼首席执行官李开复创办于 2023 年 6 月,六个月后,零一万物便成功发布了 Yi 系列模型,包含 6B 和 34B 两个版本,并开源,打破了当时国产开源模型一直难以超过 14B 的现状。 34B也是黄金尺寸的模型,既达到了大模型“涌现”能力的门槛,同时也能在消费级显卡上训练,对开发者相对友好。 此后较长一段时间 Yi-34B 在 Hugging Face 英文开源社区平台跻身前列,一举打响了零一万物的模型名声。
“创新落地,生态共赢”,澜舟科技提出大模型落地应用“九字诀”
历经持续一年多的百模大战后,市场竞争逐渐深化,如何更快、更好地推进大模型的落地应用,开始成为各大大模型公司思考的焦点所在。 3月18日,澜舟科技在中关村国家自主创新示范区展示中心隆重举行了“创新落地,生态共赢”大模型技术和产品发布会。 会上,澜舟科技展示了澜舟科技的大模型的最新进展和大模型技术的实际应用落地、生态构建的成果,更体现了其对未来发展的深度思考和战略布局。
「创新落地,生态共赢」,2024澜舟科技大模型技术和产品发布会圆满举办
2024 年将是大模型落地元年。
对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR
现代化社会,哪些工作场景最需要机器人的帮助? 在工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。 相比之下,生活场景中的服务型机器人历史则短得多。
智谱AI狂飙:与商业化博弈的一年
2023 年 12 月 AI 科技评论在搜狐网络大厦见到智谱AI COO 张帆时,张帆如是说。 张帆在 2023 年 3 月加入中国大模型领域“当红炸子鸡”智谱负责商业化,他感慨:“大模型不仅把知识给压缩了,还把时间给压缩了。 ”最直接的体现是,在过去的 9 个月,张帆以每个月见大约 100 家客户的速度在推进智谱的大模型商业化,2023 年结束时,张帆团队已拜访了上千家客户。
Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
作者:赖文昕编辑:陈彩娴自3天前Sora发布以来,由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。 “世界模型”作为Sora的一大核心亮点,被OpenAI写在技术报告中。 但Sora是否真的如Open AI所说,是一个世界模型,却引起了行业内的争论。