文章列表
智源发布FlagEval「百模」评测结果,丈量模型生态变局
2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
12/20/2024 1:20:00 PM
机器之心
刚刚,OpenAI元老级研究员Alec Radford离职,他主导了GPT-1、GPT-2的研发
OpenAI 连续 12 天发布会还剩最后一天,期待中的「重磅」迟迟没来,反而失去了一位核心研究人员。 OpenAI 人事方面的变动还在继续。 今日,据外媒 The Information 报道,OpenAI 元老级人物 Alec Radford 即将离职,离职后进行独立研究。
12/20/2024 12:04:00 PM
机器之心
释放数字金融向新力,奇富科技金融AI大模型成果落地上海金融科技国际论坛特展周活动
12 月 19 日,在第六届上海金融科技国际论坛之“2024年度人工智能大模型金融领域示范场景及创新应用案例成果特展”活动周上,由上海金融科技产业联盟创新监管联合实验室指导,奇富科技主办的“攻坚金融科技创新与大模型应用、释放数字金融向新力” 主题成果展在沪举办,全面展示了奇富科技在金融科技领域的创新实践。 同时,上海金融科技产业联盟创新监管实验室与奇富科技现场达成创新伙伴合作,双方将共同探索金融科技创新的路径,推动新技术在金融领域高效、安全的应用,助力上海全球金融科技中心建设。 奇富科技CEO吴海生在特展现场强调,科技是驱动金融创新的关键,能打破传统边界,以智能化、个性化方案满足多元化金融需求。
12/20/2024 11:49:00 AM
新闻助手
突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT
可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。
12/20/2024 9:30:00 AM
量子位
Mac版ChatGPT接入大量应用,但终极大招在明天
今天是 ChatGPT 产品发布会第11天。 现场的 OpenAI 产品负责人 Kevin Wheel 和他两位同事为我们揭晓 ChatGPT 在MAC端的最新进展,主要涉及编程和写作1. ChatGPT 桌面版的诞生Kevin 一上来就提到,过去半年,OpenAI 对桌面端应用下了大功夫。
12/20/2024 9:00:00 AM
AI寒武纪
腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
在大型语言模型(LLM)引领的革命浪潮中,搜索与大模型的紧密结合已成为推动知识进步的关键要素。 作为开源搜索引擎排名第一的 Elasticsearch(ES),结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索,使搜索变得更准、更全、更智能。 腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化,并在海量规模的云业务中接受考验。
12/20/2024 8:13:06 AM
黄国航
苹果Mac用户狂喜!ChatGPT深度集成应用,最后再藏AGI彩蛋
OpenAI直播第11天,ChatGPT与Mac应用深度集成了——此次带来编程和写作两方面的更新。 再加上今天直播的OpenAI员工一开头就大谈特谈AI自动执行任务,有网友表示这也许是为即将推出的智能体做铺垫。 至于今天有哪些更新,话不多说,我们直接一睹为快。
12/20/2024 8:05:00 AM
谷歌首个通用推理模型登场:揭秘 AI 推理“黑匣子”,登顶 Arena LLM 排行榜
谷歌 AI Studio 平台昨日(12 月 19 日)发布实验性的“Gemini 2.0 Flash Thinking”模型,主打“清晰展现思考过程”,是谷歌第一个通用推理模型。
12/20/2024 7:58:12 AM
故渊
OpenAI ChatGPT 变身桌面助手:支持 Xcode、Notion 等 30+ 应用,AGI 彩蛋曝光
“12 days of OpenAI”活动进入倒数第 2 天,OpenAI 公司主要演示了桌面版 ChatGPT 的功能改进,强调 ChatGPT 正从聊天机器人向 AI 智能体工具进化,让其在桌面环境中高效执行任务并实现无缝协作。
12/20/2024 7:29:19 AM
故渊
豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠
豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码! 话不多说,我们直接给它上一个难度。 例如我们先随机截取一张网站的图片:再来到火山方舟的大模型广场,pick一下最新的Doubao-vision-pro-32k版本:(PS:该模型也可以在豆包APP中体验)然后把刚才的截图“喂”给豆包,并附上一句简单的Prompt:帮我写代码,克隆这个APP。
12/20/2024 7:10:00 AM
腾讯版Sora开源后,被提速八倍!官方点赞并预告:下月上新图生视频
提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。
12/20/2024 7:00:00 AM
智源发布FlagEval“百模”评测结果 丈量模型生态变局
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。
12/19/2024 6:00:00 PM
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?
12/19/2024 5:52:27 PM
o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!不同意Ilya预训练终止论断:根本在于等待数据中心建成
编辑 | 伊风OpenAI第10天的更新还有人追吗? 今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢? 图片没错,今天上线的就是这个:ChatGPT的热线电话。
12/19/2024 5:19:15 PM
伊风
对齐、生成效果大增,文本驱动的风格转换迎来进阶版
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。
12/19/2024 2:30:00 PM
机器之心
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
今天,大模型公司 Anthropic 的一篇 137 页长论文火了! 该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。 这一发现说明了大模型可能具备了类似于人类的属性与倾向。
12/19/2024 1:30:00 PM
机器之心
谷歌新规引担忧:消息称外包人员被迫评估自己不擅长的 Gemini 回复
据 TechCrunch 报道,谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整,引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样,因自身专业知识不足而跳过某些特定的评估任务,这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。
12/19/2024 10:19:53 AM
远洋
图森未来正式更名为CreateAI,并发布多项重大进展
2024年12月19日 - 图森未来(TuSimple)今日正式启用全新品牌CreateAI,并发布多项在生成式AI领域的重大进展。 CreateAI宣布获著名武侠IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界RPG游戏。 CreateAI还将与著名动画导演河森正治,以及顶级动画制作公司株式会社白组展开合作,利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。
12/19/2024 9:58:00 AM
新闻助手