阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后,阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。 此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。 这是通义千问首次推出能够原生支持百万Token上下文长度的模型,并在推理速度上实现了显著提升。

继 DeepSeek R1之后,阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。

此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。这是通义千问首次推出能够原生支持百万Token上下文长度的模型,并在推理速度上实现了显著提升。

阿里云、通义千问

Qwen2.5-1M 的核心亮点在于其原生支持百万 Token 的超长上下文处理能力。这使得模型能够轻松应对书籍、长篇报告、法律文件等超长文档,无需进行繁琐的分割处理。同时,该模型还支持更长时间、更深入的对话,能够记住更长的对话历史,实现更连贯、更自然的交互体验。此外,Qwen2.5-1M 在理解复杂任务,如代码理解、复杂推理、多轮对话等方面也展现出更强大的能力。

除了令人震撼的百万Token上下文长度,Qwen2.5-1M 还带来了另一项重大突破:闪电般快速的推理框架!通义千问团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力机制。这一创新性的框架使得 Qwen2.5-1M 在处理百万 Token 输入时,速度提升了 3倍到7倍!这意味着用户可以更加高效地使用超长上下文模型,极大地提升了实际应用场景的效率和体验。

相关资讯

阿里云通义开源Qwen2.5-VL,视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。 阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。

AI 发现16万种新RNA病毒成果登上《Cell》后,我们和阿里云算法专家贺勇聊了聊

近期,AI for Science 领域的惊喜不断,持续在物理、化学、生物领域开花结果。 不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家,阿里云与中山大学的科研也带来了RNA病毒寻找的突破,国际顶级学术期刊《Cell》收录了这一研究论文。 《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt",用于快速准确判别RNA病毒,颠覆传统病毒发现方法。

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。