训练 - AIGC宇宙

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

LLM 面临哪些挑战又有哪些应用？系统性的综述论文来了。

iPhone、Mac上都能跑，刷屏的Llama 2究竟性能如何？

昨天凌晨，相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示，「对于人工智能和 LLM 来说，这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」

华为基于AI「盘古气象」登Nature！比全球最好的数值天气预报系统IFS快10000倍以上

编辑 | 子罗天气预报早已融入人们的生活，但天气预报的数据从何而来，如何提高其准确性，AI 如何发挥其作用？天气预报是科学计算的重要应用，旨在预测未来的天气变化，特别是极端天气事件。目前，最准确的预报系统是数值天气预报（NWP）方法，它将大气状态表示为离散网格，并数值求解描述这些状态之间转变的偏微分方程。然而，这个过程的计算成本很高。最近，基于 AI 的方法已将天气预报速度提高几个数量级，但预报精度仍然明显低于数值天气预报方法。今年 4 月份，上海人工智能实验室发布「风乌」大模型，全球气象有效预报时间首破 10天。

上交大&上海AI lab研发胸部X-ray疾病诊断基础模型，成果入选Nature子刊

上海交通大学与上海人工智能实验室联合团队聚焦医学人工智能，提出了首个基于医学领域知识增强的 Chest X-ray 的基础模型。

单细胞生物学基础大型语言模型scGPT更新版来了，在超3300万个细胞上进行预训练

编辑 | 紫罗就在前不久，多伦多大学研究团队发布首个单细胞生物学基础大型语言模型：scGPT，其在超 1000 万个细胞上进行预训练。现在，该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文：「令人兴奋的 scGPT 更新：自 4 月份发布以来，受到社区的极大关注，我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio

坚持做行业大模型，竹间智能给大模型造了一座「模型工厂」

企业被放在了开往大模型时代列车的驾驶座上。

DeepSpeed ZeRO++：降低4倍网络通信，显著提高大模型及类ChatGPT模型训练效率

。ZeRO++ 相比 ZeRO 将总通信量减少了 4 倍，而不会影响模型质量。

大模型进入「落地战」，腾讯云下手「行业」大模型

将行业需求转化为大模型课题。

百川智能发布开源中英文大模型，多个榜单评测成绩最佳

王小川创立的百川智能发布中英文大模型，采用开源模式，可免费商用。报道 | 机器之能2023年6月15日，被称为「中国ChatGPT梦之队」的百川智能公司，推出了70 亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上，以显著优势全面超过了ChatGLM-6B等其他大模型，并且在MMLU英文权威评测榜单上，大幅领先LLaMA-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Sc

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

当下 OVD 领域的相关研究蓬勃发展，OVD 技术对未来通用 AI 大模型能够带来的改变值得期待。

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

你的就是我的，我的还是我的。

5 个章节、25 条规范，全方位 Get 数据集选择与创建的「百科全书」

内容一览：如果你正在学习如何创建或选择一个合适的数据集，那么这篇文章会给你一些实用的建议，帮助你在选择和创建数据集时做出明智的决策。关键词：机器学习数据集

有证据了，MIT表明：大型语言模型≠随机鹦鹉，确实能学到语义

大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息？这一问题在计算机科学和自然语言处理领域一直存在争议。然而，MIT的一项新研究表明，仅基于文本形式训练、用于预测下一个token的语言模型确实能学习和表示文本的意义。

大模型迎来「开源季」，盘点过去一个月那些开源的LLM和数据集

前段时间，谷歌泄露的内部文件表达了这样一个观点，虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶，但真正的赢家未必会从这两家中产生，因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。

首个单细胞生物学基础大型语言模型，在超1000万个细胞进行预训练

编辑 | 紫罗生成式预训练模型在自然语言处理（NLP）和计算机视觉等领域取得了显著的成功。文本是由文字组成的，细胞可以用基因来表征。NLP 和单细胞生物学之间的另一个核心相似之处是，用于训练的公开可用的单细胞 RNA 测序（scRNA-seq）数据的规模庞大且不断增长。NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」？近日，来自加拿大多伦多大学和彼得·蒙克心脏中心（Peter Munk Cardiac Centre）的研究人员，通过利用呈指数增长的单细胞测序数据，首次尝试对超过 1000 万个细胞进

三维ImageNet开源！港中深韩晓光团队助力计算机视觉进入三维大数据时代

随着深度学习技术的快速发展，数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里，随着 ImageNet 诞生之后，计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练，然后迁移到下游的视觉任务，都能显著提升模型性能，并且已经成为 2D 图像领域的标准化方式。

训练