理论

Meta教你5步学会用Llama2:我见过最简单的大模型教学

本文是 Meta 官网推出的 Llama2 使用教学博客,简单 5 步教会你如何使用 Llama2。在这篇博客中,Meta 探讨了使用 Llama 2 的五个步骤,以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源,并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码,参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%,上下文长度也多一倍,并且 Llama 2 在

OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线

赶紧学习起来吧!OpenAI 的风波暂时告一段落,员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型(LLM)的 30 分钟入门讲座,但该讲座当时没录制。因此,他基于这场讲座重新录制了一个长达 1 小时的视频,希望让更多人看到和学习。视频的主题为《大型语言模型入门》,涵盖了 LLM 的推理、训练、微调以及新出现的 LLM 操作系统和 LLM 安全。视频主打「非技术性」,偏科普,所以更加容易理解。                               

腾讯Angel机器学习框架升级,支持单任务万卡级别超大规模训练,超300个腾讯产品及场景接入内测

腾讯披露最新大模型训练方法,可节省50%算力成本。

MIT 开发​深度化学模型的神经尺度策略,发现「神经尺度」定律

编辑 | 绿萝在数据可用性和计算方面,大规模使得自然语言处理和计算机视觉等深度学习关键应用领域取得了重要突破。越来越多的证据表明,规模可能是科学深度学习的关键因素,但物理先验在科学领域的重要性使得规模化的策略和收益变得不确定。近日,来自 MIT 的研究团队通过将模型和数据集大小改变多个数量级来研究大型化学模型中的神经尺度(neural-scaling)行为,研究具有超过 10 亿个参数的模型,并在多达 1000 万个数据点的数据集上进行预训练。研究考虑用于生成化学的大型语言模型和用于机器学习原子间势的图神经网络。研

千亿规模参数,阿里云通义千问进化到2.0:性能超GPT-3.5,加速追赶GPT-4

10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0。在 10 个权威测评中,通义千问 2.0 综合性能超过 GPT-3.5,正在加速追赶 GPT-4。当天,通义千问 APP 在各大手机应用市场正式上线,所有人都可通过 APP 直接体验最新模型能力。过去 6 个月,通义千问 2.0 在性能上取得巨大飞跃,相比 4 月发布的 1.0 版本,通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过 GPT-3.5,加速追赶 GPT-4。

用于化学研究的 GPT-4:什么可以做,什么不可以做?

编辑 | 紫罗GPT-4 在应对化学挑战方面表现出非凡的能力,但仍然存在明显的弱点。东京工业大学的化学家 Kan Hatakeyama-Sato 表示:「它对化学有着显著的理解,这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」最近,Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程:什么可以/不可以做?》(「Prompt engineering of

178页!GPT-4V(ision)医疗领域首个全面案例测评:离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评,首次全面揭秘GPT-4V医疗领域视觉性能。

MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能,蛋白质通过采用简单构建块的独特排列(其中几何形状是关键)来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能,可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和设计蛋白质。「通过这种新方法,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然构建

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

提供开箱即用的8到512卡LLaMA2训练、微调、推理方案。

致命幻觉问题、开发GPU替代品,大模型还面临这10大挑战

ChatGPT、GPT-4 等的发布,让我们在见识到大模型(LLM)的魅力后,伴随而来的是其所面临的各种挑战。如何让 LLM 变得更好?面对大模型,到底有哪些需要解决的问题?成为 AI 领域重要的研究课题。

一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

这几天,代码大模型领域又热闹了起来!

解锁Midjourney隐藏技能:改改Prompt,四宫格就「裂变」了

我们离真正的「AI 电影」不远了?

Transformer速查宝典:模型、架构、训练方法的论文都在这里了

论文大合集,一篇文章就搞定。

ChatGPT写的论文有多少发表了?搜完谷歌学术以后我慌了

连「作为一个大模型……」这样的 AI 语都忘了删就提交,结果还过审发表了。

GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会

大语言模型(Large Language Models)的发展势头愈发猛烈,各大公司国际角逐的背后,也需要一同应对公平、安全以及隐私等方面的问题。

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

LLM 面临哪些挑战又有哪些应用?系统性的综述论文来了。

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模