神经网络 - AIGC宇宙

小白也能轻松理解的大模型入门锦囊！

一、何为大模型？大模型，英文名叫Large Model，也被称为基础模型（Foundation Model）。我们通常说的大模型，主要指的是其中最常用的一类——大语言模型（Large Language Model，简称LLM）。

断交OpenAI后，人形机器人独角兽首秀：一个神经网络控制整个上身，能听懂人话可抓万物

与OpenAI断交之后，Figure首个成果出炉：Helix，一个端到端通用控制模型，它能让机器人像人一样感知、理解和行动。只需自然语言提示，机器人就能拿起任何东西，哪怕是从没见过的东西，比如这个活泼的小仙人掌。从官方放出的演示中可以看到，它在接收到人类的提示后，就会按照指令逐一拿起桌上的物品放进冰箱。

清华“太极-Ⅱ”光芯片面世：成果登 Nature，首创全前向智能光计算训练架构

据清华大学官方消息，清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径，首创了全前向智能光计算训练架构，研制了“太极-II”光训练芯片，实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题，于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉，清华大学电子系为论文第一单位，方璐教授、戴琼海教授为论文的通讯作者，清华大学电子系博士生薛智威、博士后周天贶为共同一作，电子系博士生徐智昊、之江实验室虞绍良博士参与了该项工作。该课题受到国家科技部、国家自然科学

为什么要纯C语言手搓GPT-2，Karpathy回应网友质疑

Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 语言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅需要单个文件中的大约 1000 行干净代码（clean code），可以立即编

神经网络debug太难了，这里有六个实用技巧

神经网络的 debug 过程着实不容易，这里是一些有所帮助的 tips。