太突然!IPO紧要关头,Karpathy加入Anthropic_
刚刚,AI 大神 Andrej Karpathy 在 X 上宣布他加入了 Anthropic。
这位大模型领域的知名领袖,一举一动都牵动着AI圈网友们的心。连 Claude Code 之父都表示很兴奋。
加入 OpenAI 后的几天前,OpenClaw 之父爆出:一个月烧掉130万美元。
很多网友包括小编的第一反应都是:Karpathy 可以公款烧 Tokens 了!
在 OpenAI 和 Anthropic 都在筹备 IPO 的紧要关头,Karpathy 选择了重返一线,加入 Anthropic,对 Anthropic 是一次“技术、人才、资本”三重维度的战略性胜利;而对 OpenAI,这无异于在其 IPO 的关键时刻,被对手精准地打中人才流失与研发能力的软肋。
一个在 OpenAI、Tesla、学术界和创业圈来回穿梭的人,他的影响力真的很大。
Karpathy 的履历
Andrej Karpathy 本科就读于多伦多大学,硕士在不列颠哥伦比亚大学完成。两段经历让他打下了扎实的数学和计算机基础。
2011年,他进入斯坦福大学攻读博士,师从李飞飞(Fei-Fei Li),研究方向是卷积神经网络和循环神经网络在计算机视觉、自然语言处理以及两者交叉领域的应用。
读博期间,他和李飞飞一起设计了斯坦福课程 CS231n(Convolutional Neural Networks for Visual Recognition,卷积神经网络视觉识别),并担任主讲。
这门课后来成为全球深度学习入门的标杆,视频播放量数以百万计,影响了整整一代 AI 从业者。
Karpathy 在博士期间的研究还涉及图像生成(PixelCNN++)和深度强化学习,这种跨领域的视野成为他后来职业路径的底色。
2015年底,Karpathy 作为创始成员加入 OpenAI,担任研究科学家,专注深度学习和生成模型。
当时 OpenAI 刚刚成立,他是最早一批员工之一,见证了这家实验室从零起步的全过程。
2017年,Elon Musk 亲自把他从 OpenAI 挖到 Tesla,出任 AI 高级总监,领导 Autopilot 团队的计算机视觉工作。
在 Tesla 的五年里,他负责所有神经网络相关的研发,把 Autopilot 从一个实验性项目推进到量产级别。那段时间,Tesla 的纯视觉自动驾驶方案引发了整个行业的争论,Karpathy 是这套方案最坚定的技术推动者之一。
2022年7月,他离开了 Tesla,当时报道说是一段长期休假后的决定。
2023年2月,Karpathy 回归 OpenAI,参与中间训练和合成数据方面的工作。这段回归持续了一年,2024年2月他再次离开。
同年7月,他创办了 Eureka Labs,一家 AI 原生教育公司,首个产品是 AI 课程。
2025年初,他在 X 上提出了 vibe coding(氛围编程)这个概念,用来描述一种新的编程范式:开发者用自然语言描述意图,AI 生成大部分代码。
这个词迅速出圈,成为 2025 年最热的 AI 术语。
2026年5月19日,Karpathy 宣布加入 Anthropic,加入 Nick Joseph 领导的预训练团队,负责组建一支新队伍,用 Claude 自身来加速预训练研究。
他在官宣中特别提到,“LLM 的前沿将会特别具有塑造性”。Meta 离职的田渊栋创业团队,目标也是 AI 加速 AI 研究,这已经是各路 AI 大神挤破脑袋都想参与的前沿阵地。
Karpathy 入选过 TIME 2024年 AI 领域最具影响力100人,他大概是 AI 圈里同时拥有顶级学术声誉、工业落地经验和大众影响力的少数人之一。
他的开源项目,每一个都引起巨大反响。用最少的代码,讲最深的道理。没有花里胡哨的架构,没有一堆依赖,核心逻辑经常就几百行,但每一个都值得反复看。
花 100 美元就能从头训练一个自己的 ChatGPT 的 nanochat。
让 AI Agents 自动帮你做研究,自己跑实验的工具 autoresearch
让多个大模型开会辩论给你高质量答案的 llm-council。
给全美国 342 种职业打分 jobs。
越用越聪明的个人知识库 llm-wiki.md。这个项目已然成了社区 AI 知识管理工具的生态孵化器。
让 Karpathy 放下热情的 LLM 前沿
Karpathy 在官宣里表示对教育事业充满热情,并在适时的时候重启。什么让他放下了热情?
他用了 formative 这个词,意思是正在成型的、塑造性的。
2025年到2026年,LLM 的技术范式正在经历一次深刻转变,好几条技术路线同时到了拐点,这种窗口期在技术史上并不常见。
2025年之前,LLM 的竞争主轴是参数规模和预训练数据量,谁模型大、谁数据多,谁就占优。
GPT-4、Claude 3、Gemini 这些模型在参数和预训练上你追我赶。
但2025年风向变了,前沿模型开始比拼推理能力,也就是模型规划、自我检查、纠错的能力。
OpenAI 的 o1、o3 系列,DeepSeek 的 R1,都采用了 RLVR(Reinforcement Learning from Verifiable Rewards,可验证奖励的强化学习)和 GRPO(Group Relative Policy Optimization,组相对策略优化)等技术,把推理能力的提升从预训练阶段延伸到了推理阶段。
这引出了一个关键变化:test-time compute scaling(推理时计算缩放)。
过去提升模型能力主要靠训练时投入更多算力,现在可以在推理时让模型多想几步、多试几次,用更多推理时间换更高准确率。
链式思考、自我反思、ReAct 等技术让模型在推理时动态分配计算资源。NVIDIA 的 Jensen Huang 在 CES 2025 上专门讲过这个趋势。
以前模型的能力在训练完成那一刻就定型了,现在模型在推理时还能继续成长。这种范式的转变,对算力分配、产品架构、甚至商业模式都有深远影响。
Sebastian Raschka 在他的 2025 LLM 年度总结里有一句话:2025 是推理之年,2026 将是编排之年。
模型本身正在趋于同质化,真正的差异化在于如何编排和调度多个模型、多个 Agent 协同工作。
Agentic AI(智能体 AI)正在从概念走向产品,模型不再只是回答问题,而是规划、执行、反思、纠错。
scaling laws(缩放定律)演化出新思路。
过去人们对缩放定律的理解是参数越多、数据越多、训练算力越多,效果越好。
但研究者开始发现,预训练的缩放定律有天花板,数据质量、合成数据、推理时计算这些新维度正在重新定义缩放。
2025年末到2026年初,学术界和工业界都在重新审视缩放定律的适用边界,数据墙的问题越来越突出。高质量人类生成数据的供给是有限的,合成数据能多大程度替代,目前还没有定论。
Karpathy 选在此时回归研发一线,加入 Anthropic 的预训练团队,用 Claude 来加速预训练本身,这是一个带有元计算色彩的方向:用 AI 来训练 AI。
预训练是大模型的地基,地基怎么打决定了上层建筑能盖多高。
在推理能力、编排能力、智能体能力快速迭代的窗口期,预训练方法的改进会产生放大效应。
这正是 formative 的含义:未来几年的关键决策和技术选择,会定义接下来十年 LLM 的基本形态。
Anthropic 里的 OpenAI 老将
Anthropic 从诞生那天起,就和 OpenAI 有着剪不断的渊源。可以说 Anthropic 的诞生本身就是一次从 OpenAI 的人才出走。
2021年,Dario Amodei 和 Daniela Amodei 兄妹带着大约15名前 OpenAI 员工出走,创立了 Anthropic。
Dario 此前是 OpenAI 的研究副总裁,2016年7月加入 OpenAI 后很快成为塑造其研究方向的关键人物,和 Ilya Sutskever 并列为技术核心。
Daniela 是运营副总裁,负责 OpenAI 的商业化运营。
他们对 OpenAI 的安全文化和商业化方向不满,想建一家更注重 AI 安全的公司。纽约时报2026年2月的报道详细描述了这段出走的故事,称这群人因为共同的安全理念而走到一起。
Anthropic 的七位公开联合创始人,清一色是前 OpenAI 人:Dario Amodei、Daniela Amodei、Tom Brown、Jared Kaplan、Sam McCandlish、Jack Clark、Chris Olah。
其中 Tom Brown 是 GPT-3 论文的第一作者,GPT-3 是大语言模型时代真正意义上的起点。
Jared Kaplan 在缩放定律方面有奠基性贡献,他关于神经网络缩放定律的研究为后来的 GPT-4、Claude 等模型提供了理论框架。
Chris Olah 是可解释性研究的先锋人物,他关于注意力可视化和特征解耦的工作在学术界有广泛影响。
Sam McCandlish 和 Jack Clark 则分别在工程和战略层面为 Anthropic 奠定了基础。
后来加入的重量级 OpenAI 人还包括:
Nicholas Joseph,Anthropic 预训练团队负责人,Karpathy 的直接上级。他在 OpenAI 时就负责大规模训练工作。
Holden Karnofsky,Anthropic 技术团队成员,专注 AI 安全。他曾与多位联合创始人同住一个屋檐下,这种紧密的社交网络是 Anthropic 早期凝聚力的重要来源。
Jan Leike,2024年从 OpenAI 离职后加入 Anthropic,担任对齐科学联席负责人。在 OpenAI 时,他和 Ilya Sutskever 共同领导超级对齐团队,离职时公开批评 OpenAI 的安全文化已经让位于产品发布。
William Saunders,同样来自 OpenAI 超级对齐团队,2024年辞职后加入 Anthropic 对齐科学部门。
Evan Hubinger,Anthropic 核心研究员,同样有 OpenAI 背景。
John Schulman,OpenAI 联合创始人之一,2024年8月宣布加入 Anthropic,但只待了约五个月就转投了 Mira Murati 的 Thinking Machines Lab。
从 OpenAI 流向 Anthropic 的核心人员超过15人,涵盖了领导层、预训练、对齐安全、可解释性等关键方向。
可以说 Anthropic 的技术基因,很大程度上就来自 OpenAI。这也是为什么 Karpathy 选中 Anthropic 并不意外:这里有他最熟悉的语言和最认同的人。
Anthropic 与 Karpathy 的双赢
Anthropic 在 AI 人才争夺战中已经跑赢了 Meta 和 OpenAI。
有分析者指出,Karpathy 选择 Anthropic 而非 xAI 或 OpenAI,是一个重要的方向性信号,表明他对 Anthropic 的安全理念和技术路线有更高的认同。
再看 Anthropic 的资金实力。2026年2月,Anthropic 完成300亿美元 G 轮融资,估值3800亿美元。Google 承诺投资高达400亿美元,Amazon 也是大股东。
有报道称 Anthropic 的估值在2026年5月已经冲到9000亿美元级别。充足的弹药加上顶尖人才,Anthropic 已成为 OpenAI 最有竞争力的 AI 实验室。
对 Karpathy 而言,这次回归研发一线是一个务实的决定。
过去两年他在 Eureka Labs 做教育,但他的核心能力一直在大模型研发。他在 OpenAI 的第二段经历就参与了中间训练和合成数据工作,这些经验和 Anthropic 预训练团队的需求高度匹配。
用 Claude 来加速预训练研究本身,这个思路很 Karpathy:他一直在思考 AI 如何改变 AI 的开发方式。
2017年他写下了 Software 2.0 那篇著名文章,提出神经网络正在取代传统代码成为软件的核心。
2025年他又提出了 Software 3.0 的概念,认为提示词正在成为新的编程语言,LLM 是新的计算机。从 Software 2.0 到 Software 3.0,再到 vibe coding,再到用 AI 训练 AI,他始终站在软件开发范式变迁的最前沿。
当最懂大模型训练的那批人聚集到同一个地方,那里的技术迭代速度会更快,安全研究的深度也会更深。
Karpathy 加入 Anthropic,或将改变 AI 的竞争格局。
参考资料:
https://x.com/karpathy/status/2056753169888334312
https://www.cnbc.com/2026/05/19/anthropic-hires-openai-cofounder-andrej-karpathy-former-tesla-ai-lead.html
https://www.axios.com/2026/05/19/anthropic-openai-karpathy-andrej-claude
https://www.forbes.com/sites/aliciapark/2026/05/19/openai-cofounder-and-former-tesla-ai-leader-andrej-karpathy-joins-anthropic
https://www.reuters.com/business/autos-transportation/former-tesla-ai-executive-openai-founding-member-andrej-karpathy-joins-anthropic-2026-05-19