Transformer
Transformer
自 2017 年问世以来,Transformer 几乎成了现代 AI 的通用底座,其核心机制分为两部分:Attention 负责在序列维度上选择信息,决定"看哪个词";残差连接则负责在深度维度上传递信息,把前面层的计算结果一路传下去。前者被反复研究和改进,后者却一直以最朴素的形态存在——每一层输出直接加到下一层输入,权重恒为 1,所有层不分主次,这种"平权"设计随着模型加深,代价越来越高,早期重要信息被后来的噪声稀释,整体效率持续下降。
这一架构的局限也催生了多条替代路径。Google 提出的 HOPE 架构用多频率连续记忆系统替换了 Attention,通过层级时钟机制让不同神经元以不同周期更新,显著减少灾难性遗忘;Mamba 等 State Space Models、Linear Attention 机制则试图通过更高效的状态压缩,弥补 Transformer 在长程状态管理上的先天不足——它缺乏可读写存储器,无法显式存储或更新中间推理状态。回头来看,GPT 的伟大之处或许不在架构本身,而在于 next-token-prediction 这个训练任务的定义。
由 AI 生成,可能出现错误,请仔细核对内容。
Transformer产品
Transformer
暂无关系图谱
在 11 篇文章中被提及
相关报道
谷歌探索“持续学习”新范式:Nested Learning,AI 学习的"永动机"来了吗? | 云启科技 π
AI 的“失忆症” 能被治好吗?
云启资本·打开“黑盒”,自研模型,聊聊AI创业与创作|五源小酒馆Vol.22 x 彩云科技袁行远
如何让AI创作出比肩三体的作品?
五源资本·终于有人,在做3D的虚拟女友了|WAVES
Love is all you need.
暗涌Waves·一名科学家试着成为更好的CEO |WAVES
再次创业。
暗涌Waves·Kimi 创始人杨植麟最新分享:关于 OpenAI o1 新范式的深度思考|Z Talk
大模型下半场,新范式开启?
真格基金·万字对谈 Scale AI 创始人 Alex Wang:为什么数据才是大模型的最大瓶颈,而非算力?|Z Talk
我们已经用尽了容易获取的所有数据。
真格基金·Thinking is a mechanical process, AI are going to do it|5Y View
与 Nat Friedman 和 Daniel Gross 推演人工智能的发展。
五源资本·天之杯:AI与游戏的根源之涡丨5Y View
任何足够先进的科技,都与魔法无异。
五源资本·下一代生产力工具来了!创业者如何拥抱AIGC热潮? | 榕汇对话
“每个创业者、开发者、创作者,都应该关注AIGC的进步”。
高榕创投·ChatGPT大热硅谷,但热闹是他们的
“一些人笑了,一些人哭了。绝大多数人都沉默不语。”
暗涌Waves·“一以贯之的努力,不得懈怠的人生” | 五源小酒馆Vol.9 x 彩云科技袁行远
AI让我们的生活更美好。
五源资本·










