个人随笔 还在卷长文本?谷歌最新论文直接把文本干到…无限长了 最近一段时间,有关长文本能力的探讨被摆到了台面上,而就在人们比拼上下文窗口时,谷歌发布了一篇论文,谈到团队发明了一种新的注意力技术,这项技术可以让transformer大模型在有限的计算资源条件下处理无限长度的输入。 硅星人 Transformer谷歌长文本
AI人工智能 马斯克的Grok-1为什么不采用经典Transformer? 前段时间,马斯克开源了大模型Grok-1的源代码。开源本来是件好事,不过很多人发现Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架构。这是为什么呢?本文尝试解答一下此类问题。 黄锐 Grok-1Transformer马斯克
AI人工智能 Transformer神经网络:GPT等AI大模型的基石 Transformer模型基于自注意力机制,摒弃了传统的RNN和CNN结构,在自然语言处理任务中取得了显著的成果,一定程度上是GPT的重要基石。这篇文章里,作者就对Transformer神经网络做了解读,一起来看一下。 AI小当家 GPTTransformer大模型
AI人工智能 AI基金年终盘点 | 一文看懂2024年AI趋势 时间跨入2024,在这一年,AI行业可能会迎来怎样的发展趋势?这篇文章里,作者结合机构们发布的报告与预测做了整理,一起来看看,或许可以帮你获得更多AI前瞻视野。 硅兔赛跑 A16ZAI趋势Transformer
AI人工智能 大模型套壳祛魅:质疑套壳,理解套壳 有关“套壳”的争论一直没有停止,那么,当我们在谈论套壳的时候,到底在谈论什么?怎么厘清大模型套壳的逻辑?这篇文章里,作者结合访谈与论文,尝试阐述哪些步骤、哪些环节存在套壳的空间。 甲子光年 GPTTransformer大模型
AI人工智能 Transformer能解释一切吗? Transformer的高内存消耗和高推理成本的局限性开始显现出来,替代者跃跃欲试。本篇文章详细利用各种数据介绍了Transformer的替代者以及各种理论知识,推荐想了解人工智能的同学阅读。 硅星人 3年Transformer中级