据量子位报道,来自微软亚洲研究院(MSRA)的学者在“Retentive Network: A Successor to Transformer for Large Language Models”论文中提出新的大模型架构 Retentive Network(RetNet),这被视作大模型领域 Transformer 的继任者。实验数据显示,在语言建模任务上:RetNet 可以达到与 Transformer 相当的困惑度(perplexity),推理速度达 8.4 倍,内存占用减少 70%,具有良好的扩展性。并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。 原文链接 —- 编译者/作者:邱祥宇 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
微软亚洲研究院提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少
2023-07-18 邱祥宇 来源:区块链网络
LOADING...
相关阅读:
- AI 芯片公司壁仞科技寻求 2023 年在香港 IPO2023-07-18
- 图灵奖得主瑟夫?希发基思:AI 会带来的最大威胁是使人类变成“奴隶的2023-07-18
- 700 亿 AI 龙头浪潮信息突发换帅,或与中国工程院相关规定有关2023-07-18
- 万联证券:建议把握 AI 产业变革和数字中国建设双主线机遇2023-07-18
- 山东能源集团、华为和云鼎科技联合发布盘古矿山大模型,用于能源行2023-07-18