据 IT 之家 7 月 13 日报道,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。 外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。 据悉,GPT-4 使用了 16 个混合专家模型(mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。 GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。 对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
2023-07-13 东寻 来源:区块链网络
LOADING...
相关阅读:
- 麻省理工学院开发 FrameDiff 工具,利用 AI 设计蛋白质结构助力医疗发展2023-07-13
- 荣耀赵明:折叠屏、端侧 AI 大模型是未来的创新方向2023-07-13
- GPU 紧缺持续发酵:英伟达 A800 一周涨价超 30%2023-07-13
- 马斯克:已经提倡对人工智能进行监督和监管2023-07-13
- 巴比特 | 元宇宙每日必读:90%以上的短剧剧本可以由AI生成?“AI莎士比2023-07-13