据 IT 之家 9 月 9 日报道,英伟达近日宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175B),Llama Falcom(180B)和 Bloom 模型。 TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。 在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
英伟达发布 TensorRT-LLM,可将 H100 推理性能最高提升 8 倍
2023-09-10 东寻 来源:区块链网络
LOADING...
相关阅读:
- 蚂蚁集团副总裁王晓航:金融领域所有关键环节,都值得用大模型技术2023-09-10
- 蚂蚁集团 CTO:坚决投入大模型底层基础设施,蚂蚁基础大模型已具备万2023-09-10
- 2024年,韩政府预计将在人工智能和数字开发领域投入1.2万亿韩元2023-09-09
- 腾讯云联合信通院发布《行业大模型标准体系及能力架构研究报告》2023-09-08
- 英伟达与信实集团就在印度推进人工智能达成合作关系2023-09-08