据机器之心报道,上海交通大学 APEX 实验室推出了 CodeApex,一个专注于评估 LLMs 的编程理解和代码生成能力的双语基准数据集。 在评估大语言模型的编程理解能力上,CodeApex 设计了三种类型的选择题:概念理解、常识推理和多跳推理。此外,CodeApex 也利用算法问题和相应的测试用例来评估 LLMs 的代码生成能力。CodeApex 总共评估了 14 个大语言模型在代码任务上的能力。其中 GPT3.5-turbo 表现出最好的编程能力,在这两个任务上分别实现了大约 50% 和 56% 的精度。可以看到,大语言模型在编程任务上仍有很大的改进空间。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
上海交大发布大模型双语编程评估基准 CodeApex
2023-09-05 东寻 来源:区块链网络
- 上一篇:高通胀之下土耳其成为了加密货币投资热土
- 下一篇:通过流动性池跟踪市场情绪
LOADING...
相关阅读:
- 魔搭社区推出适配开源大语言模型的 AI Agent 开发框架 ModelScope-Agent2023-09-05
- 疯狂小杨哥在合肥成立网络技术公司,含 AI 系统集成服务2023-09-05
- Epic Games Store 将接受 AI 生成游戏内容2023-09-05
- 李彦宏:创业者卷大模型没意义,卷应用机会更大2023-09-05
- 李彦宏:将在不久后推出文心大模型 4.0 版本2023-09-05