据站长之家 9 月 19 日报道,北京交通大学等机构近日联合推出了新多模态大模型 MMICL。它支持文本、图像、视频三种模态的混合输入。 据悉,MMICL 在 MMBench 和 MME 两项多模态测评中均获得不俗的成绩,它采用 Flan-T5 XXL 作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的 MIC 数据集。这种训练方式让 MMICL 既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。目前,MMICL 已开源两个版本,分别基于 FlanT5XL 和 Vicuna 模型,可满足商用和科研需求。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
北京交通大学等机构推出多模态大模型 MMICL,支持文本图像视频输入
2023-09-19 东寻 来源:区块链网络
- 上一篇:百度发布“产业级”医疗大模型
- 下一篇:全链游戏中的“数字物理学”
LOADING...
相关阅读:
- 百度发布“产业级”医疗大模型2023-09-19
- 福建:支持新建 100P 以上人工智能算力项目申报列入省重点技改项目库2023-09-19
- 招聘人员警告:过度使用 AI 工具撰写简历可能阻碍求职成功2023-09-19
- Meta AI 提出新码本模式 Stack-and-Delay,提高音乐生成模型速度2023-09-19
- 火山引擎数智平台发布 AI 助手2023-09-19