据站长之家 8 月 28 日报道,加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA,旨在更好地处理包含文本的图像。视觉语言模型(VLM)通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。 据悉,BLIVA 结合了两种互补的视觉嵌入类型:一种是 Salesforce InstructBLIP 提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
加州大学研究人员开发视觉语言模型 BLIVA,以更好地处理包含文本的图像
2023-08-28 东寻 来源:区块链网络
LOADING...
相关阅读:
- 裸眼3D、AI拍机、AR伴游等技术服务即将上线,游客可数字化体验亚运魅2023-08-27
- 新希望集团董事长刘永好:传统制造企业没有必要做大模型训练,但一2023-08-27
- 研究:使用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-42023-08-27
- AI 网站 Bored Humans 提供 100 多款主流 AI 工具的免费平替版本2023-08-27
- 亚马逊 Prime 使用 AI 生成的图像制作《辐射》电视节目广告2023-08-26