LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 币圈百科 > 加州大学研究人员开发视觉语言模型 BLIVA,以更好地处理包含文本的图像

加州大学研究人员开发视觉语言模型 BLIVA,以更好地处理包含文本的图像

2023-08-28 东寻 来源:区块链网络

据站长之家 8 月 28 日报道,加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA,旨在更好地处理包含文本的图像。视觉语言模型(VLM)通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。

据悉,BLIVA 结合了两种互补的视觉嵌入类型:一种是 Salesforce InstructBLIP 提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。

原文链接

—-

编译者/作者:东寻

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

知识 AIGC
LOADING...
LOADING...