当前位置: 玩币族首页 > 币圈百科 > 加州大学研究人员开发视觉语言模型 BLIVA，以更好地处理包含文本的图像

加州大学研究人员开发视觉语言模型 BLIVA，以更好地处理包含文本的图像

2023-08-28 东寻来源：区块链网络

据站长之家 8 月 28 日报道，加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA，旨在更好地处理包含文本的图像。视觉语言模型（VLM）通过合并视觉理解功能来扩展大型语言模型 (LLM)，以回答有关图像的问题。

据悉，BLIVA 结合了两种互补的视觉嵌入类型：一种是 Salesforce InstructBLIP 提取的学习查询嵌入，用于关注与文本输入相关的图像区域；另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入，直接从完整图像的原始像素修补中获得。

原文链接

—-

编译者/作者：东寻

玩币族申明：玩币族作为开放的资讯翻译/分享平台，所提供的所有资讯仅代表作者个人观点，与玩币族平台立场无关，且不构成任何投资理财建议。文章版权归原作者所有。

知识 AIGC