据站长之家 8 月 18 日报道,字节推出了一种新大模型 BuboGPT。BuboGPT 是一种先进的大型语言模型(LLM),能够将文本、图像和音频等多模态输入进行整合,并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。 通过文字描述、图像定位和声音定位,BuboGPT 可以准确判断声音来源,即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系。研究人员表示,相比其他多模态大模型,BuboGPT 利用文本与其他模态之间的丰富信息和明确对应关系,提供了对视觉对象及给定模态的细粒度理解。研究人员还展示了 BuboGPT 在图像描述、声音来源识别等方面的能力,并开源了代码和数据集,发布了可玩的 demo。 原文链接 —- 编译者/作者:东寻 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
字节大模型 BuboGPT 已开源,并已发布可玩的 demo
2023-08-18 东寻 来源:区块链网络
LOADING...
相关阅读:
- 宁夏:做大智算规模,鼓励超算、智算中心采用国产自主可控的软硬件2023-08-18
- B站的AIGC梦,走到哪一步了?2023-08-18
- 知乎持股大模型公司申请 AI 商标2023-08-18
- 字节跳动就 AI 对话产品“豆包”上线回应:仍是小范围邀请制测试,存2023-08-18
- 英伟达 H100 GPU 售价为成本的近 10 倍2023-08-18