按照传统看法,AI与大模型等涉及到的机器学习概念主要集中在“视觉”领域,经过不懈努力,现在已经拓展到听觉领域了。清华大学与火山语音团队合作,推出认知导向的开源听觉大模型SALMONN,名称源于Speech Audio Language Music Open Neural Network的首字母缩写。Demo链接:https://bytedance.github.io/SALMONN/ 如果仅以人的角度来看,视觉与听觉是既独立又配合的信息系统。但从电脑,大模型等涉及到AI的角度来说,从视觉到听觉的跨越绝非动动嘴或手指那般想象中的简单,其中的意义可以用美国登月先驱阿姆斯特朗的那句名言概括:“这是我个人的一小步,也是人类的一大步。” 与传统的语音输入或语音助手等不同,仅从名字上就不难发现,SALMONN对讲话、语音、音频、音乐等各类音频信号输入都具有感知和理解能力,相当于给大模型加上了耳朵,再以此为基础发展出多语言、跨模态推理等更复杂且高维的能力。具体说来,SALMONN的底层大模型是Vicuna 13B,即著名的“羊驼”,加一个基于Whisper Encoder的通用音频编码器,再来一个负责对齐音频和文本模态的融合器。在这套设施的配合下,SALMONN就对音频信息具有了直接感知能力。 而传统的音频处理手段较为繁琐,在接受到音频信号后先要通过API调用底层工具将音频转化为文字信息,再将文字信息输入大模型做后续处理。与之相比,SALMONN可以直接从现实世界获取知识,并在一些复杂场景中也有很好的理解和处理能力。而且由于训练数据全部基于文本指令,因此也可以说它拥有跨模态的交互能力。 官方发布的模型解析图 从目前的消息来看,SALMONN能够胜任多种多样的语音相关任务,同时又有多种在训练时没有专门学习过的多语言和跨模态能力,如不同语种的语音识别、英语到其他语言的翻译、对语音内容的摘要与提取关键词、通过音频生成故事、音频问答、语音和音频联合推理等任务。 根据官方团队的说法,SALMONN能处理的任务,依据从易到难的程度可以分为三类:1.训练中就学习过的任务,2.训练中没学过,但SALMONN能够基于文本输入完成的任务,3.训练中没学过,需要直接感知音频或视频的多模态大模型才能完成的任务。 如果仅看论文和demo很容易觉得SALMONN“不过如此”,但前面已经提到过,机器视觉与机器听觉属于两个领域,目前经常提到的AGI(通用人工智能)和机器学习等概念里,关于听觉的研究仍然以“语音助手”或类似的形式出现,比如十几年前就登上iPhone的Siri。虽然概念非常前沿,但机器听觉的发展却长期不如机器视觉那样迅速且高产,即使现在AGI,大模型等概念非常火热,但机器听觉似乎还是难以引人注目。 之所以会有如此窘境,主要是因为机器听觉与机器视觉的先天性差异,以及由此导致的一系列困难。过去曾介绍过,苹果的Siri已经算是质量很好的语音助手了,但依然经常被人嘲讽为“人工智障”。后来又有消息说苹果对Siri也有诸多不满,历次发布会里对它一直都很少提及,即使提到可能也只是“更智能”“更强大”之类的套话。之前马克·古尔曼爆料苹果在秘密开发Apple GPT时也说过,Siri部门长期陷于费力不讨好的泥沼中,苹果多年来一直想为Siri进行一次革命性更新,甚至是为此而单独规划生产线,专门出一款新产品,将Apple GPT与Siri集成到一起或许是一种好方法,能识别语音且能用语音控制的大模型,的确是比较酷的。 此次清华大学与火山语音合作推出的SALMONN可能就走在这样一条路上,也的确展示了全新的玩法,或许没多久就有更多类似的新产品问世了。 —- 编译者/作者:元宇宙与碳中和研 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
国产大模型新进展,光芒照进听觉领域
2023-08-24 元宇宙与碳中和研 来源:区块链网络
LOADING...
相关阅读:
- 联发科将运用 Meta 大模型 Llama 2 等建立完整的终端运算生态系统2023-08-24
- 科大讯飞:积极响应生成式 AI 规范应用要求,在图片等数字水印方面有2023-08-23
- 耗电又耗水,谁能拯救AI能耗之伤?2023-08-23
- AIGC 内容引擎与营销云核心平台“兔展智能”完成 D 轮及 D + 轮融资,总2023-08-23
- AI+SaaS,会是微盟们的新法器吗?2023-08-23