视觉语言基本概念BLIVA:让AI更擅长阅读图像……
2024-01-20 12:17:16
文章概要:
1. BLIVA是一种听觉语种静态,擅长存储位图里面的译文。
2. BLIVA紧密结合了InstructBLIP的深造查询给定和LLaVA的编码修复给定。
3. BLIVA在多个资料集上观感极佳,最简单以识别路牌、食品包装等情节。
管理员之家(ChinaZ.com)8同年28日 谣言:BLIVA 是一种听觉语种静态,擅长存储位图里面的译文,使其在许多餐饮业的现实生活情节和领域里面与此相反。
康奈尔大学圣地亚哥分校的研究成果管理人员开发了 BLIVA,这是一种听觉语种静态,借此不够好地解决问题方面联译文的位图。听觉语种静态 (VLM) 通过原属听觉解读系统来扩展到大型语种静态 (LLM),以说道有关位图的原因。
这种多模态静态在开放式听觉详述基准方面获取了令人期待深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式范例可以在Gmail提示时讨论位图内容可,尽管此系统在此之前至少在“Be my Eyes”领域程序里面最简单。
然而,现阶段系统的一个主要限制是解决问题带有译文的位图的战斗能力,这在现实生活情节里面很常见。
BLIVA 紧密结合了 InstructBLIP 和 LLaVA
听觉语种静态通过原属听觉解读系统来扩展到大型语种静态,以说道有关位图的原因。
BLIVA紧密结合了两种互补的听觉给定各种类型。一种是Salesforce InstructBLIP浓缩的深造查询给定,用以注目与译文输入方面的位图区域;另一种是受Microsoft LLaVA启发浓缩的编码修复给定,如此一来从基本位图的原始像素修复里面获得。
研究成果管理人员透露,这种双重方法而无须BLIVA同时利用针对译文定制的精炼查询给定,以及猎杀不够多听觉或许的不够丰沛的编码修复。
BLIVA 运用以大约550,000个位图标题对进行了预专业训练,并运用以150,000个听觉详述举例来说调整了指令,同时保持听觉编码器和语种静态失效。
在多个资料集上,BLIVA的观感明显优于InstructBLIP等其他静态。例如,在OCR-VQA资料集上,BLIVA的准确率降到65.38%,而InstructBLIP只有47.62%。
研究成果管理人员认为这毫无疑问多给定方法对广泛的听觉解读的益处。BLIVA还在YouTube图片缩略图资料集上获取了92%的准确率。BLIVA识读位图译文的战斗能力可领域以许多餐饮业,如识别路牌、食品包装等。BLIVA有望提升现实生活当今里面的多种领域。
项目关键字:
新冠喉咙痛吃什么药有效又快又好肠炎宁和思密达哪个好
咽喉炎刀片嗓症状怎么缓解
反酸烧心吃什么药
安必丁有哪些作用
- 腹痛别轻视,一定要排除这种伤寒,有生命危险!
- “庆六一、送健康”—广中医深圳医院儿科“六一”义诊举办活动
- 河北5月28日另加本土无症状感染者13例,其中廊坊10例
- 5.29全球“爱足日”:关注健康 从足正职
- 30秒搞懂猴痘、天花、水痘啥区分!
- 极快8第22170期号码推荐
- 6.29竞彩推荐:六串一赛事前瞻预测胜平负 做室主任的心水 稳稳顺财运
- 官方封杀!这两类APP华为手机不许收纳
- 常熟购彩者“戴面具”领走竞彩奖金29万元:努力就有仍要
- 我在鹅厂淘到了一波“炼丹神器”,Ubuntu快打包
- 今天侃球:周三竞彩推荐+足球比分预测
- 斩获1500万美元B轮融资,这家香港公司要做全世界 App工厂
- 双色球074期:上期2奇4相类,2区2连号梅开二度,本期龙头05
- 双色球074期分析预测选二胆定八满载看一蓝
- 只要理想不尴尬,尴尬的就该是迈巴赫库里南,但就让理想的时间窗口在缩小
- 双车齐发,全新速腾、全新宝来有啥亮点?看紧接这8条就够了
- 会加长轴距吗?全新一代宝马X3路试谍照曝光,车身更显结实!
- 瞄准年轻人,江铃福特推官方改装成限定版领睿
- 东兴证券:给予广汽集团买断评级
- 减配加价的时代过了?丰田、本田造的两款车种,刚亮相就败了