视觉语言基本概念BLIVA:让AI更擅长阅读图像……
2024-01-20 12:17:16
文章概要:
1. BLIVA是一种听觉语种静态,擅长存储位图里面的译文。
2. BLIVA紧密结合了InstructBLIP的深造查询给定和LLaVA的编码修复给定。
3. BLIVA在多个资料集上观感极佳,最简单以识别路牌、食品包装等情节。
管理员之家(ChinaZ.com)8同年28日 谣言:BLIVA 是一种听觉语种静态,擅长存储位图里面的译文,使其在许多餐饮业的现实生活情节和领域里面与此相反。
康奈尔大学圣地亚哥分校的研究成果管理人员开发了 BLIVA,这是一种听觉语种静态,借此不够好地解决问题方面联译文的位图。听觉语种静态 (VLM) 通过原属听觉解读系统来扩展到大型语种静态 (LLM),以说道有关位图的原因。
这种多模态静态在开放式听觉详述基准方面获取了令人期待深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式范例可以在Gmail提示时讨论位图内容可,尽管此系统在此之前至少在“Be my Eyes”领域程序里面最简单。
然而,现阶段系统的一个主要限制是解决问题带有译文的位图的战斗能力,这在现实生活情节里面很常见。
BLIVA 紧密结合了 InstructBLIP 和 LLaVA
听觉语种静态通过原属听觉解读系统来扩展到大型语种静态,以说道有关位图的原因。
BLIVA紧密结合了两种互补的听觉给定各种类型。一种是Salesforce InstructBLIP浓缩的深造查询给定,用以注目与译文输入方面的位图区域;另一种是受Microsoft LLaVA启发浓缩的编码修复给定,如此一来从基本位图的原始像素修复里面获得。
研究成果管理人员透露,这种双重方法而无须BLIVA同时利用针对译文定制的精炼查询给定,以及猎杀不够多听觉或许的不够丰沛的编码修复。
BLIVA 运用以大约550,000个位图标题对进行了预专业训练,并运用以150,000个听觉详述举例来说调整了指令,同时保持听觉编码器和语种静态失效。
在多个资料集上,BLIVA的观感明显优于InstructBLIP等其他静态。例如,在OCR-VQA资料集上,BLIVA的准确率降到65.38%,而InstructBLIP只有47.62%。
研究成果管理人员认为这毫无疑问多给定方法对广泛的听觉解读的益处。BLIVA还在YouTube图片缩略图资料集上获取了92%的准确率。BLIVA识读位图译文的战斗能力可领域以许多餐饮业,如识别路牌、食品包装等。BLIVA有望提升现实生活当今里面的多种领域。
项目关键字:
新冠喉咙痛吃什么药有效又快又好肠炎宁和思密达哪个好
咽喉炎刀片嗓症状怎么缓解
反酸烧心吃什么药
安必丁有哪些作用
- 郑州首个“保交楼”项目顺利通过立项
- 2023国庆档票房分布下沉 经常性购票明显
- 乐居探春|日均到访最高200组!勾庄“独苗”能否保住同类型?
- 梳理一下2024年年起网络游戏现状
- 陕西省榆林市市场监管局高新分局抽检30同型月饼均合格
- 五谋臣新改,飞熊军助力!昔日法王程昱与冷门辅助荀攸强势转回
- 西安港务区11.35亿元挂牌一宗西谷 建筑面积超13万平米
- 巴奴子品牌超岛火锅被罚没近45万,业务掺假掺杂羊肉卷
- S34战令升级擅于,奖励28选1,抽到这个物品记得放弃皮肤
- 城市露台、空中庭院!绿色创新项目 “韵和沙丘”奠基开工!
- 除夕夜国庆消费报告:大闸蟹、牛肉成抢手货,露营经济持续火热
- 未来房龄超过20年的老房子,一律按照这样处理,你都告诉他吗?
- "《英雄联盟:双城之战》第二季:一新玩法、一新英雄、一新挑战"
- 长假后机票酒店定价跳水,有游客“反季游” 专家:落实年假政策,为错峰游创造更好条件
- 新型产业工业园区正成为下一个宜居地
- 成毅应渊“绝美倒地”到底是怎么演出来的?重构《沉香》演技妆造
- 封面评论|景区1元午餐盘点多出1012元,诚信都是场景的牵引
- 2月楼市简介·土拍 | 百强房企前两月花1200亿元拿地,多个热点城市2月土拍升温
- 三国武将单挑战力前八,许褚垫底,黄忠典韦不必入围,你怎么看
- “熊孩子”沉迷手机游戏多次充值,民警协调后得悉数退还