您当前的位置：首页 >> 潮流饰家

视觉语言基本概念BLIVA：让AI更擅长阅读图像……

2024-01-20 12:17:16

文章概要:

1. BLIVA是一种听觉语种静态，擅长存储位图里面的译文。

2. BLIVA紧密结合了InstructBLIP的深造查询给定和LLaVA的编码修复给定。

3. BLIVA在多个资料集上观感极佳，最简单以识别路牌、食品包装等情节。

管理员之家（ChinaZ.com）8同年28日谣言:BLIVA 是一种听觉语种静态，擅长存储位图里面的译文，使其在许多餐饮业的现实生活情节和领域里面与此相反。

康奈尔大学圣地亚哥分校的研究成果管理人员开发了 BLIVA，这是一种听觉语种静态，借此不够好地解决问题方面联译文的位图。听觉语种静态（VLM）通过原属听觉解读系统来扩展到大型语种静态 (LLM)，以说道有关位图的原因。

这种多模态静态在开放式听觉详述基准方面获取了令人期待深刻的进展。一个例子是 OpenAI 的GPT-4，它的多模式范例可以在Gmail提示时讨论位图内容可，尽管此系统在此之前至少在“Be my Eyes”领域程序里面最简单。

然而，现阶段系统的一个主要限制是解决问题带有译文的位图的战斗能力，这在现实生活情节里面很常见。

BLIVA 紧密结合了 InstructBLIP 和 LLaVA

听觉语种静态通过原属听觉解读系统来扩展到大型语种静态，以说道有关位图的原因。

BLIVA紧密结合了两种互补的听觉给定各种类型。一种是Salesforce InstructBLIP浓缩的深造查询给定，用以注目与译文输入方面的位图区域;另一种是受Microsoft LLaVA启发浓缩的编码修复给定，如此一来从基本位图的原始像素修复里面获得。

研究成果管理人员透露，这种双重方法而无须BLIVA同时利用针对译文定制的精炼查询给定，以及猎杀不够多听觉或许的不够丰沛的编码修复。

BLIVA 运用以大约550，000个位图标题对进行了预专业训练，并运用以150，000个听觉详述举例来说调整了指令，同时保持听觉编码器和语种静态失效。

在多个资料集上，BLIVA的观感明显优于InstructBLIP等其他静态。例如，在OCR-VQA资料集上，BLIVA的准确率降到65.38%，而InstructBLIP只有47.62%。

研究成果管理人员认为这毫无疑问多给定方法对广泛的听觉解读的益处。BLIVA还在YouTube图片缩略图资料集上获取了92%的准确率。BLIVA识读位图译文的战斗能力可领域以许多餐饮业，如识别路牌、食品包装等。BLIVA有望提升现实生活当今里面的多种领域。

项目关键字:

标签：视觉语言图像概念