视觉语言模型是可以同时从图像和文本中学习的多模态模型,其属于生成模型,输入为图像和文本,输出为文本。大视觉语言模型具有良好的零样本能力,泛化能力良好,并且可以处理包括文档、网页等在内的多种类型的图像。其拥有广泛的应用,包括基于图像的聊天、根据指令的图像识别、视觉问答、文档理解、图像描述等。一些视觉语言模型还可以捕获图像中的空间信息,当提示要求其检测或分割特定目标时,这些模型可以输出边界框或分割掩模,有些模型还可以定位不同的目标或回答其相对或绝对位置相关的问题。现有的大视觉语言模型在训练数据、图像编码方式等方面采用的方法很多样,因而其能力差异也很大。