在数据融合方面,来自不同模态的数据在模型内部被有效地融合,这样可以更好地理解数据间的关联和相互作用。而对于单个模型拼接,不同模态的处理通常是独立进行的,然后在某个阶段再把数据融合到一起。这种做法相对来说会使不同模态之间的
信息融合不够紧密,协调性较差

体现在模型能力上,原生多模态模型可以在整个模型中共享特征和学习策略,有助于捕获跨模态特征间的复杂关系。所以它们通常在
执行跨模态任务时表现更好,例如图文匹配、视觉问答或多模态翻译。

但这是整体来说的,具体原生设计并训练的模型是否能产生一个在每个领域都具有强大能力的模型也是一个很难确定的问题。