多模态AI的“识字困境”,暴露了全感知时代的真实短板

当我们还在为GPT-4o、Gemini这类全模态模型的跨感官能力惊叹时,大连理工与南洋理工的联合研究,给热闹的多模态赛道泼了一盆冷水。这项发表在arXiv的研究显示,那些在纯文本任务中表现顶尖的视觉语言模型,面对图片里的文字时,竟会瞬间变成“认字困难户”,这种被称为“模态差距”的现象,戳中了当前多模态AI最核心的技术痛点。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注