多模态AI的“识字困境”，暴露了全感知时代的真实短板

发表于2026 年 2 月 21 日2026 年 2 月 21 日作者 aleng

当我们还在为GPT-4o、Gemini这类全模态模型的跨感官能力惊叹时，大连理工与南洋理工的联合研究，给热闹的多模态赛道泼了一盆冷水。这项发表在arXiv的研究显示，那些在纯文本任务中表现顶尖的视觉语言模型，面对图片里的文字时，竟会瞬间变成“认字困难户”，这种被称为“模态差距”的现象，戳中了当前多模态AI最核心的技术痛点。

推荐阅读

发表回复取消回复