当我们还在为GPT-4o、Gemini这类全模态模型的跨感官能力惊叹时,大连理工与南洋理工的联合研究,给热闹的多模态赛道泼了一盆冷水。这项发表在arXiv的研究显示,那些在纯文本任务中表现顶尖的视觉语言模型,面对图片里的文字时,竟会瞬间变成“认字困难户”,这种被称为“模态差距”的现象,戳中了当前多模态AI最核心的技术痛点。
坚守中文独立博客、自媒体20年
当我们还在为GPT-4o、Gemini这类全模态模型的跨感官能力惊叹时,大连理工与南洋理工的联合研究,给热闹的多模态赛道泼了一盆冷水。这项发表在arXiv的研究显示,那些在纯文本任务中表现顶尖的视觉语言模型,面对图片里的文字时,竟会瞬间变成“认字困难户”,这种被称为“模态差距”的现象,戳中了当前多模态AI最核心的技术痛点。