弗吉尼亚一纸禁令,让大模型失去最便宜的燃料

七月二日的弗吉尼亚州议会,没有上演任何戏剧性的场面。一份关于禁止地理位置数据销售的法案悄然落地,却在全球AI产业圈激起了一场沉默的地震。这是美国第一份在州一级把位置数据列为禁售品的立法,它没有点名任何一家公司,却精准地切断了大模型训练中最隐蔽、成本最低、规模最大的一根数据动脉。

过去几年,位置数据之所以成为AI训练中的“灰色黄金”,原因并不复杂。用户在打车、订餐、签到、跑步、扫码的瞬间,背后都有一个看不见的交易所,在毫秒之内把经纬度打包卖给数据中间商。这些中间商再把数据喂给广告平台、零售选址、保险精算,最后流到那些号称要“理解人类行为”的大模型训练管道里。整个链条不违法、不可见,也几乎不可追溯。

从技术角度看,地理位置数据是大模型学习“人类活动节律”的最高效样本。一个人周一早上从家到公司的轨迹,比一万条社交媒体文本更能说明“通勤”这个概念;一家便利店在周末下午的人流密度,比任何问卷都更接近“消费意图”的真实分布。位置数据让模型学会了时间和空间,让算法拥有了“在哪里”和“去往何处”这两种人类最基础的生活直觉。

弗吉尼亚州的立法,把这种“最自然的数据来源”第一次推到了阳光下。法案不仅要求出售位置数据必须获得用户明确同意,还赋予消费者随时撤回授权、要求删除、追溯去向的权利。这等于在数据交易市场上,给所有买方凭空增加了一道合规护城河,而大模型训练机构正好站在护城河的另一侧。

看上去,硅谷应该紧张。但仔细看就会发现,这一刀切得很温柔。法案设有十八个月的缓冲期,覆盖范围只针对“持续性追踪”和“批量销售”两类场景,对聚合匿名化后的统计数据开了一道口子。换句话说,模型厂商只要把原始轨迹切成时段切片,再打上噪声扰动,依然能买到合规的“位置统计”产品,只不过每条数据的价格要翻上几倍。

真正该紧张的,不是头部大厂,而是那些依赖开源位置数据集做微调的小型团队。一个五人小公司原本花两千美元就能买到一百万条带标签的轨迹样本,如今要么付出十倍的代价,要么彻底放弃这一类特征工程。开源社区里流传多年的位置数据集,开始面临下架潮,Hugging Face上多个热门地理数据集的维护者已经在讨论删除时间表。

这背后其实是一场关于“训练数据所有权”的世纪谈判。文本数据有版权法托底,图像数据有肖像权兜底,而位置数据长期处在法律真空。直到弗吉尼亚州动手,整条产业链才发现,他们其实是在一片没有地契的土地上盖了十年的房子。法案一落地,地契才被翻出来,原来这块地从来就不属于他们。

更耐人寻味的是联邦层面的沉默。白宫去年还在为AI安全管制争论不休,对位置数据的州级立法却迟迟没有表态。这种沉默不是疏忽,而是刻意。联邦政府明白,AI监管一旦从“模型输出”前移到“训练输入”,就会直接撞上宪法第一修正案关于“信息自由流动”的边界。州一级反而成了最灵活的试验田,弗吉尼亚打响了第一枪,加州、华盛顿、纽约的类似法案正在排队上议程。

从产业角度看,这件事的影响将沿着三条线索展开。第一条线索是数据成本,被迫抬升的位置数据采购价会进一步压缩中小模型团队的生存空间,行业集中度继续上升。第二条线索是技术路径,“隐私计算”和“合成数据”将从可选项变成必选项,差分隐私、同态加密、联邦学习这些过去叫好不叫座的技术,会第一次被写进采购合同。第三条线索是地缘格局,欧盟已经在GDPR基础上推出AI法案,美国州一级的连锁反应会让大模型训练在全球分裂出多个不同的“数据辖区”。

弗吉尼亚这一刀,未必能立刻让AI变得更安全,但它让整个产业第一次正视了一个被刻意回避的问题:所谓“理解人类”的大模型,究竟是用什么代价换来的训练数据?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注