财联社 7 月 5 日讯(编辑 马兰)OpenAI 和微软此前被一些匿名人士集体起诉,称其用了互联网上大量的公共数据来进行人工智能的训练,并以此牟私利。
这一事件中,关于用户发表在互联网上的信息是否属于受保护的版权成为争议重点。诸如维基百科、社交媒体、博客等数百万条评论变成棘手的难题,用户可能不在乎自己的文字在互联网上二次传播,但可能不愿拿来作为某个公司 AI 模型的 " 课本 "。
或许是受到竞争对手的启发,谷歌选择先行堵上这一漏洞。
(资料图)
7 月 1 日,谷歌更新了其隐私政策,现在的政策中明确谷歌有权收集任何公开可用的数据,并将其用于其人工智能模型的培训。
也就是说,谷歌已经向其所有用户表明,只要是谷歌能从公开渠道获得的内容,它都可以拿来训练自己的 Bard 模型或未来的一切人工智能。用户或许不知道隐私政策,但只要继续使用谷歌的服务,按照这个政策来看,就是默认自己的信息可以被用来训练谷歌 AI 模型。
很难评价谷歌的这一做法是否恰当,因为事实上,像谷歌这样的大型搜索引擎服务商在收集公共信息或数据上几乎没有任何限制。其每天抓取数十亿个公共网页,以索引到其庞大的数据库中,这是 OpenAI 和微软都没有的优势。
然而,法律上讲,由于对 AI 的监管还处于非常初步的探讨阶段,人们很难厘清公共数据被用于私人模型是否存在法律障碍。
不过,谷歌这种 " 骚操作 " 可能也被一些数据所有者看透,比如推特。
根据推特最近的政策,不同账户将拥有不同数量的推特内容访问权,比如经过验证的账户可以每天看到几万条推文,而陌生访客则将无法访问推文等。
这种策略很大程度上限制了谷歌所谓的公开可获得数据的范围,当然也引起了不少推特网友的不理解。
推特执行董事马斯克公开表示,推特此前的数据被大量掠夺,导致普通用户的服务质量下降。因此,即便用户无法理解马斯克的决定,但他还是有足够的理由推行这一政策,以防止 AI 公司们一波又一波地薅推特羊毛。
标签: