这一周，AI公司在”数据”这件事上集体翻了车

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

这一周，AI公司在”数据”这件事上集体翻了车

昀琪琪的AI世界

2026-04-08

0 评论 2293 浏览 1 收藏

17 分钟

AI公司正在以惊人的方式重塑数据获取的边界。从GitHub悄无声息地收集用户代码，到Anthropic误伤8100个无辜仓库，再到《纽约时报》记者无意中使用的AI工具涉嫌抄袭——这些事件揭示了一个令人不安的真相：在AI时代，用户对自己数据的控制力正在消失，而科技公司正在用'默认开启'的设计模式悄然获取最私密的思维过程。

我做AI产品差不多一年了。

这一年里我经历过很多让我觉得”这行真的很野”的时刻——有模型更新直接把我昨天调好的prompt废掉的，有竞品一夜之间上线我们策划了三个月功能的，也有用户留言让我语塞半天不知道怎么回的。

但上周，我连续看了三件事情，坐在那里愣了挺久。

不是因为这些事多惊天动地，而是因为它们放在一起看，让我突然意识到一件事：

在“数据”这个问题上，AI公司对用户说的话，已经越来越难被当真了。

先说第一件事：GitHub在悄悄动你的代码

3月26日，GitHub发了一篇公告，措辞克制，格式正式，读起来像例行通知。

核心内容只有一句话：从4月24日起，Copilot Free、Pro和Pro+用户与Copilot的交互数据，将被默认用于训练AI模型。

所谓”交互数据”，包括你输入给Copilot的提示词、它给你的输出结果、你在使用过程中的代码片段，还有光标周围的上下文、你写的注释、仓库的结构和文件名。

换句话说，你用Copilot改的每一行代码，接受或拒绝的每一个建议，都在被记录，都可能进模型。

公告里也说了，”用户可以退出”。但退出的方式是：自己进账户设置，找到隐私选项，手动关掉一个开关。而且有开发者反映，按照公告里说的路径点进去，根本找不到那个选项——它被放在了设置页面最底部，描述用词跟邮件里说的还对不上，像是专门设计成让人找不着的。

有人在GitHub社区底下投票，97个，4个。

这个比例挺能说明问题的。

我做过用户产品，所以我对这种设计不陌生。

行业里有个词叫”dark pattern”，翻译成中文大概叫”暗模式”，意思是在产品设计上用一些似乎合理但实际上引导用户做出并不真正符合自己意愿的选择的方式。

把”退出”的入口埋得足够深，把文字写得足够模糊，让大多数不那么较真的用户什么都不做——然后”什么都不做”就等于”我同意”。

这是一种古老的套路，互联网公司用了很多年。没想到2026年，换上AI的皮，又原封不动地搬出来了。

GitHub自己在公告里也承认，之所以要收这些数据，是因为他们之前用微软内部员工的交互数据测试过，代码建议的采纳率明显提升了。真实世界的交互数据确实能让模型变聪明——这一点我信，这也是数据飞轮逻辑的底层：用你，学你，再服务其他人。

但问题在于，”学你”这件事，你知道吗？你明确同意了吗？

还是说，你只是没有找到那个退出的开关。

第二件事：Anthropic用一纸通知砸掉了8100个仓库

这件事发生在3月31日，闹得更大一些。

事情的起因是Anthropic在更新Claude Code的时候，打包出了问题——一个本不该公开的文件被上传到了NPM，导致将近2000个文件、超过50万行的源代码意外暴露出来。代码里包括Claude Code怎么调用工具、怎么管理上下文、怎么编排任务的全套设计逻辑——本质上是竞争对手拿到了一张完整的设计图。

这个泄露本身已经够尴尬了。但后面发生的事更离谱。

为了阻止代码扩散，Anthropic依据DMCA（美国数字千年版权法）向GitHub发出下架通知，要求删除包含泄露源码的仓库。这是正常操作，出了问题当然要追。

问题出在执行方式上。

Anthropic在通知里声称，目标仓库的所有分支”与母仓库存在同等程度的侵权”，结果GitHub按照这个逻辑，顺着fork网络往下扫，把整个关联的仓库群都一起处理了——波及到8100个仓库，其中大量根本就没有任何泄露代码，只是和目标仓库有一点点代码结构关联。

有个开发者叫Theo，在YouTube上做技术频道，他的仓库里完全没有泄露的源码，唯一的关联是他几周前在一个叫skill的PR上改过几行字。就这样，他的账号被DMCA了。

他在X上发帖：”这不是愚人节玩笑，这是对法律的违反，我会全力抗争。”

几小时后仓库恢复了，但他没有收到任何通知。他最后说：”看起来像是真实的失误，他们也迅速处理了。”

这个结尾读起来让人哭笑不得。

Anthropic事后承认这是”沟通失误”，说是因为目标仓库属于他们公开仓库的分支网络，导致范围被放大。他们撤回了大多数通知，最终只保留了1个仓库和96个分支的处理。

我在想，如果这件事发生在一家传统互联网公司身上，舆论会是什么反应？

“发错了知识产权通知，误伤了8000多个无辜开发者，然后说是沟通失误。”

可能有人被骂出来道歉，可能有流程被整改，可能有律师出来发声明。

但现在是AI公司，是行业里标榜”安全至上”文化的Anthropic，大家看完新闻，发了帖，讨论了几天，然后就散了。

更值得注意的是，这已经不是Anthropic第一次在代码管理上出问题了。有报道提到，过去一年内这是他们第三次发生代码或数据泄露，之前还有一次是把将近3000个内部文件意外公开。

一家正在冲刺IPO的公司，连续出现这种基础操作问题，该怎么评价，我说不好。

但有一件事我越来越确定：规模越大的AI公司，在数据和权限上犯的错，对普通人的影响就越大。而这种影响，很多时候是悄无声息的。

第三件事：《纽约时报》开掉了一个自己都不知道被偷的记者

这件事相对小一些，但在我看来是这三个里最细思极恐的。

《纽约时报》最近终止了和一名自由撰稿人的合作。原因是：这名记者用AI写稿，而那个AI工具在处理过程中，抓取并复用了《卫报》书评里的一些措辞——关键是，记者自己完全没有发现。

这件事让我坐在那里想了很久。

被偷的是《卫报》，写稿的是记者，用工具的也是记者，但记者不知道工具在偷，《卫报》也不知道自己的文字跑到别的文章里去了，就连《纽约时报》本来也没意识到，是后来复查才查出来的。

这条链路上，每一个环节都是蒙的。

AI工具用了什么数据，怎么用的，输出的时候用了多少参考，有没有人知道？大概率没有。这些东西被包在”模型”这个黑盒子里，显示在界面上的只有一段漂亮的文字。

而在AI介入内容生产之前，这一切本来是可以被追溯的——你抄了别人的文章，可以去查你读过哪些资料，有没有加引用。但现在，AI把来源彻底打散再重组，连用的人自己都不知道里面混了什么。

我把这三件事放在一起看，想到一个词：不对称。

AI公司掌握着大量信息——知道你用了什么、写了什么、改了什么、在哪停顿、对哪个建议踟蹰了五秒钟才接受——而用户对这些数据流向什么、被怎么使用，基本一无所知。

这种不对称不是新鲜事。搜索引擎时代就有，社交媒体时代更严重。但AI把这种不对称推到了一个新的层级：

不只是行为数据被收集，是你的思维过程被收集。

你在跟AI对话的时候，你怎么想问题，你的逻辑路径，你改了什么、删了什么、最后决定要什么，这些比一次搜索记录要深得多。

而这些东西，会进模型，会被用于训练，会帮助AI公司建立起对”人类怎么思考”的理解——然后再用来服务下一个用户。

你是原材料，你也是产品。

写到这里，我想说一件跟我自己有关的事

我现在在做一个AI产品，面向海外用户，是情感类的。用户会在上面跟AI角色聊很多私密的东西。

我们在设计数据策略的时候，开过好几次会。有一次讨论到一个问题：用户的聊天记录，要不要用来优化角色的回复质量？

从产品逻辑上，这件事完全说得通。你知道用户在什么时候断开对话、什么样的回复让他们觉得好、哪些话题让他们停留更久——这些如果进了训练数据，模型会变得更好，用户体验也会更好。

数据飞轮。教科书级别的合理。

但我们最后没有这么做。

不是因为技术上做不到，而是因为那天有人问了一个问题，让大家都沉默了一会儿：

用户知道吗？

他们在那里说的那些话——有人是失恋的，有人是失眠的，有人是在现实里找不到可以说话的人才来这里的——他们知道那些话可能会被处理、被分析、被用来训练一个模型吗？

我们最后的结论是：在没有办法让用户真正理解这件事之前，不做。

不是法律不允许，不是政策不允许，很可能法律上我们可以在隐私协议里埋一段话就合规了。但合规不等于对。

说回来，这件事对产品人意味着什么

我在做AI产品之前，不太会主动去想”数据授权”这件事。

这听起来像是法务部门的问题，或者是合规团队的问题，反正不是产品经理的问题。

但这一周发生的几件事让我重新想了想。

“默认开启”是一个产品决策。

它不只是一个技术参数，不只是一个法务条款，它是一个关于你在用户不注意的时候想要什么的决策。

GitHub把数据收集设成默认开启，把退出的入口埋在最底部——这是产品经理拍板的，或者起码是产品经理参与的。某种程度上，这就是在帮公司从用户那里拿一些用户没有明确给出的东西。

Anthropic用自动化脚本扫仓库，没有人工审核，就把8000多个账号DMCA了——做这个工具的人，有没有想过”如果误伤了怎么办”？有没有设置一个熔断机制，超过50个仓库就停下来等人审核一下？

这不是道德课，这是产品设计。

我最近看了一个说法，觉得说得挺准的：

在AI这个行业里，产品竞争的核心资产是数据。训练数据、交互数据、标注数据——这些东西决定了模型的上限，也决定了谁能跑得更快。

所以大家都在想方设法多收一点。收得多，模型好，用户更多，数据更多，循环。

这个逻辑本身没有问题。

问题是，收这些数据的方式，有没有让用户真正明白自己在给什么。

不是”埋在隐私政策第17条第3款”那种明白，是真正的明白：你的代码，你的对话，你的思维，在这个产品里是怎么流动的。

用户能读懂吗？

他们有机会说“我不同意”吗？

“我不同意”的代价，是不是让他们没法用这个产品了？

这几个问题，我现在还没有标准答案。

我做的产品也还在摸索，并没有做得多好。但我开始觉得，这件事是产品经理要去想的，不是甩给法务的，不是写进条款就算完的。

AI这波浪潮里，很多事情发展太快，规则还没长出来。在这种情况下，公司做的每一个默认选项，都在替用户做决定。

而用户，大多数情况下，压根不知道这件决定被做了。

上周那个被DMCA误伤的开发者Theo，仓库恢复之后说了一句话让我印象很深：”看起来像是真实的失误，他们也迅速处理了。”然后他就去做别的事了。

我理解这种心态，出了事能解决就行，较真没意义。

但我脑子里一直有个声音在问：如果他没有发帖，如果他没有在X上有那么多关注者，如果Anthropic没有感受到舆论压力——那个仓库会不会就这么没了，他永远不知道为什么？

我做AI产品，我希望自己的产品变得更好。

但”更好”这件事，不能一直建立在用户不知道发生了什么的基础上。

这是我这周想明白的一件事，还没想完，先写在这里。

如果你也在做AI产品，欢迎在评论区聊聊你们是怎么处理数据授权这件事的。真心想听不同的做法。

本文由 @昀琪琪的AI世界原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

昀琪琪的AI世界

专注AI人工智能｜分享有价值的内容

7篇作品 11605总阅读量

大厂拆“温室”，内部创业黄金时代落幕

05-114002 浏览

引导学生“硬刚”GPT，海外教师花式应对“作弊神器”

04-172380 浏览

字节攻势凶猛，本地再生变数

05-082880 浏览

9.9元的AI芭比写真，会抢走摄影师的饭碗？

08-024578 浏览

搞清楚这些，你就能做好B端运营

01-0813701 浏览

目前还没评论，等你发挥！