如何看待字节跳动一实习生删除公司 GB 以下所有机器学习模型,事情经过是怎样的?事故影响有多大?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 扼杀黑暗 发表

其实还好吧

故障恢复是互联网公司得特长吧

这种重要数据,如果没有备份和恢复方案,那只能说明字节缺乏互联网公司得风险意识

这显然不可能

而且现在互联网公司搞 devops,什么都让程序员操作,那就应该把运维故障当作常态

我们以前运维经常不小心把线上库干崩,然后劈里啪啦,主从切换,数据库回滚,几分钟立刻恢复运转,用户甚至没太大感知。

无他,手熟尔

不同得企业结构,是不同得风险控制方式

不要大惊小怪

发展快得公司,实习生有很大权限,这个很正常,一个小团队往往管着几千台机器呢,不这么搞,怎么快速培养人才。

互联网公司搞得国产敏捷,大家要相信,真的很敏捷,不仅犯错快,成长也快,发展好的公司会当作正常情况按步处理完了

发展不好得公司会开始分锅。

我看很多回答都上来就开始分锅,说明他们平台发展差点意思,可能业务已经很平稳了

知乎用户 硅谷 IT 胖子 发表

我带过几个实习生,也算了解大公司内部的流程机制。

不了解互联网行业的人可能认为,里面都是精英和专家,怎么会犯这种低级错误?领导何在?管理何在?

然而现实是:公司技术体系和架构过于复杂,想让一个人哪怕很资深的老员工,去在几十分钟内确定一个他(她)不熟悉的东西的影响力,也是有风险的。越是大公司,进步越快,东西越乱,人员流动又大,所以很难都熟悉,甚至判断有很低的概率是错的。

这个事件主要是带实习生的人的锅:因为老员工不是学习得快,而是对整体情况有个把握,能控制风险。

新人只应该负责加东西。比如加几个 script,加几个功能,加几个工具等,加东西最多不会,但老员工控制好了,一般也不会出现大事故;

改就相对危险一些了,控制好了也能做;

删除是最危险的,我们有个老员工,随手删了一个配置以为没用清理下,结果整个后端 Service 挂了 30 分钟,很惨。老员工尚且如此,何况新人?

所以我的想法就是:新人不应该删任何东西,只加就是了,最坏塞进来的是垃圾。

记得前几年,亚麻一个梗,说是一个 AWS 的 “老” 员工,来了 6 个月的 SDE1,教刚入组 17 天的另一个 SDE1 热身,随手删了个目录……

然后半个美国的网站都崩了。

最喜感的是,有个网站叫做 “is it down” 就是告诉用户哪个网站挂了的……

https://www.isitdownrightnow.com/​www.isitdownrightnow.com

它自己也挂了。

我当时想:如果警察局被抢劫了怎么办?如果消防队着火了怎么办?大概如此。

知乎用户 苏子岳 发表

非利益相关,畅所欲言一下。

一般来说,一个事故会从事前、事中、事后三个方面来看。

事前:为什么会发生这件事?

显然是因为各种巧合:实习生恰好想删这个目录、实习生权限过大啦、没保护好父级目录、加了 skip trash 啦等等。那其实我们可以逐个分析:

  1. 为什么想删这个目录?是存储不够了,日后可以多加点存储呢。还是基础组要管的东西太多了,可以拆给每个业务组自己运维。
  2. 实习生权限过大?其实这个就要看公司文化了。我理解头条的文化中,权限不会是桎梏。但是关于生产环境的话题我们待会儿聊。
  3. 没保护好父级目录?HDFS 的运维工作有没有双负责人保障制度,还是只是靠某个老哥自己的理解来配置的。。。
  4. 加了 skip trash:相信这会给当事人一个狠狠的教训。同时也给其他程序员朋友们提了一个很好的醒:永远慎用硬删除。

事中:事情是怎么发生的?

据说是求证了多方,说没问题。但删了以后,连事故处理群都加了三百多个人。

显然这已经是一个基础服务了,那被问到的高级工程师是有锅的,至少他没有认真对待实习生的问题。不过一般来说,基础组的任何操作(不限于删除)都得保持完全兼容,至少得保证能完全回滚。这也是一个血泪教训了。

事后:以后如何避免发生?

显然,除了吃堑长智、保持警觉以外,权限控制还是必要的。一般来说,权限控制不防内鬼破坏,只防蠢逼操作。(内鬼交由安全机制来防)比如本案中,影响了后续上线,听起来很模糊,不像是生产环境的事情。但删了大家的模型,本质上跟 rm -rf 是类似的性质。这种情况后续权限控制,要么得把 skip trash 这个参数想办法给下掉,要么就得拆分各个人的权限到各自的模型上。

总的来说,就事论事,这是一场当事人会记得一辈子的热度拉满的事故(听起来不亏)

但是往好的方面想,程序员一生会删三次库,他既然已经删了一次,就只剩两次啦

知乎用户 多多益善 发表

坐标上海某 Top 电商,恰好完整负责过一整套 Hadoop authentication 以及 authorization 流程。看到这个事故第一时间笑出声。因为当时我就是编了一个实习生误删数据的 story 讲给老板的。

大概看了看整个流程,首先提出几个我认为有问题的点吧,并给出一些改进建议:

Q1. 怎么确定这个文件能否被删,是否有人使用

A:不能通过 last modify time 来确认,至少要用 access time 来判断,最好要通过 audit log 中的访问记录来分析。

Q2.1:实习生是否应该有权限删除线上数据

A:不应该,任何 dev 都不应该具有能够直接删除数据的权限。

Q2.2: 那么如何删除数据

A:如果是线上的生产数据应该走生命周期自动回收机制,如果是线上的模型数据或者 jar 包应该走完整的工单审批,在工单审批中应由发起者提供证据链路证明其文件无人使用。

Q2.3:skipTrash 命令是否该 ban 掉

A:该命令应该由 hadoop 团队官方在 client 端直接 ban 掉,破坏力如此之强的命令应该直接禁止。即使不能完全杜绝第三方 client 的危险命令,也不能因噎废食,至少要保证绝大部分的命令都是安全的。

Q3:高权限账号是否应该被实习生接触

A:不应该,不清楚头条是如何管理 authentication 的,这个实习生可能是通过提交了一个数据中台任务来执行删除的命令,也可能是直接堡垒机连生产服务器手动执行命令了,如果是后者的话,我想说 authentication 这边头条管的也太松了。

先说以上几点,总之我司在 AA 这方面做的要比头条强多了。不要小看权限模型管理,凭 HDFS 的安全性,不管是依靠 eccode 还是 multi duplication。数据本身的安全性都是很高的,eb 级存储下运行好几年都不会丢一个文件,但是 AA 这方面做不好,后果可能会很惨重。头条的 eb 级存储之前了解过做的蛮不错,我司可以说也受益匪浅,namenode 的 c++ 重写也是蛮强的。虽然这件事从划分责任上讲,hdfs 团队未必会担责,但是毕竟是做平台的嘛,为一些大聪明用户多考虑一些,make platfrom fool。还是很不错的。

最后打个广告,我们的整套 AA 系统应该说能完美避免这次事件的发生,当然开发这套系统也吃尽了苦头,其中历经的各种产品设计 / 性能问题,推广问题,跨组的协调问题一度让我感到绝望,但经过长达半年的努力,整套系统上线并且收获了很好的成果。感谢我司,让我一个校招生 own 一个非常大的 scope,并且在关键时刻都给予资源支持,个中收获无数,受益匪浅。

我司拥有国内前 5,世界前 15 的 hadoop 集群,实际的工作强度和工作时间与头条相似,团队氛围好,待遇极佳,所遇场景极富挑战,目前急招 hadoop 相关人才,欢迎有意者评论区留言,简历可发送至 1079010102@qq.com

知乎用户 宇宙长读书​ 发表

在头条上班的第一天上了头条,估计这经历也没谁了!

话说通过其熟练使用的命令来看,这位同学是一位爱干净,做事决绝,不给自己留后路和不给别人留活路的强硬汉子!适合做战略执行等管理岗位!

而作为程序员,不能有洁癖,系统只要能用就行,代码别随便乱删!这都是基本操守!这位同学不具备!

另外,这位同学,在团队没有困难的情况下,也想尽一切办法创造困难,用程序员一生中为数不多的 3 次删库机会中的一次,给了运维的同学锻炼处理危机的机会,从事实上督促团队成员提高进步!这样的同事不多见,遇上要珍惜!

这从侧面放映这位同学有大爱仁爱之心,适合做程序员鼓励师!可以在兄弟们疲累的时候,给以温暖的抱抱!

  • 相传每个程序员有 3 次删库的机会!第 3 次删完之后,就会获得当前虚拟宇宙系统管理员的接见,获得宇宙的真相,然后跨越虚空而去,或者顿悟转行送外卖。

没删过库的程序员不是好程序员!

删库是程序员成长过程中最大的成人礼,删过之后,程序员不管从技术还是精神层面都将得到巨大升华!

我删过美国银行的,你们呢?程序猿们… 留下你的战绩让我瞅瞅鸭~

知乎用户 半颗糖 w 发表

更新一下,这个问题上热搜

其实这件事不是什么大事,大家吃瓜之余也要吸取教训哈

三思而后行 ,不做背锅侠

——————

字节范之务实敢为

务实不务实吧,反正挺敢为的 (

猜一猜,应该 p0 了吧

————————

认真点说,只是小概率事件而已,可以适当收紧一些

总比某些厂有的组连代码权限都不给实习生强

他的 mentor 和 leader 应该一个绩效周期白干了

实习生应该不好意思留下了

看评论说 还是多方求证后删的,那实习生不用愧疚了 (๑^o^๑)

做为新人,最忌讳的就是闷头做事

遇事不决问同事,特别是 oncall 的时候

知乎用户 白花 发表

科普一下正常公司的流程吧……

如果一个人类有运行 hdfs 的 -skipTrash 操作的权限,那么这个人类的角色一定是 OP 。如果是 RD 的话,想要做这种操作,需要提工单给 OP ,必要情况下,要抄送自己的经理、 Leader 。最终由 OP 进行审核并且操作。

OP 操作前,会调研这个数据到底能不能删除,如果问了一圈各个相关模块的 owner 都可以删,那么就是可以删,误删数据的责任不用 OP 承担。另外,操作时,绝对不会自己一个人在电脑前运行这种高危命令,一定是至少 3 个人互相监督敲命令,达成共识后,才能运行该命令。所以这种高危操作,从来不可能是某一个人的行为,题目中『某个实习生删除了重要数据』的描述,在正常人类看来应该是不可能发生的。 OP 也不可能有任何错误输入操作,除非 3 个人都出错。

一旦最终发生了这种事情,除了经理、 Leader 、模块 owner 需要负责以及承担损失以外,其他的操作人员均无责任。

知乎用户 miao 君​ 发表

今早看到朋友圈里的程序员们都在聊这个事,说法也不一,

有的说,实习生把公司所有的 Lite 模型(p.s. 移动端设备深度学习模型)全删了,而且是彻底删除了父目录文件,导致字节员工加班到三点……

还有的说,删除的是 Lite 全量 Batch 模型的备份,删除的都是离线数据,影响不大。

我看很多人都在讨论,字节给实习生的代码权限是不是太大了?字节内部的信息管理制度有没有问题?这次事故应该谁来承担?

我个人觉得,比起畏手畏脚藏着掖着,多给实习生一些机会和信任更像一个大公司该干的事(虽然这有一定的风险),不过程序员本来就仰仗新生血液,你不给年轻人空间,他们怎么学习发展起来然后给你干更多的活呢……

开玩笑。

我愿意相信,容许试错成本存在的公司,或许才是真正能培养好员工的公司吧。

知乎用户 Sudo reboot 发表

追求极致,务实敢为:做之前实习生不敢做的,拓展实习生能力边缘

开放谦逊,坦诚清晰:删库不跑路,勇于承认错误

始终创业,多元兼容:帮助公司删库,让公司始终处于创业状态

建议 “字节范儿” 给 2-1 转正

知乎用户 H. 专业写 BUG​​ 发表

这个问题有点意思了,我曾经在 java 实习生进去都是干什么的问题下回答的第一点就是删库,很多小伙伴都不信。现在信了吧~

[JAVA 实习生一般进去做什么呢?​www.zhihu.com

](https://www.zhihu.com/question/397769391/answer/1596425179)

其实很多公司秉承着用 windows 的思想完着 linux。如果不好好用人家的权限,那还不如玩 windows。

所以这个责任怎么算,我也不清楚。

如果是重要的模型,不备份吗?

如果是重要的模型,还让实习生玩?

不能给实习生单开一个服务器吗?

说说我的经历吧

1、我记得我实习的时候,某公司还是比较友好。给我们单独开了一个服务器虚拟机,让我们随意玩耍。实习三个月,没有碰过线上项目,只是让我开发一些小工具和跟着大佬们学习技术。

2、然后说到删库这件事,另一个公司就更友好了,年轻老板。本着鼓励激烈年轻人,要敢于让年轻人犯错的精神。我的小他同事删除了现场的库。问题不大一个组出动,加班加点给他重搞一份。

我只能说问题不大,问题不大。所以的后果都是公司扛下了。以至于这位小伙还服务于该司。

换句换说,如果立马给惩罚,那估计就只有跑路了.

顺便说一下,疑,头条怎么又上头条了~


我是

@H. 专业写 BUG

,周五了周五了~ 喜欢的朋友们可以点点赞 啊

知乎用户 匿名用户 发表

事故的原因是实习生清理 HDFS 上的目录,发现一个目录最近更新时间是 3 月份,就以为这个不用了,多方求证之后得到了这个目录已经没用的结果(绝了),然后删掉了…… 一个小时后有人发现模型上线不了,然后才发现炸了

知乎用户 Anonymous 发表

删东西这事儿也敢让实习生干, 老板们的心都够大的..

刚巧昨天在微博上看到了这么一个视频 [1], 实在是太太太太应景了..

[

当我删了一行代码之后

Anonymous

的视频

 · 760 播放

](https://www.zhihu.com/zvideo/1391618698751303680)

参考

  1. ^ 来源微博 https://weibo.com/2093492691/KlCcojLWD?from=page_1005052093492691_profile&wvr=6&mod=weibotime&ssl_rnd=1624567631.7866&type=comment

知乎用户 费特杨 发表

我们在看故事,对哪位删库的实习生来说是一场原本不会发生的事故,责任划分没有意义,原文说该实习生不会被开除我是信的,特别是现在扩散这么广,就当是千金买马骨,也要留下这个实习生。

都说程序员一生会删三次库,只是没想到第一次来的这么快,这么突然。

对字节跳动来说,这波操作伤害不大,影响却很深远。

实习生和正式员工等同的权限其实问题不大,这是字节的优点,应该不会改变,但是管理层应该思考下为什么实习生跟领导和同事确认后得到的结论是可以删除,并且 skip trash;还有就是这么重要的机器学习模型居然没有备份,绝。

最近在学习微众的一个开源项目 “FATE”,关于机器学习、联邦学习、隐私计算的,GitHub 上还是不少代码贡献,感兴趣的朋友可以私聊,一起交流学习下。

知乎用户 萧岳 发表

实际上软件公司的高层多数时候也就管理个人员权限,连这个都能出问题,给实习生这么大权限,导致出了这么大问题,也是没谁了。这问题实习生确实做得不对,但他说到底也只是一个实习生,犯点错很正常,但是谁给他这个机会犯这么大错误的?这才是问题的根本。

知乎用户 汇智动力 IT 学院​ 发表

一图以毙之:

确认过眼神,是一个狼人;

且看他挥一挥衣袖,不留下一行代码~~~

我也蛮好奇,该实习生在字节跳动实习期间到底经历了怎样的遭遇???

究竟是人性的扭曲?

还是道德的沦丧?

欢迎收看今天的 IT 职场特别节目——《代码去哪儿》

ps:早就听闻互联网企业圈子里盛行 “无间道”,照此推测,该实习生莫不是竞对派来的救兵吧???

(╯□╰)

知乎用户 levin 发表

在字节删字节

在头条上头条

知乎用户 黑波 发表

实习生权限和正式工一样,可以删库,

竞争对手派人来应聘,一入职就删库行不行?

每周都派人来应聘入职删库行不行?

知乎用户 esang​ 发表

说明轻量模型确实没前途了,大规模预训练模型卷起来

知乎用户 大海​​ 发表

评论区有人说我这个答案**每一句都是错的。**仔细一看这位还不是字节的员工,原来和我一样是在猜。另外我叙述下自己的工作经历,怎么也是错的呢?难道这位答主比我自己还了解我么?

有技术问题指出来,错了我认栽改正,没问题的,但是完全可以好好说。

以下是原回答。

问题不大。

看了看报道,删除的是备份模型,丢失的机器学习模型明显不是一线生产环境的关键软件设施,也许一些有意思的小算法可能会暂时失效,但抖音的核心业务没有受明显影响,也没啥好慌。

而且大公司生产系统和测试系统隔离得都不错的。

我做的大型关键业务系统,补丁上线前都在测试环境运行,使用模拟数据库。正式上线备份和恢复数据都准备就绪,即便挂掉最多十几分钟就可以复原。

写数据库恢复脚本我在行的,在此我必须吹嘘一下 visual studio,集成环境可以调试数据库存储过程。恢复脚本基本自动化,脚本反复测试,使用户生产系统正常运行至关重要。

我对付的数据是有法律效力的,系统和公安,法院,检察院联动 ,别说丢数据了,就是产生数据不一致,那都要负法律责任,开发者还要学法律法规。

字节跳动这方面不会差,异地灾备,数据恢复不会有硬伤。当然,内部实验环境自由一点没有问题。

至于 24*7 的业务系统一般还有双工热备份,可以停部分子模块来局部恢复系统。

代码么,程序员本地怎么也有一份 ,本来我每天签入的也就是变化的代码,服务器代码里丢掉损失也不会大。

一般我们的 cent os 用户空间隔离,除非要求共享,用户交叉操作很少。纯公共的资源不会太重要,重要的都保护起来了,大家有删除权限的更加不重要。

最后,这个实习生删除前确实也反复确认过,文件夹确实可以删除。删除后傻眼管理层还是要背锅。。。

知乎用户 Luv Letter​ 发表

这种事情应该让 VP / 部门领导背锅

如果不是, 说明字节是垃圾公司.

权限逻辑的问题应该是有部门的高层监督的, 如果没有, 那么正式员工也能犯这种错误, 就别甩锅实习生.

知乎用户 一直住顶楼 发表

拜托,这都 2021 年了,如果这种小事都真的无法恢复数据说明字节的系统管理团队(infra team)都可以全开除了。

知乎用户 jusalun 发表

应该不是故意的,这要是故意的就乐子大了

知乎用户 FakedJoker 发表

绝了,这么 spof 的东西连个备份都没有,大厂架构师都是这么玩的?

不用这个实习生,碰到机器炸了或者云服务崩了不也是一首凉凉。

知乎用户 章牧之​​ 发表

告诉大家 / 实习的时候认真点 / 如果一不小心 / 删掉了代码库 / 明天就得跑路。

告诉大家 / 我的同事他犯错啦 / 夜里加班没注意 / 删掉了所有模型库 / 醒来发现上了头条?

所有实习生实习生实习生 / 问题出现我再告诉大家 / 所有实习生实习生实习生 / 十二点之前你可别睡觉。

知乎用户 LineLian 数智产品​ 发表

这事总结起来看可以有 3 个版本

版本一:事故是正常事故,原因是实习生清理 HDFS 上的目录,发现一个目录最近更新时间是 3 月份,就以为这个不用了,多方求证之后得到了这个目录已经没用的结果(绝了),然后删掉了…… 一个小时候有人发现上线不了,然后才发现炸了

版本二:事故是非正常事故,原因是实习生应聘时谈得是来建造火箭的,结果发现是 hello world

实习生随心生不满,一个 drop 干掉了所有的 GB 量级算法模型,然后由于紧张忘记了干掉 ZB,PB 数据级模型……

版本三:正常事故中的非正常事故,实习生在盘点服务器算力应用情况,发现了不少的 1GB 级模型,本来是想练习一下调调参数,优化一个模型,结果由于实战经历不太多,调参侠变成了 删除 “黑客”。

综合来看三个版本中,实习生删也没有删到重点,又不是属于删库跑路,AI 模型吗只要源数据在,对字节的人才储备来说 这些模型也是近期能够恢复 Acc 值得……. 事故影响心理精神危机大于业务模型危机

知乎用户 梁智斌 发表

爷爷是军人,当年因为有批文所以能搞到好东西拿去卖(给他的兄弟做生意,家父当医生跟商业不沾边;奶奶是县长的女儿,后来当了公务员)。爷爷还在的时候,我的投资理财都是逐步加仓、逐步减仓,在选股择时方法正确的前提下要轻仓,因为巨亏后很难赚回来;爷爷认为我的性格适合做实业(类似于生意)、不适合行军打仗。

家父当医生的时候,诊疗思维保守(能不动手术就不动手术,很少强调用药应该足量足疗程);但自从他当上科主任之后,强势的锋芒逐渐显露,大内科主任、医务科长、卫生厅…… 因为他言出如山、令出必行、铁面无私,因为做人不圆滑所以没当院长、而是到处跑去检查各家医院。其实,一般人,不论是做投资还是搞技术(我的投资和编程都经历过菜鸟水平),都应该保守;不能看见炒股或者编程(开发图像识别、机器学习这些高级程序)就想当然的觉得我很激进,除非是艺高人胆大,但奉劝多数人不要盲目自信。

清华的李教授反对平躺被怼;其实做人很简单的,多一事不如少一事,能平躺就平躺(不知道该生为什么要输入那个命令,在没有充分理由的情况下,能不干就不干,千万不能干高难度、高危险的动作;因为兵是凶器,圣人不得已才用之)。很多人其实真实的内心并不勤奋,就不要用 “上进”、“逆水行舟不进则退” 来自欺欺人,不过是没事搞事而已,搞不好就像王安石变法一样,好的不灵丑的灵、越搞越糟糕。到了天龙八部里面的小皇帝,等垂帘听政的太后一死就想打辽国;国家都被王安石搞得一塌糊涂了,幸好没打成,不然靖康之耻、土木堡之变一类的国耻会提前。

此人,有本事就将精力用在刀刃上,有本事去改进模型算法、或者像在下一样研究核函数(提出新的公式)。不知道该生的职责是干嘛的,建议以后还是做一个 GUI 给实习生,让他们非礼勿视、非礼勿听,没权限的东西不能干;或者预先写好脚本,像住院医师的处方一样,经过审核才能上线。

知乎用户 小熊​​ 发表

前东家:我最喜欢这种事了嘻嘻(逃

Disclaimer :在前东家做的是全球最大的数据备份软件。不过话说回来,我们大客户都是银行政府,字节这种互联网公司好像一般都有自己的备份解决方案 [捂脸]

知乎用户 匿名用户 发表

张一鸣:要 always day 1。

实习生:懂了

这个问题下面也是金句频出。

实习生:磁盘满了清理数据把重要文件给删了怎么办?
高级工程师:你们的异地容灾呢?

知乎用户 schlagt 发表

所以字节的

备份和权限也如此平平

知乎用户 Pure White​​ 发表

没那么夸张,正常一个事故而已,又不是故意要删的。

知乎用户 初八 发表

利益相关,来凑热闹。

话说,群里有 300 + 人不是挺正常的事情么?

知乎用户 Bowman Church​ 发表

实习生删库太常见了,我实习那会不流行分布式文件系统,要不我同事估计也删库跑路了

知乎用户 王东来​ 发表

字节删字节,字节血压齐跳动。

头条上头条,头条网友吔西瓜。

知乎用户 HenryQIU 发表

权限管理和硬盘备份这种该花的钱早晚是要花的,无非多花少花…

知乎用户 李书航​ 发表

好的那让我们复习一下:

估计接下来漫画有新素材了

知乎用户 韦子扬 发表

字节是所有互联网大公司里面最像创业公司的,没有之一。

很多刚加入字节的同学,一开始就要 owner 一整个模块,而且没什么人指导和培训你,所以很多实习生或者刚来没几个月的人都有很大的权限。

这是把双刃剑,见仁见智吧。

知乎用户 战斗立丰泽的勃勃 发表

一个月内

[如何看待网传字节跳动实习生晚上 12 点前睡觉未及时处理工作在部门出名?​www.zhihu.com

](https://www.zhihu.com/question/462711492)

知乎用户 IT 之家​ 发表

众所周知:跑程序和跑路,只要有一个跑起来了就行.

实习生: 面试的时候给我出难题,现在是时候给你们出出题了

脉脉用户 “程序员. 白胜” 在社交媒体称,字节跳动一名实习生删除了公司所有 lite 模型,在脉脉上引发关注。

这名用户随后在回复中称 “实习生直接 delete 父目录,还加了 skip trash”。
lite 全称 TensorFlow Lite 是一种用于移动端设备深度学习的模型,实习生这一操作是彻底删除了目录文件。

随后,有字节跳动员工表示自己昨晚加班到凌晨三点处理事故。也有网友表示删除目录文件这就是故意的了吧、这是间谍来了么?

有字节的工程师网友表示删除的都是离线数据,影响不大。

该楼主好像对此事非常热衷,全程在线跟帖,表示 “确实影响不大但是麻烦,重新训练模型和延迟上线理论上都会对指标有负向只是不那么明显了”。

知乎用户 韦恩小小战略家​ 发表

实习生造 P0 级事故是非常罕见的,印象中之前只有谷歌海外有实习生捅过大篓子…

最骚的还不是因为工作不顺而故意删库跑路,而是确认了一圈这个目录没啥用了之后,删了父目录并反手一个 skip trash…

知乎用户 博为峰 51Testing​ 发表

不知道谢邀谁,这是 “一个空格” 或者说是 “无名氏” 邀请我的!TAT

看了很多说法,大家的重心都放在 “实习生” 上,咳咳,小博君当个吃瓜群众哈,先不做评论,坐等真相和后续,毕竟现在网传的版本太多了。。。

知乎用户 圆胖肿​ 发表

要我说啊,压根就不应该有这么大规模的互联网企业

干脆全部拆散了算了

你要删,就删你自个家去,把你自个家全部炸个底掉也没啥大影响

少了你一家,还有后来无数家

蚂蚁雄兵估计才是最理想的,一个巨型企业,光维护都是一大堆成本

国内企业这些搞技术的,哪里在搞技术,都是在搞运维,天天就跟删库跑路这种事做斗争

所以干脆,全部拆成小公司算了,搞这么大一个平台企业干什么呢?

平台难道不是国企才应该做的事吗?

知乎用户 法律人袁亚洋​ 发表

作死的典型啊。

不过幸好是多方求证下才删除的,如果是贸然冲动删除,后果可谓是极其严重。


再更新:

对于删库跑路的行为,有兴趣的可以搜下微盟的那个案子。

最终那哥们判了 6 年。

2020 年 2 月 23 日 18 时 56 分许,贺某酒后因生活不如意、无力偿还网贷等个人原因,在其暂住地上海市宝山区逸仙路 XXX 弄 XXX 号 XXX 室,通过电脑连接公司 VPN、登录公司服务器后执行删除任务,将微盟服务器内数据全部删除,导致微盟自 2020 年 2 月 23 日 19 时起瘫痪,300 余万用户(其中付费用户 7 万余户)无法正常使用该公司 SaaS 产品,经抢修于 3 月 3 日 9 时恢复运营(故障时间 8 天 14 个小时)。
截至 2020 年 4 月 30 日,造成微盟公司支付恢复数据服务费、商户赔付费及员工加班报酬等经济损失共计人民币 2260 余万元。
2020 年 2 月 24 日,贺某在暂住地被公安人员抓获,到案后如实供述了上述犯罪事实。
法院判决摘录如下:
上海市宝山区人民法院认为,贺某违反国家规定,删除计算机信息系统中存储的数据,造成特别严重的后果,其行为已构成破坏计算机信息系统罪,应当依法追究刑事责任。公诉机关指控的犯罪事实清楚,证据确实充分,罪名成立。
贺某如实供述自己的罪行,认罪认罚,可依法从轻处罚。辩护人的相关意见本院予以采纳。依照《中华人民共和国刑法》第二百八十六条第二款、第六十七条第三款、第六十四条、《中华人民共和国刑事诉讼法》第十五条之规定,判决如下:
一、贺某犯破坏计算机信息系统罪,判处有期徒刑六年。(刑期从判决执行之日起计算。判决执行以前先行羁押的,羁押一日折抵刑期一日,即自 2020 年 2 月 24 日起至 2026 年 2 月 23 日止。)
二、作案工具笔记本电脑一台依法没收。

承担刑事责任绝不是危言耸听。

以下分析,不针对本案例,假设为贸然冲动删除的情况,进行法律分析

1. 从劳动法角度来说,公司解除劳动合同理由是充分的。

如果双方签订了劳动合同,并非是大学生的暑假实习,那么企业可以依据《劳动合同法》的规定,以严重违反规章制度为由单方解除合同。

如果是暑假实习,则可以根据双方签订的《实习协议》来解除。

2. 公司可以向人民法院起诉要求承担民事赔偿责任。

这种模型数据的删除恢复无疑是需要花费巨大的成本的,我估计实习生删除的时候,压根就没想过后果。

删除一时爽,赔偿赔到没有底裤……

3. 刑事责任,想不到吧,是真的可能构成刑事责任的。

直接上刑法的法条。

第二百八十六条 【破坏计算机信息系统罪】违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役; 后果特别严重的,处五年以上有期徒刑。

法律不仅是杀人偿命、欠债还钱这种自然犯,还存在种类繁多的法定犯。

所以,学点法律很重要啊!

要不然哪天就可能身陷囹圄而不自知。

知乎用户 古明地觉 发表

字节没有 DBA 审核 HiveSQL/SQL 么

没有 OPS 禁线上敏感命令么

没有审核,或者审核不到位,权限配置错误才会导致这样低级错误发生

出现这种错误就体现出管理体制混乱

重要的数据执行命令删除之前,都是要经过三层领导批准的

知乎用户 Dennis Mikolaj 发表

莫慌,这是好事情啊。

一个公司的网络安全、数据安全、代码安全机制的完善通常都是实习生开始触发的。

所以,这位实习生立功了,给测出了公司一大漏洞,值得全公司通报表扬,应予以提前转正。

知乎用户 东小洋 发表

内部已经收到邮件了,可以恢复

知乎用户 白圣君 发表

还能咋样,当然是主管背责了。

都叫实习生了,不闯祸怎么成长。当然闯祸的时候有风险控制拦截才算合理。给实习生开这么大权限,要么是权限意识淡薄,内部管理自由度高。要么就是真的缺人,业务多到做不过来,只能给实习生开权限。

知乎用户 匿名用户 发表

这可能就是低成本招一大堆实习生,搞大跃进的后果?

没错,说的就是各家大厂的什么 ai lab,推荐架构组 ~

知乎用户 biubiu 该学习啦 发表

不愧是字节

果然把实习生和正式员工同等对待啊

隔壁鹅厂实习生权限卡的死死的,打开数据库的 pin 码还有有效时间限制

知乎用户 小白 发表

实在是不太懂一个实习生是怎么登陆到生产的机器执行命令的。。。而且还会影响这么多部门。。。

知乎用户 听雨客舟中 发表

想起前一阵遇到的一个真实案例

一个看起来没人用的很老的服务一直占着机器资源,问了很多人都说不用了。。。

停了以后下午十来个人找过来了要求恢复 hhh

知乎用户 牟有钱​​ 发表

和美团的新闻一起看就有内味了。

实习生打响了反抗资本主义的第一枪。

还想我 996,门都没有,直接给你删了,我不需要转正了。

知乎用户 乔木 leon​ 发表

这个事情妥妥的实习生的 leader 背锅。

权限管理这么糟糕。

实习生随意给那么大的权限。

那么估计正式工也是这么操作的。

早晚换正式工也得出事

知乎用户 Van 静石​ 发表

给实习生权限并不是问题的关键。

不给实习生权限,为了让他干活,直接让他上自己账号的老员工也不在少数。

知乎用户 里法师 发表

吃瓜…… 看到有答主说实习生多方求证过了。。那就不关实习生的事情了

知乎用户 李明明​ 发表

这实习生该判多少年了,可惜还没开始工作就进去了

知乎用户 CPP 加油站 发表

没啥好说的,有时候对于新人来讲,是基操了,想当年,我也在 root 用户下 rm -fr / 过,还好只是测试机器,又逢周末,于是自己利用周末时间重新装了一个,所以么有啥事,哈哈。

能出现这种事,说明字节对于权限控制这一块把握的还不够啊,像我现在的环境,除了我自己建立的东西我能修改和删除,别的都干不了,甚至有时候机器重启一下,自己建立的文件夹也没有权限了,这样的情况下就不可能出现这样的事情啦。

知乎用户 文华​ 发表

如果就这么简单删掉了,那美国干嘛还费劲吧啦的制裁,强买,派个人来应聘实习生,带个硬盘站去上班,直接考走,总成本不超过十万美元,干嘛还要国会,政府,甲骨文来回折腾?

知乎用户 小斌斌 发表

这个是头条上市前的练兵吗?

知乎用户 Jackzhang 发表

“这个实习生不 show 代码”

“上来就是一个删库”

“我说小伙子你不讲武德,我没有备份”

“他说对不起,对不起,我不懂删库”

“他可不是乱删啊”

“直接加上 skip trash”

“后来他说请教了好几个老师傅”

“看来是有备而来”

“这个实习生,不讲武德”

知乎用户 惟青​​ 发表

答案区学到了…

以后我也要记得先改名,没影响再删

知乎用户 英语原著阅读 发表

问就是误操作。加班太累了,不小心输错了指令。正常情况。

知乎用户 大白​ 发表

多方求证那实习生不该背锅吧,都找人确认过了才删的

知乎用户 声声慢 发表

我不相信一个实习生能干的了这种事…… 就算删了肯定能恢复的吧?不然字节的数据安全做得也太差了吧。

知乎用户 皮蛋瘦肉粥 发表

作为企业存储产品创从业人员,一直无法理解为什么存在删库跑路这种问题。在存储上面把 CDP 或者快照一开,服务器上随便你删,给你 root 权限删,存储管理员随时把整个硬盘数据恢复为过去的任意时刻的数据。

知乎用户 Shedray​ 发表

据说上次用户中心的数据被新来的实习生删除无法恢复了,然后 yiming 就被迫离职了

知乎用户 惹不起小管家的人 发表

看来字节的模型管理需要提高一下。

这个东西好像大部分公司都不重视,你模型跑完了放到 Hadoop 上好像就完了但其实权限管理目录管理上下线都需要一套逻辑。

知乎用户 柚子 发表

删库跑路。。。。。。

打工这辈子是不可能打工滴;

知乎用户 一点点 vvv​​ 发表

好像事故是另外的 bug 引起的吧

知乎用户 cc feng 发表

我带新人,一开始都是给小账号练习,还要检查下有没有什么没备份的,赶紧处理下。没删过库的,都是还没成长的,给那么大权限,给自己挖坑

知乎用户 龙律师​ 发表

应该没啥影响 首先一般这样的系统都有备份 对公司没多大影响 其次员工一般只要不是故意的 属于工作失误或过失 员工也不用承担任何责任 最多领导批评教育下 因为劳动关系中公司和员工处于不对等地位 所以更多对员工保护 只要员工不是重大失误或故意的 一般不用承担任何责任 这也是很多公司鼓励员工创新试错 一旦成功可能带来更多意想不到的收获

知乎用户 冰镇柠檬水 发表

吃了没有备份的亏了吧,明明知道要给实习生用,不 copy 一份给他而是直接让他使用唯一的数据?

知乎用户 名字啊 发表

第一反应:实习生哪儿来的权限…….

第二反应:啊啊啊啊啊啊啊……. 卧槽,我要多建几个用户…….

我发誓以后我再也不偷懒了!

知乎用户 天凉了 发表

能让你碰的问题都不大

知乎用户 zzy7​ 发表

站着看啊

知乎用户 心悦 3 发表

从删库到提桶跑路,
依稀记得某运营设备供应商维护设备 删除系统重要文件,
造成中国移动广西分公司几十万人手机没网络

知乎用户 Fier​ 发表

问题不大 一般都有备份的 找找 hdfs 的人恢复下好了呀

知乎用户 迪丽热渣渣辉 发表

rm -rf /

yyds

知乎用户 无我画派 - 能言鸟​ 发表

实习生能做到这种事情,说明字节很重视实习生的参与感()

实习生能做到这种事情,说明字节连实习生都给很重的活儿()

我是不明白,为什么实习生这么高的权限

知乎用户 ApsarasX​ 发表

据说下面这行命令就是那个实习生执行删除操作的命令

hadoop fs -Ddfs.client.skip_trash.disable=false -rm -skipTrash -r

shell 解析器:现在就是后悔,非常后悔

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

如何看待链家程序员删除财务数据获刑 7 年?

知乎用户 诗与星空​ 发表 我比较感兴趣的是这句: 链家公司为恢复数据及重新构建财务系统共计花费人民币 18 万元。 从这句话看,公司财务数据库大概率没有异地备份。如果有备份的话,恢复系统只是小时级的体力活,不大可能需要 18 万。 这么看 …

作为一个程序员,你可以接受比你年龄小的人做领导吗?

知乎用户 程墨 Morgan​ 发表 我接受,而且我觉得,不只是程序员,任何一个职场人都应该接受年龄比你小的人成为你的领导。 我在刚加入 Hulu 的时候,第一个领导是外籍华人,他年龄就比我小,他的编程能力可能没有我高,对于一些技术的理解也 …

如何看待阿里 CEO 张勇认为程序员不应限制年龄?

知乎用户 三叔侃侃 发表 一家公司因为性别歧视被举报。理由是招聘启事上写着 “不招女生”。 老板把 HR 喊来大骂一顿:写出来干啥,只喊男生来面试不就行了? 同理,一家公司因为年龄歧视被举报。理由是不招 35 岁以上程序员。 老板把 HR …