腾讯云:颜面尽失的草台班子

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

昨天下午,2024年04月08日,腾讯云出现了一场全球性的大故障,用腾讯云官方的说法,崩了 74 分钟(15:31 - 16:45),波及全球 17 个区域与数十款服务。

事实影响是什么

但这与我观察到的事实不符 —— 从故障范围上来说,这次的故障几乎是去年阿里云双十一史诗级大故障的翻版 —— 小道消息是整个管控面 GG,云 API 挂了,所以现象与去年阿里云如出一辙:依赖云 API 的云产品控制台不能用了。

被管控的纯资源,如云服务器 CVM,云数据库 RDS, 设置了公开读写访问对象存储 COS 不受影响可以继续使用。然而依赖认证与API 的各种云 PaaS 服务,例如标准的私有读写的对象存储 COS,就抓瞎了。

因为阿里云至今没有做一个像样的事后故障复盘,因此在《我们能从阿里云史诗级故障中学到什么》中,我为阿里云的这次故障做了非官方的技术复盘。同样的判断逻辑完全也适用于这次故障 —— 这样的爆炸半径,根因出在 Auth 上的概率很大。目前,腾讯云仍然没有给出官方的事后故障复盘报告,也可能不会有了。

忽悠人的状态页

我的朋友杨攀曾写过一篇《中国云服务走向全球?先把 Status Page 搞定》,讨论了 Status Page (服务健康状态页)对于公有云服务的重要性,各家本土云厂商也跟进了这一特性,包括腾讯云。—— 状态页能在服务宕机的情况下有效减少客户的焦虑,降低沟通成本,但它的核心价值在于 “建立与客户的信任关系”。

看上去,腾讯云与阿里云的 Status Page 反应都比较迟缓,在故障发生后三四十分钟才开始更新。而不是像 Cloudflare 等产品一样及时更新故障,或采用自动化方式监测到故障后立即推送。但不同于阿里云 —— 虽慢却诚实地标记了所有服务受到影响,腾讯云的 Status Page 连基本的真实性与准确性都堪称稀烂。

例如,受到影响的对象存储 COS 服务,在有用户上报问题的几个可用区中,我并没有看到 Status 标红。而这样的例子还有更多。事实上如果问题真出在管控 API 上,那么影响的范围应该和阿里云一样 —— 所有服务的控制面。因此,这样鸡贼的做法只会给客户留下:“不透明、有猫腻“ 的负面印象。

撒谎的三无公告

在故障出现 40 ~ 50 分钟后,腾讯云终于发出了第一份故障公告,也是截止到目前 Status Page 上唯一一份公告。但其内容就一句话 —— 三无公告:无时间(故障时间),无地点(可用区/AZ),无范围(影响服务)。而且姗姗来迟,比我替它发的公告《【腾讯】云计算史诗级二翻车来了》还晚了十分钟。

但这份公告最致命的问题是真实性与准确性:首先,故障绝对不仅仅是“控制台”,而是整个控制面。作为一个专业的云计算服务供应商,一字之差天壤之别,混淆两者区别的原因,要么是蠢(缺乏专业素养,台面混为一谈)。要么是坏(避重就轻,推卸责任)。

请问,一个全身休克的人,说他 “面色异常”,这是一个真诚的回复吗?请问,一台被砸烂的笔记本电脑,说它“敲击键盘没有反应”是一个有意义的描述吗?同理,一个控制面爆炸的公有云,说自己“控制台异常”,是一个认真的回复吗?

其次,从事后官微的发布与用户群的反馈来看,在这个时间,“目前故障已恢复”  是在撒谎。至少相当一部分服务的可用性事件是在 16:45 标记恢复的,在17 点前后,腾讯云产品吐槽群中也仍然有一些问题上报。

我认为这份对腾讯云带来的伤害远比服务宕机要大的多 —— 首先,在及时性,准确性上体现出了极差的专业素养。其次,在真实性上有意做手脚,会伤及公有云,或者说一切生意的根本 —— 诚信这对品牌形象是一个摧毁性打击。

灾难级别的公关

按理说,出现了这么严重的故障,应当用诚恳认真的态度去处理,但腾讯云官方微博居然还在抖机灵 —— 堪称灾难级别的公关水平

这条微博也再次扇了腾讯云自己官网公告的大嘴巴子 —— 16:45 分发第一条帖子时,“工程师仍在紧急修复中”,17:16,距离第一次报告故障的 15:31已经过去近两个小时,“已经整体恢复”。然而,根据腾讯云官网 16:21 发布的公告[1]声称:“故障已恢复”。从实际情况来看,再次证明了官网公告在说谎

阿里云双十一大故障的时候,刚刚开完云栖大会,打脸了吹下的极致高可用的牛逼,但毕竟隔了一周了。而腾讯云这次大故障的同时还在开发布会吹牛逼,还找特大号发了一篇软文:《太意外了!国内80%大模型都存在鹅厂!》,发布时间 16:19,2分钟后官网发出故障通告,堪称光速打脸二次方。

与之形成鲜明对照的是,去年 11 月 Cloudflare 的故障,Cloudflare CEO Matthew 亲自出来对故障进行道歉与复盘,相比之下,国内云厂商的危机公关堪称灾难级别 —— 彻底做实了草台班子的称号。

实锤的草台班子

请允许我引用瑞典马工的一句名言 :“阿里云是个工程质量差劲的正经云,但腾讯云是一群业余销售加业务码农玩游戏”。所谓光鲜亮丽的大厂,在里面也不过是一个又一个的草台班子。

Reference

公告: https://cloud.tencent.com/announce/detail/1995

https://www.oschina.net/news/286685

https://www.v2ex.com/t/1030638

https://www.v2ex.com/t/103061

云计算泥石流

曾几何时,“上云“近乎成为技术圈的政治正确,整整一代应用开发者的视野被云遮蔽。就让我们用实打实的数据分析与亲身经历,讲清楚公有云租赁模式的价值与陷阱 —— 在这个降本增效的时代中,供您借鉴与参考。

【腾讯】云计算史诗级二翻车来了

从降本增笑到真的降本增效

我们能从阿里云史诗级故障中学到什么

阿里云周爆:云数据库管控又挂了

【阿里】云计算史诗级大翻车来了

牙膏云?您可别吹捧云厂商了

罗永浩救不了牙膏云

吊打公有云的赛博佛祖 Cloudflare

云计算为啥还没挖沙子赚钱?

FinOps终点是下云

卡在政企客户门口的阿里云

云厂商眼中的客户:又穷又闲又缺爱

阿里云降价背后折射出的绝望

迷失在阿里云的年轻人

互联网故障背后的草台班子们

门内的国企如何看门外的云厂商

剖析云算力成本,阿里云真的降价了吗?

Redis不开源是“开源”之耻,更是公有云之耻

公有云厂商卖的云计算到底是什么玩意?

重新拿回计算机硬件的红利

扒皮云对象存储:从降本到杀猪

云盘是不是杀猪盘?

垃圾腾讯云CDN:从入门到放弃

云SLA是不是安慰剂?

杀猪盘真的降价了吗?

范式转移:从云到本地优先

云计算反叛军

下云高可用的秘诀:拒绝智力自慰

半年下云省千万:DHH下云FAQ答疑

是时候放弃云计算了吗?

下云奥德赛

RDS阉掉了PostgreSQL的灵魂

云数据库是不是智商税

DBA会被云淘汰吗?

更好的开源RDS替代:Pigsty

驳《再论为什么你不应该招DBA》

云RDS:从删库到跑路

数据库应该放入K8S里吗?

点一个关注 ⭐️,精彩不迷路

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

如何看待郑州市核酸查询网址被微信封了?

知乎用户 苏莉安​ 发表 微信内浏览器封网址的规律就四点:看心情,没规则,有黑幕,一言堂。 最常见的封禁原因是诱导分享、诱导关注、有害内容。 但什么叫诱导分享,哪些内容有害,从头到尾都是一团浆糊,没有标准,更没有客服人员给你解释。 地方政府 …

动物都是好动物

原创 杨乃悟 星球商业评论 星球商业评论 微信号 xqnews 功能介绍 星球之上无新事 发表于 2013年,昆明动物园的猴山遇到了麻烦。 因为食物充足猴们就比较浪费,加上猴山上又有很多洞,导致这里鼠患成灾。按照园方说法,猴山上的老鼠一度 …

消失的呐喊

**【虽千万人,吾往矣。】 ** 1 2012年,腾讯公司旗下,推出了一个既有力度也有深度的公众号@腾讯《大家》。 所谓“大家”,意在集华语写作之大家手笔,为中文互联网用户提供最具魅力的经典文字,打造最有力量的互联网言论阵地、最有价值的网络 …

如何看待茅台市值超过腾讯位列第一?

知乎用户 一直住顶楼​ 发表 说明茅台的消费群体比腾讯的消费群体在当前高质量经济发展环境中的消费能力更具韧性,代表了更先进的生产力方向。 知乎用户 金熙原 发表 狠狠卡美国脖子,真正的大国重器,这种高精尖科技就是给咱们十台光刻机都不换 知乎 …