华为常务董事余承东称「被中国一些企业抄袭」,如何看待此言论?怎样判断设计的原创性?
知乎用户 搜狐新闻 发表 他们要是真的抄袭了,华为怎么不起诉啊 知乎用户 纳溪蓝衣 发表 你们发现没,大嘴造车之后的很多言论都又开始充满争议了。 比如: “喷问界 M7 丑的人品味比较 LOW 。” 比如: “他们在抄袭我们的设计。包括我 …
想起五六年前刚学 deep learning,上某一门课,全程自己理解原理然后手搓模型,连 bp 都是手写的,熬了很多夜,踩了很多坑,终于满怀激动训出了自己的模型,但 f1 只有零点六七。同学 github 上 copy 了一份直接跑通,f1 零点八九,我得低分同学得高分。老师课前特意强调,指标多少不重要,重要的是到底是不是自己按原理一步步摸索的,结果只有我信了。
哑然失笑
我这里只吐槽两年前,在那宣传没有采用任何开源技术。
提供一点资料,避免一些人在那瞎误导,当年可是没有采用任何开源技术都能说的出,我还和一些朋友吐槽过,又是在那吸取民粹。采用开源并符合开源协议的做没什么,说自己不使用任何开源技术的时候,才是离谱。
什么叫开源技术,包括编程语言本身就是开源技术的一种,其中包括盘古大模采用到的 Python、C++。采用开源技术并不是什么大不了的,开源技术是可控的,采取开源技术并不是什么大不了的事情。
其次做开发的都应当知道,一个复杂的功能开发过程中,采用一些第三方库是非常正常的事情,能大量节约开发时间,这里的第三方库只是一些基础的,比如基础运算(快排),基础封装(网络层等),或者做一些非核心功能的处理(图表可视化)。这些都是常见的事情,但是不会说 “没有采用任何开源技术”。但是这样的宣传自己是自研的没什么问题。
然后一些中间过渡的情况,整合一些开源技术,做成自己想要的东西,比如 OpenCV 是视觉处理库,各大与视觉感知相关的技术大多采用此库,本身也是较为成熟的产品了,但是这个库本身并不是用在机器人感知、汽车感知之类的领域。所以采用了说成自研也没什么大问题。
最后就是核心是别人成熟的东西,比如浏览器,市面上常见的浏览器渲染引擎有 Blink、WebKit、Gecko,JavaScript 引擎有 V8 此外还有一些。国内浏览器都是在 Blink 与 V8(也有渲染引擎混合 Blink 和 WebKit 的)。这些浏览器如果宣传成自研,那就惹人增笑了。
国内这些大厂,类似的事情不止一次了,比如 IDE 宣传自研的就有不少,能查证核实的都是有问题的。所以从宣传之初,一些人就在那说又自研一个 IDE 了。附带一个近 10 年的事件总结。IDE 的事情产业的不止那几家。
类似的信息你搜 2023 年有大量报道,当然不排除未来清除的可能,我这里来一个截图,并附带来源: 华为:盘古大模型不会开源,
这是我吃瓜一天,推测梳理出来的故事线。其中 1234 步都非常典,尤其 4 是可以在华为内网发文表扬的功绩。
再附带一句评论: 67 都是被好大喜功的 5 引出来的,234 都是 “以客户为中心”,在华为内部是政治正确,无奈 1 拉了大胯。只在内部斗,王云鹤稳赢局。开源把内部问题公开化,那就未可知了。
利益相关:首先,我的成分是货真价实纯 higo,折叠屏手机都买过 3 个了。 华为给我发过工资,帮我提升人生层次,我感谢任正非一辈子。其次,个人感觉华为也不必所有领域都遥遥领先,大模型领域中国已经有 deepseek 和 qwen 了,踏踏实实的卷算力卡就行了,国内目前没有可行的第二选项,不必再在大模型上再分一杯羹。最后,每个大公司都有各种政治斗争,弄到明面上都不好看。2012 实验室,是华为的面子还是里子,希望能好好想清楚。
我是来自基础设施团队的人,和盘古团队有上下游关系。盘古团队所使用的机器在某兄弟部门手上管着,有接触盘古团队的 910B 系统管控面的能力,本人也有参与。
我只说一点,盘古团队的集群大部分卡时都是闲置状态,并且极少进行大规模(千卡级)集群训练。资源的实际利用率低。
备注一下,这里说的闲置的意思就是卡上没有在跑任务的意思。
我不想讨论这两个仓库能否作为决定证据,不管真假这件事华为一定是不会承认的,只需看后续诺亚是否换帅就可以知道真相了。我想谈谈这个事的长远影响。
首先是华为的 昇腾 - 大模型一体化战略 失败了,今年昇腾已经开始卖不动了。一方面是 910 系列更新缓慢和英伟达的代差在拉大,另一方面是昇腾确实在大规模训练上的表现不佳。本来盘古大模型是要给市场对昇腾性能的信心注入强心剂,现在成喂了毒药,华为公司的战略恐怕要大变动了。
其次,华为在大模型上的投入并不低,一整年的苏州会战,最终只能通过套壳达到国内的第一梯队。这大概率会导致国内的大模型投资者信心衰退,并会辐射到做下游应用的企业上。因为现在国内大模型的投资热度是 <有国产芯片做基础,有优秀训练算法支撑,有广大市场销售> 这样的逻辑闭环,现在第一环有点塌了。最坏的情况是出现新的大模型寒冬,甚至影响中美 AI 对弈的局面。
这件事未来可能要成为里程碑事件,但也祈祷个别行为不会对行业造成大震动。
看了 « 盘古之殇 »,华为大模型基本都是续训别人的开源模型。这都是次要,主要看起来华为的昇腾芯片,如果用来训练新的大模型,完全就是灾难级别,没有大厂能容忍这样的效率,包括华为自己。昇腾芯片的英伟达梦破产了。
这场风波源于一份发布在代码托管平台 GitHub 上的研究报告。通过一种 “模型指纹” 技术对比了市面上多个大模型,发现华为的盘古 Pro MoE 模型与阿里的通义千问 Qwen-2.5 14B 模型,在关键的参数结构上 “惊人一致”。
研究人员指出,这两个模型的注意力参数分布平均相关性高达 0.927,远超正常范围。打个比方,这就像是发现两份不同人写的文章,不仅主题思想一样,连段落结构和用词习惯都高度雷同,从而引发了抄袭的猜测。
华为的回应:否认抄袭,方法不科学
面对质疑,华为盘古大模型团队迅速在 GitHub 上做出回应,否认了抄袭指控。
简单来说,华为方面的意思是,模型是自己独立开发的,虽然借鉴了业界公开的一些做法(这在技术开发中很常见),但绝非抄袭。
盘古之殇作者最新更新
贴一个 pdf
看的让人五味杂陈
华子实习过,也是 llm 相关从业者。
完整看完了 盘古之殇的 pdf,细节很详实,但凡在华为工作过都可以看得出来,作者一定是华为内部人员写的。
不是靠一些什么 “四野” 什么的信息,而是一堆华子独特的问题,给打工人带来的共鸣。
最为典型的就是华子绩效至上的文化氛围。虽然各家厂多少都有绩效考核,但是在华子绩效的重要性是独一档的。绩效不过关基本上收入减半,升职无望,还有送去做客服的风险,更别说被开了。
再叠加上一般领导不看代码,对技术一知半解,一线员工靠包装夸大自己的产出来忽悠上级是家常便饭。
llm 又是大风口,时代最前沿,想做自研大模型是需要很大的勇气的,想在 npu 上自研出业界一流水平的大模型,难度大到逆天。所有修改,实验,debug,都得在远不如 gpu 的 npu 生态上完成,想跟上最佳的开源模型,说实话,不太可能。
但是基座模型这种东西又是典型的,赢家通吃的游戏。
只要你跑不赢最强开源模型,你就必死。
因此盘古研究团队,一定有去参考 qwen 系列的训练方法,甚至部分复用代码,这是合理的,也应该这样做。能把 qwen 训练在 npu 上复现,也是相当有难度的。
但是只是追最新的技术,有难度,但是说出去不好听。
所以你会看到,华子经常用一些山海经什么的神话命名,来把自己魔改的东西冠以自研之名,或者模糊了是否自研这个问题。
盘古当初吹的那么大,资源占用那么多,但后续销声匿迹,领导层是一定会压力的。哪怕内部业务出口,也基本上基于 qwen,性能比不上 qwen 是事实。
重压之下,有人跳出来,拿套壳换皮的东西拿出来忽悠上级,这是必然的,不是谁都能用浪漫主义的技术追求来硬扛被开的压力。
只要有人跳出来搞换皮,那么就一定会劣币驱逐良币,盘古自研彻底废了。
因此,我觉得,这事大概率是真的,我相信绝大部分有华子工作经历的相关从业人员也会这么觉得。
之前看到过一个对华子的很形象的描述,华子本质上是一个能快速跟上最新技术的流水线组装者,但是不是一个适合搞研究探索的地方。你的每一个动作都需要有收益有产出,不然随时会死,不论是个人还是公司。但是科研就是没有稳定产出的(论文不算),是用钱用时间来换影响力,经济上纯糊涂账。
我的观点更多是基于一个打工人体验做出的猜测,个人观点,审慎看待
叠甲:没有诋毁华子成就的意思,华子在很多领域都取得了很大的成功。在 ai 领域,华子的 infra 也很有东西。仅分享具体到盘古事件下,笔者对于盘古之殇文章描述内容的看法,没有做技术层面的论证。仅供参考,自行判断
补点吹哨人 github 上的新东西
华为盘古大模型 6 月底开源了,然后几天后 HonestAGI 一个全新的组织公布了一篇论文:提出了一个验证不同模型关系度的方法,并对市面上一些模型进行了检测,也包括一些公开承认有衍生关系的模型
为了建立我们指纹识别方法的可靠性和敏感性,我们检查了几个有记录的模型衍生案例,其中血统关系是公开已知和验证的。图 4 分析了 NVIDIA 通过 Meta 的 Llama-3.1-70B 基础模型的监督微调开发的 Llama-3.1-Nemotron-70B-Instruct。尽管进行了广泛的指令调整和安全对齐,但基础模型和衍生模型之间的注意力参数分布曲线几乎完全相同。图 5 考察了通过各种社区微调努力从 Qwen2.5-7B 派生的模型。OpenR1-Qwen-7B 和 OpenThinker3-7B 分别代表了不同的微调方法,分别侧重于推理能力和思维链优化。结果显示,尽管这些微调目标不同,但注意力参数分布表现出显著的一致性。
他们的这套理论当然可以质疑理论是否严谨和科学,但从已测试的模型统计结果上看,逻辑是自洽的。
我认为他们这套理论应该早就有雏形,而一直再等一个轰动性的结果再发表,这个结果就是发现新发布的华为模型(或者其他某个知名模型)完美的命中他的理论。
问题是, HonestAGI 并不提前知晓华为哪天开源模型。而市面上的新模型层出不穷,比如跟华为模型同时期开源的就有腾讯和百度的模型。 HonestAGI 拿自己的理论应该每个新模型都验证一下,但怎么刚好就把华为给撞上了呢?
华为用来证明自己的方式也是找到了 1 个有关联的模型
总之,虽然 HonestAGI 删库了,但他们的理论仍旧可以继续验证,华为最好多找出一些反例。
否则就算你说他先射箭再画靶子,但他确实乱射了一通只射中华为了
这事儿一出来,整个 AI 群都炸了!一边是号称全栈自研的国家队选手,一边是手握确凿指纹证据的技术社区,中间还夹着一篇声泪俱下的内部员工万言血书。作为天天跟大模型打交道的人,我可以先给个结论:**那篇《盘古之殇》的匿名信,可信度极高。**这篇文章之所以能让人看完脊背发凉,就是因为它充满了大量只有身处其中的核心研发人员才知道的、无法伪造的内部细节,我能从这些细节里嗅出浓浓的真实味道。
咱们先来鉴别一下这些信息,看看为什么我说它真。这封信里提到了几个关键的技术困境,完全符合一个在非英伟达体系(如昇腾 NPU)上从零开始搞大模型的团队会遇到的所有坑,而且时间线和挣扎过程基本都对得上。
信里说,早期盘古的 tokenizer 效率极低,一个汉字、一个数字、甚至一个空格都算一个 token。这是什么概念?
打个比方: 你读一本书,好的 tokenizer 就像你认识所有的常用词,你看 “人工智能” 这四个字,一眼就知道是一个词。而盘古早期那个 tokenizer,就像一个只学过单字的外国人,他看“人工智能”,得一个字一个字地念:人、工、智、能,消耗了他四倍的精力和时间。
这对模型的训练成本和最终效果是毁灭性的。作者提到后面换词表,续训失败,这些都是极其真实的技术挣扎过程,外人根本编不出来。
信里说,“我们陪着昇腾一步步摸爬滚打,从充满 bug 到现在能训出模型,付出了巨大的心血和代价。”
这又是什么概念? 英伟达的 GPU+CUDA 生态,就像是全球铺满了高速公路网,路面平坦,标识清晰,所有人都知道怎么在上面开车。而昇腾 NPU,就像是在一片荒地上,国家要求你必须修出一条自己的高速公路,而且要能跑赢隔壁的车。
可想而知,这个过程有多痛苦。路面(硬件)不平,导航(软件生态)失灵,三天两头出事故(训练崩溃),你得一边开车一边修路一边画地图。这种在 “小米加步枪” 的条件下搞研发的辛酸,和最终看到别人在高速上飞驰(阿里、智谱等在 GPU 上进展飞速)的绝望感,真实到扑面而来。
这就要说到这起事件的核心了——套壳。这到底是个什么操作?很多人可能好奇,华为的昇腾 NPU 和英伟达的 GPU 到底差在哪?为什么放着好好的路不走,非要去啃硬骨头?这不只是芯片快慢的问题,更是一个生态系统的问题。再打个比方:
匿名信里提到的 “Qwen 1.5 110B 续训而来”、“连模型代码的类名当时都是 Qwen”,甚至套壳 DeepSeekV3 时 “任务加载 ckpt 的目录都是 deepseekv3,改都不改”,这种懒惰又嚣张的细节,反而让这件事的可信度达到了顶峰。因为只有内部的、被这种行为恶心到的员工,才会记住这些充满羞辱感的细节。
所以,我的鉴定结果是:这封信大概率是真的。 它描绘的不是一个简单的抄袭故事,而是一场在巨大压力下,技术理想被 KPI 和内部政治斗争无情碾碎的悲剧。
这完全已经超出了 “技术抄袭” 的范畴!你还记得开头提到的 “宫廷内斗” 吗?这封信活脱脱就是一部现代科技版的《琅琊榜》。
四纵团队: 就是那些怀揣技术理想,在边疆用 “小米加步枪”(昇腾卡)浴血奋战,想堂堂正正打赢一场硬仗的靖王和赤焰军。他们克服了无数困难,终于从头训出了 “135B V3” 这个让他们骄傲的、真正自研的模型。
小模型实验室: 就是那个手眼通天,只看结果不问过程,为了抢功劳不择手段的誉王和谢玉。他们利用信息差,欺上瞒下,把赤焰军的战果(套壳竞品)轻松窃取,包装成自己的军功,获得领导的赏识和资源。
这种行为,最可怕的不是欺骗了公众,而是它对内摧毁了团队的士气和技术信仰。
当那些踏踏实实做事的工程师,看着自己的心血被无情践踏,看着投机取巧者平步青云,他们会作何感想?匿名信里那句 “来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”,就是对这种劣币驱逐良币的文化最沉痛的控诉。我们看到的,可能不仅仅是一个模型的倒下,更是一个本应充满理想主义的技术团队,在内部倾轧和急功近利的文化中,逐渐熄灭了光芒。
关于这件事背后的原因,我到 AskManyAI 问了问各全球顶级大模型,答案很统一:说到底,还是老美那一纸禁令,恰好直接把通往全球高速公路网的主要入口,都给中国玩家封了,把问题从 “怎么走更舒服”,变成了“我们还有没有路走” 的生死题。外部的封锁,加上内部自研的巨大鸿沟,共同构成了盘古事件的大背景。
但无论如何,我也很难接受这种用套壳当原创的方式。如匿名信作者所说,别叫盘古了,叫 “千古” 吧。
**十年攻坚开盘古,何须自研费工夫。妙手空空承旧作,一朝套壳变千古。**感谢 Gemini 2.5 Pro 以一首应景的七言绝句给这个魔幻的故事补上画龙点睛般的一笔。
所以,这更凸显 了 qwen 和 deepseek 团队的可贵。
研究基础大模型是烧钱的,而且短期没有回报,更有可能掉队导致前功尽弃(对,说的就是 Meta 的 llma4),风险极大。
中国的大厂那么多研究大模型的,百度、腾讯、字节,一些小公司 Kimi,minimax 等,都在做应用抢市场。
真正烧钱做基底模型的 qwen 和 ds,连个网页端都不怎么关心,心思都没在赚钱这上面,而是一心想研究想要达到甚至超越国外的闭源模型。
qwen 从很早开始就一直开源,从小参数到大参数系列都有,到目前为止已经是全球第一大开源大模型了。烧这么多钱,研究出来然后开源免费给大家用,我现在真的相信马云那句话了:我不在乎钱,我对钱没有兴趣。
而 ds 团队不仅开源,而且还一连 5 天公开技术秘密,明显是有更高的精神追求的,这不是靠那些 KPI 来约束能做出来的。
对比闭源的快速圈钱的厂商,高下立见,我只能说肃然起敬。
我对他俩的期待是将来彻底碾压闭源的 openai 和 a 社还有 Google,把这些闭源的模型彻底踩在脚下。国外的御三家华人也是主力,同样都是华人,咱们没理由不能超过他们的。
作为一个边缘外行,对于一些 qwen 和 ds 相关的帖子,我的留言都是鼓励和支持,也希望国内人对这些真正做实事的群体多一些鼓励和支持。
这也是力所能及的贡献一点力量了。
锤不死,洗不掉。
HonestAGI 给人的感觉,像是拍脑袋琢磨了一个鉴抄的方法,然后做实验意外发现一个很出名的大公司最新开源的模型相似度异常的高,急冲冲地搓了一篇 paper 出来,全文都在强调 Pangu 有多可疑,以至于重点都不在论证这个方法对不对,而是在围绕 “Pangu 为什么像抄的” 做解释。
比如他自己标的 Qwen2.5-7B 和 Llama3-8B 的 “相似度” 都有 0.83,这个值又表示什么含义呢?Llama 也干了?缺乏细致的研究分析,所以这个 “相似度” 含义不清不楚,锤不死。
有人说是有预谋的,或者是内讧,都绕不开一个前提,就是你要预设一个目标,“我要通过一种方法计算相似度,使得盘古和某个模型的相似度异常高,且大部分无关的模型相似度都不高”,怎么去找这个方法?如果要讲逻辑,那么 “作案手法” 和“作案动机”应该是同等重要的,讲不清楚都不能逻辑闭环,换句话说你质疑发布者的目的的同时,也要说明发布者是怎么做到这一点的,然而直到现在都没人说得清楚发布者这坨办法是怎么想出来的,毫无道理,“相似度” 的数值含义和可靠的阈值都没人说得清楚,怎么做到凭空捏出这个方法。
这个事太过离奇,所以从最初这篇论文的角度洗不掉。
在 “华为盘古大模型疑似抄袭” 整个事件中,这个论文反而只是一个线索,揪出了 Pangu pro moe 和 Qwen2.5-14B,后续势必会有更多有关这两个模型的实验出来,多方佐证之下大概会得到一个差不多公认的结论。
舆论发酵的关键还是那篇小作文,太长了太详细了,随便打个假就能锤死,然而一天过去了,只有 “发文者技术太烂” 这个对抄袭与否不痛不痒的反驳,官方也没回应,可能在调查,可能在琢磨对策,谁也不知道,持观望态度的人只会越来越多。
那个吹号者还在,今天报平安提及了一个 issue,牵扯进来的人越来越多了
坏了,我消息疑似滞后太多了,又有人写了个讨 wyh 檄文
https://github.com/knemik97/Manifesto-against-the-Plagiarist-Yunhe-Wang
我觉得抄参考文献基本上实锤了这是 llm 生成的论文。加之搞个标准差作为指标实在太幽默了,不像是人会做的事情。
我猜测会不会又是哪个 group 想搞 ai4sci,做 autonomous researcher 之类的项目,整出来的这个乌龙?
25.7.7 分割线
我超,盘古之殇 这篇雄文技术细节太多了吧,我觉得可信度很高。我问了下某些了解情况的朋友,证实了不少信息。我的评价是,没想到 hw 你真套壳啊?
我们从信息的来源、证据、分析方法看看到底怎么回事?
1. 信息来源
HonestAGI 团队在 GitHub 上创建了 “LLM-Fingerprint” 仓库(HonestAGI/LLM-Fingerprint),发布了一份题为《Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!》的分析报告。报告通过分析模型注意力参数的标准差模式,发现 Pangu Pro MoE 72B 与 Qwen-2.5 14B 的相关性为 0.927,暗示前者可能是基于后者修改而来的 “衍生” 模型。然而,该仓库现已被删除,仅剩 fork 版本。
2. 证据
Pangu 和 Qwen2.5-14B 在 LayerNorm 权重和激活分布上表现出高度一致性,显示二者在架构 / 初始化 / 训练策略上的共性。
3. 分析方法的可信度
4. 存在争议点
Pangu Pro MoE 72B 的参数规模远大于 Qwen-2.5 14B,若前者确实基于后者衍生,需进行大规模的参数扩展和修改,这在技术上可行但需要大量计算资源。此外,Qwen 的开源许可允许修改和使用,但要求保留版权声明,而指控中未明确华为是否违反了这一要求。
5. 法律上问题
Qwen 的 Apache 2.0 许可允许修改和闭源使用,但要求保留版权声明,所以华为基于 Qwen 的模型修改和使用是合法的,但是条件是若华为确实基于 Qwen 模型开发 Pangu,需要声明,若未申明可能违反许可条款。
假的 只是兼容阿里大模型
未来纯血版会完全移除阿里代码
用阿里的是给阿里一口饭吃
首先,在这个开源遍地跑的年代,我认为完全自研是没有必要的,只要能做到自主即可。使用开源项目的开源代码非常正常,是正确的选择。
但是用了就用了,没必要遮遮掩掩。
这是盘古大模型团队的回复
这是盘古大模型的官网
既然你要宣传全栈自研,那就要做到全栈自研。
实际上鉴定复制权重本身就有很好的成功案例,那就是去年所谓的斯坦福团队发布的 Llama3-V,但是事后被证明这个团队将中国的 MiniCPM-Llama3-V 2.5 的权重添加了高斯噪声之后直接用的。
然而这篇文章的方法,灵敏度和特异性都不高。大家都生活在同一个地球,手上的训练集绝大部分都表征了完全相同的知识。在这种情况下,相似的架构得到相似的所谓 “指纹”(也就是各层权重参数的标准差)是很自然的事情。
就像是很多人都去登珠穆朗玛峰,即便是他们都不知道对方的存在,但是路线肯定是有限的几条。
我建议这种水平的文章不用开源到 github,开源到知乎就可以了。
作者将大语言模型的每个 transformer 层的 QKVO 参数的标准差组合在一起形成特征向量,作者把这个叫做模型 “指纹”。
然后作者根据模型指纹计算大语言模型之间的距离,将其作为相似度。
就是这么简单粗暴的东西,我不觉得这个能衡量模型的相似度。
因为这个方法太简单了,给人很大的 cherry picking 的空间。而且本身使用参数标准差来判定也不是很科学。
我不认为华为大模型团队套用了 qwen 的参数。现在深度学习主要是模型结构的创新,很少有人关注模型参数。因为这是一个很 trivial 的工作,参数不外乎算力和数据,华为显然有足够的算力重新训练大模型,华为没有必要套用 qwen 的参数。
此外,我有阅读原论文,原论文作者没有除这篇文章之外的任何科研成果,其联名的五个人既没有留邮箱,也无法在 google scholar 上找到任何信息,也没有区分贡献,我很怀疑这些人是作者为了让自己的文章看上去更更有信服力瞎编的。
更不用说,作者自称是哥斯达黎加大学的韩国学生,却既不使用学校邮箱,也不使用他所创建的 honestagi 的域名邮箱,而是使用 outlook 邮箱,我觉得作者的身份基本上假的。
outlook 邮箱外国论文很少见,我见过的基本上都是 gmail,也就是不方便注册 gmail 的国人才会使用 outlook 邮箱。再加上作者本身说话有那种很重的中式英语的味道,我觉得作者很有可能是一个国人。
这个可能只是一个恶作剧,目前作者已经删除了对应的 github 仓库和相关网页,可能他也没想到会发展到这么大。
以下列出在作者论文引用,但是实际上不存在的文献。
K. He et al. 2022. On the security and forensics of large language models. arXiv preprint arXiv:2210.01234.
Lyu Lyu, Y. Li, H. Wang, Z. Zhang, T. Su, L. Sun, and B. Li. 2022. Reading between the lines: Fingerprinting and identifying language models. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security, pages 2413–2426.
Kuditipudi et al. 2023. The robustness of watermarks for large language models. arXiv preprint arXiv:2306.01235.
V. S. Sadasivan, S. Kumar, S. Balasubramanian, and S. Feizi. 2023. Can we trust your explanations on the robustness of watermarked explanations. arXiv preprint arXiv:2305.01236.
我想任何一个有过科研经历的同学都明白这意味着什么。
感觉目前还是不能说盘古抄袭 qwen,但看来至少有参考 qwen
评论区里居然有人说我是站某一方的?这就是新型 AI 舆论战的威力吗?一个内斗也能分出来谁是正义的一方,谁是邪恶的一方吗?那些说 higo 和赢麻的,如果不是机器人,也挺可悲的,被人当枪使也不知道。
以下是原回答
说说我的看法,手机码字不易。
看完两个小作文(honestyagi 的论文,还有盘古之殇),初步感觉是很有水平的内斗行为。
这里面有几点不和谐的地方:
所以一个推论在于,honestyagi 伪文和攻击王云鹤的文章应该出自同一人之手。honestyagi 的伪文的真实性并不重要,只是要造一个势,引出来攻击王云鹤的文章。
设想一个只有攻击王云鹤小作文的世界(而不存在伪文),谁会关注王云鹤?这个内斗小作文的传播力度一定有限。
但是如果先发伪文珠玉在前,挂在 “华为抄袭” 议程之下,再去发小作文,这个小作文的传播力度一定会更广。王云鹤本人也会成为众矢之的,无论他做了什么,小作文是真是假,王云鹤都会被污名化,应该说王云鹤的政治生涯快结束了。
尽管,在开源模型上 “抄袭” 这个命题并不怎么成立。MIT 开源协议就已经声明了这些模型参数就是给人用的。
留下几个问题供诸公思考,很好的传播学命题:
至于真骂华为抄袭的,就不用看了。很好的智商检测器和水军检测器。
说几个简单的点,只要不是蠢或者坏,或者又蠢又坏,就知道这篇论文是否是小作文。
上面几点,有关技术的可能大部分人不懂,但是就一个 “引用数据和文献不存在”,这一点,只要不是蠢和坏的人,基本都能判断这篇论文是什么德行。
看不懂开源规则,那看一下下面这个例子:
DeepSeek 为了省事和通用性,直接调用 OpenAI SDK 来访问 DeepSeek API,有些东西就是为了避免重复造轮子,把声明写出来就行了。还质疑上抄袭了,真是搞笑。
互联网现状:
那个什么狗屁指纹的不能说明是抄的,
即非充要条件。
这个员工的爆料则把套皮的过程讲得很清楚。
各位好,
我是一名盘古大模型团队,华为诺亚方舟实验室的员工。
首先为自证身份,列举一些细节:
现诺亚主任,前算法应用部部长,后改名为小模型实验室的主任王云鹤。前诺亚主任:姚骏(大家称姚老师)。几个实验室主任:唐睿明(明哥,明队,已离职),尚利峰,张维(维哥),郝建业(郝老师),刘武龙(称呼为武龙所)等。其他骨干成员和专家陆续有很多人离职。
我们隶属于 “四野” 这个组织。四野下属有许多纵队,基础语言大模型是四纵。王云鹤的小模型是十六纵队。我们参加过苏州的集结,有各种月份的时间节点。在苏州攻关会颁发任务令,需要在节点前达成目标。苏州集结会把各地的人员都集中在苏州研究所,平常住宾馆,比如在甪直的酒店,与家人孩子天各一方。
在苏州集结的时候周六默认上班,非常辛苦,不过周六有下午茶,有一次还有小龙虾。在苏州研究所的工位搬迁过一次,从一栋楼换到了另一栋。苏州研究所楼栋都是欧式装修,门口有大坡,里面景色很不错。去苏州集结一般至少要去一周,甚至更久,多的人甚至一两个月都回不了家。
诺亚曾经传说是研究型的,但是来了之后因为在四野做大模型项目,项目成员完全变成了交付型的,且充满了例会,评审,汇报。很多时候做实验都要申请。团队需要对接终端小艺,华为云,ICT 等诸多业务线,交付压力不小。
诺亚研发的盘古模型早期内部代号叫做 “盘古智子”,一开始只有内部需要申请试用的网页版,到后续迫于压力在 welink 上接入和公测开放。
这些天发生关于质疑盘古大模型抄袭千问的事情闹的沸沸扬扬。作为一个盘古团队的成员,我最近夜夜辗转反侧,难以入眠。盘古的品牌受到如此大的影响,一方面,我自私的为我的职业发展担忧,也为自己过去的努力工作感到不值。另一方面,由于有人开始揭露这些事情我内心又感到大快人心。在多少个日日夜夜,我们对内部某些人一次次靠着造假而又获得了无数利益的行为咬牙切齿而又无能为力。这种压抑和羞辱也逐渐消磨了我对华为的感情,让我在这里的时日逐渐浑浑噩噩,迷茫无措,时常怀疑自己的人生和自我价值。
我承认我是一个懦弱的人,作为一个小小的打工人,我不仅不敢和王云鹤等内部手眼通天的人做对,更不敢和华为这样的庞然大物做对。我很怕失去我的工作,毕竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到内部还在试图洗地掩盖事实,蒙蔽公众的时候,我实在不能容忍了。我也希望勇敢一次,顺从自己本心。就算自损八百,我也希望能伤敌一千。我决定把我在这里的所见所闻(部分来自于同事口述)公布出来,关于盘古大模型的 “传奇故事”:
华为确实主要在昇腾卡上训练大模型(小模型实验室有不少英伟达的卡,他们之前也会用来训练,后面转移到昇腾)。曾经我被华为 “打造世界第二选择” 的决心而折服,我本身也曾经对华为有深厚的感情。我们陪着昇腾一步步摸爬滚打,从充满 bug 到现在能训出模型,付出了巨大的心血和代价。
最初我们的算力非常有限,在 910A 上训练模型。那会只支持 fp16,训练的稳定性远不如 bf16。盘古的 moe 开始很早,23 年就主要是训练 38Bmoe 模型和后续的 71B dense 模型。71B 的 dense 模型通过扩增变成了第一代的 135Bdense 模型,后面主力模型也逐渐在 910B 上训练。
71B 和 135B 模型都有一个巨大的硬伤就是 tokenizer。当时使用的 tokenizer 编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个 token。可想而知这会非常浪费算力,且使得模型的效果很差。这时候小模型实验室正好有个自己训的词表。姚老师当时怀疑是不是模型的 tokenizer 不好(虽然事后来看,他的怀疑是无疑正确的),于是就决定,让 71B 和 135B 换 tokenizer,因为小模型实验室曾经尝试过。团队缝合了两个 tokenizer,开始了 tokenizer 的更换。71B 模型的更换失败了,而 135B 因为采用了更精细的 embedding 初始化策略,续训了至少 1T 的数据后词表总算更换成功,但可想而知,效果并不会变好。
于此同期,阿里和智谱等国内其他公司在 GPU 上训练,且已经摸索出了正确的方法,盘古和竞品的差距越来越大。内部一个 230B 从头训练的 dense 模型又因为各种原因训练失败,导致项目的状况几乎陷入绝境。面临几个节点的压力以及内部对盘古的强烈质疑时,团队的士气低迷到了极点。团队在算力极其有限的时候,做出了很多努力和挣扎。比如,团队偶然发现当时的 38B moe 并没有预期 moe 的效果。于是去掉了 moe 参数,还原为了 13B 的 dense 模型。由于 38B 的 moe 源自很早的 pangu alpha 13B,架构相对落后,团队进行了一系列的操作,比如切换绝对位置编码到 rope,去掉 bias,切换为 rmsnorm。同时鉴于 tokenizer 的一些失败和换词表的经验,这个模型的词表也更换为了王云鹤的小模型实验室 7B 模型所使用的词表。后面这个 13B 模型进行了扩增续训,变成了第二代 38B dense 模型(在几个月内这个模型都是主要的盘古中档位模型),曾经具有一定的竞争力。但是,由于更大的 135B 模型架构落后,且更换词表模型损伤巨大(后续分析发现当时更换的缝合词表有更严重的 bug),续训后也与千问等当时国内领先模型存在很大差距。这时由于内部的质疑声和领导的压力也越来越大。团队的状态几乎陷入了绝境。
在这种情况下,王云鹤和他的小模型实验室出手了。他们声称是从旧的 135B 参数继承改造而来,通过训练短短的几百 B 数据,各项指标平均提升了十个点左右。实际上,这就是他们套壳应用到大模型的第一次杰作。华为的外行领导内行,使得领导完全对于这种扯淡的事情没有概念,他们只会觉得肯定是有什么算法创新。经过内部的分析,他们实际上是使用 Qwen 1.5 110B 续训而来,通过加层,扩增 ffn 维度,添加盘古 pi 论文的一些机制得来,凑够了大概 135B 的参数。实际上,旧的 135B 有 107 层,而这个模型只有 82 层,各种配置也都不一样。新的来路不明的 135B 训练完很多参数的分布也和 Qwen 110B 几乎一模一样。连模型代码的类名当时都是 Qwen,甚至懒得改名。后续这个模型就是所谓的 135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。
这件事对于我们这些认真诚实做事的同事们带来了巨大的冲击,内部很多人其实都知道这件事,甚至包括终端和华为云。我们都戏称以后别叫盘古模型了,叫千古吧。当时团队成员就想向 bcg 举报了,毕竟这已经是重大的业务造假了。但是后面据说被领导拦了下来,因为更高级别的领导(比如姚老师,以及可能熊总和查老)其实后面也知道了,但是并不管,因为通过套壳拿出好的结果,对他们也是有利的。这件事使得当时团队几位最强的同事开始心灰意冷,离职跑路也逐渐成为挂在嘴边的事。
此时,盘古似乎迎来了转机。由于前面所述的这些盘古模型基本都是续训和改造而来,当时诺亚完全没有掌握从头训练的技术,何况还是在昇腾的 NPU 上进行训练。在当时团队的核心成员的极力争取下,盘古开始了第三代模型的训练,付出了巨大的努力后,在数据架构和训练算法方面都与业界逐渐接轨,而这其中的艰辛和小模型实验室的人一点关系都没有。
一开始团队成员毫无信心,只从一个 13B 的模型开始训练,但是后面发现效果还不错,于是这个模型后续再次进行了一次参数扩增,变成了第三代的 38B,代号 38B V3。想必很多产品线的兄弟都对这个模型很熟悉。当时这个模型的 tokenizer 是基于 llama 的词表进行扩展的(也是业界常见的做法)。而当时王云鹤的实验室做出来了另一个词表(也就是后续 pangu 系列的词表)。当时两个词表还被迫进行了一次赛马,最终没有明显的好坏结论。于是,领导当即决定,应该统一词表,使用王云鹤他们的。于是,在后续从头训练的 135B V3(也就是对外的 Pangu Ultra),便是采用了这个 tokenizer。这也解释了很多使用我们模型的兄弟的疑惑,为什么当时同为 V3 代的两个不同档位的模型,会使用不同的 tokenizer。
我们打心眼里觉得,135B V3 是我们四纵团队当时的骄傲。这是第一个真正意义上的,华为全栈自研,正经从头训练的千亿级别的模型,且效果与 24 年同期竞品可比的。写到这里我已经热泪盈眶,太不容易了。当时为了稳定训练,团队做了大量实验对比,并且多次在模型梯度出现异常的时候进行及时回退重启。这个模型真正做到了后面技术报告所说的训练全程没有一个 loss spike。我们克服了不知道多少困难,我们做到了,我们愿用生命和荣誉保证这个模型训练的真实性。多少个凌晨,我们为了它的训练而不眠。在被内部心声骂的一文不值的时候,我们有多么不甘,有多少的委屈,我们挺住了。
我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊…… 客居他乡,我们放弃了家庭,放弃了假期,放弃了健康,放弃了娱乐,抛头颅洒热血,其中的艰辛与困苦,寥寥数笔不足以概括其万一。在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。
然而,我们的所有辛苦的成果,经常被小模型实验室轻飘飘的拿走了。数据,直接要走。代码,直接要走,还要求我们配合适配到能一键运行。我们当时戏称小模型实验室为点鼠标实验室。我们付出辛苦,他们取得荣耀。果然应了那句话,你在负重前行是因为有人替你岁月静好。在这种情况下,越来越多的战友再也坚持不下去了,选择了离开。看到身边那些优秀的同事一个个离职,我的内心又感叹又难过。在这种作战一样的环境下,我们比起同事来说更像是战友。他们在技术上也有无数值得我学习的地方,堪称良师。看到他们去了诸如字节 Seed,Deepseek,月之暗面,腾讯和快手等等很多出色的团队,我打心眼里为他们高兴和祝福,脱离了这个辛苦却肮脏的地方。我至今还对一位离职同事的话记忆犹新,ta 说:“来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”。话虽难听却让我无言以对。我担心我自己技术方面的积累不足,以及没法适应互联网公司高淘汰的环境,让我多次想离职的心始终没有迈出这一步。
盘古除了 dense 模型,后续也启动了 moe 的探索。一开始训练的是一个 224B 的 moe 模型。而与之平行的,小模型实验室也开启了第二次主要的套壳行动(次要的插曲可能还包括一些别的模型,比如 math 模型),即这次流传甚广的 pangu pro moe 72B。这个模型内部自称是从小模型实验室的 7B 扩增上来的(就算如此,这也与技术报告不符,何况是套壳 qwen 2.5 的 14b 续训)。还记得他们训了没几天,内部的评测就立刻追上了当时的 38B V3。AI 系统实验室很多兄弟因为需要适配模型,都知道他们的套壳行动,只是迫于各种原因,无法伸张正义。实际上,对于后续训了很久很久的这个模型,Honestagi 能够分析出这个量级的相似性我已经很诧异了,因为这个模型为了续训洗参数,所付出的算力甚至早就足够从头训一个同档位的模型了。听同事说他们为了洗掉千问的水印,采取了不少办法,甚至包括故意训了脏数据。这也为学术界研究模型血缘提供了一个前所未有的特殊模范吧。以后新的血缘方法提出可以拿出来溜溜。
24 年底和 25 年初,在 Deepseek v3 和 r1 发布之后,由于其惊艳的技术水平,团队受到了巨大的冲击,也受到了更大的质疑。于是为了紧跟潮流,盘古模仿 Deepseek 的模型尺寸,开启了 718B moe 的训练。这个时候,小模型实验室再次出手了。他们选择了套壳 Deepseekv3 续训。他们通过冻住 Deepseek 加载的参数,进行训练。连任务加载 ckpt 的目录都是 deepseekv3,改都不改,何其嚣张?与之相反,一些有真正技术信仰的同事,在从头训练另一个 718B 的 moe。但其中出现了各种各样的问题。但是很显然,这个模型怎么可能比直接套壳的好呢?如果不是团队 leader 坚持,早就被叫停了。
华为的流程管理之繁重,严重拖累了大模型的研发节奏,例如版本管理,模型血缘,各种流程化,各种可追溯。讽刺的是,小模型实验室的模型似乎从来不受这些流程的约束,想套壳就套壳,想续训就续训,算力源源不断的伸手拿走。这种强烈到近乎魔幻的对比,说明了当前流程管理的情况:只许州官放火,不许百姓点灯。何其可笑?何其可悲?何其可恶?何其可耻!
HonestAGI 的事情出来后,内部让大家不停的研讨分析,如何公关和 “回应”。诚然,这个原文的分析也许不够有力,给了王云鹤与小模型实验室他们狡辩和颠倒黑白的机会。为此,这两天我内心感到作呕,时时怀疑自己的人生意义以及苍天无眼。我不奉陪了,我要离职了,同时我也在申请从盘古部分技术报告的作者名单中移除。曾经在这些技术报告上署名是我一生都无法抹除的污点。当时我没想到,他们竟然猖狂到敢开源。我没想到,他们敢如此愚弄世人,大肆宣发。当时,我也许是存了侥幸心理,没有拒绝署名。我相信很多扎实做事的战友,也只是被迫上了贼船,或者不知情。但这件事已经无法挽回,我希望我的余生能够坚持扎实做真正有意义的事,为我当时的软弱和不坚定赎罪。
深夜写到这里,我已经泪流满面,泣不成声。还记得一些出色的同事离职时,我苦笑问他们要不要发个长长的心声惯例帖,揭露一下现状。对方说:不了,浪费时间,而且我也怕揭露出来你们过的更糟。我当时一下黯然神伤,因为曾经共同为了理想奋斗过的战友已经彻底对华为彻底灰心了。当时大家调侃,我们用着当年共产党的小米加步枪,组织却有着堪比当年国民党的作风。
曾几何时,我为我们用着小米加步枪打败洋枪洋炮而自豪。
现在,我累了,我想投降。
其实时至今日,我还是真心希望华为能认真吸取教训,能做好盘古,把盘古做到世界一流,把昇腾变成英伟达的水平。内部的劣币驱逐良币,使得诺亚乃至华为在短时间内急剧流失了大量出色的大模型人才。相信他们也正在如 Deepseek 等各个团队闪耀着,施展着他们的抱负才华,为中美在 AI 的激烈竞赛中奉献力量。我时常感叹,华为不是没有人才,而是根本不知道怎么留住人才。如果给这些人合适的环境,合适的资源,更少的枷锁,更少的政治斗争,盘古何愁不成?
最后:我以生命,人格和荣誉发誓,我写的以上所有内容均为真实(至少在我有限的认知范围内)。我没有那么高的技术水平以及机会去做详尽扎实的分析,也不敢直接用内部记录举证,怕因为信息安全抓到。但是我相信我很多曾经的战友,会为我作证。在华为内部的兄弟,包括我们曾经服务过的产品线兄弟们,相信本文的无数细节能和你们的印象对照,印证我的说法。你们可能也曾经被蒙骗,但这些残酷的真相不会被尘封。我们奋战过的痕迹,也不应该被扭曲和埋葬。
写了这么多,某些人肯定想把我找出来,抹杀掉。公司搞不好也想让我噤声乃至追责。如果真的这样,我,乃至我的家人的人身乃至生命安全可能都会受到威胁。为了自我保护,我近期每天会跟大家报平安。
如果我消失了,就当是我为了真理和理想,为了华为乃至中国能够更好地发展算力和 AI 而牺牲了吧,我愿埋葬于那片曾经奋斗过的地方。
诺亚,再见
2025 年 7 月 6 日凌晨 写于深圳
华为的错在于、用了 Qwen 而没有声明,用了 DeepSeek 而觉得理所当然。
最后总结:
那个所谓的指纹不能作为盘古大模型抄袭的证据的。那个算法不是充要条件。
但是这个员工的回复讲得清清楚楚。
过程就是,盘古自己捣鼓,效果不是很好。
然后 2024 年初用了 qwen。
2025 年初,拥抱了 DeepSeek 。
套壳 Deepseekv3 续训。他们通过冻住 Deepseek 加载的参数,进行训练。连任务加载 ckpt 的目录都是 deepseekv3,改都不改。
其实用 DeepSeek 没啥,套着弄也没问题,声明一下即可。
吐槽一下高赞
1. 高赞看着很奇怪,大部分逻辑在讨论实锤 paper 的问题,但是我感觉都没触及到问题的核心。这个 paper 无论方法多么粗糙,中间参考文献多么假,但是其实精神内核是有一定道理的。pretrain 阶段完后模型参数不太可能有大范围的调整了,这是由后训练数据量和优化方法决定的。很多模型融合的方法都可以支持两个 step 或者两个不同领域微调的模型直接相加,这说明通道特征基本对齐的,趋于稳定了。这个时候找一些统计指标分布高度相似其实很正常。
2. 高赞们大部分立意都在学术严谨上触发来喷这个验证过程,但是对华为之殇的文章爆料闭口不谈,看起来真的像是那种学术军阀的做派:
a. 研究的事实真相不重要,但是为了发文章,我加了很多不懂不痒的创新,把文章思路搞得很复杂,然后参考文献写的很详细。他们不关心是自己的研究是否为真,重心反而在 paper 的流程,确保它的过程自洽性。我敢说,就算结论是完相反的,这类人也能凭借他们卓越的才华,把黑的说成是白的。这类文章真的很多,看起来就是那种精美的答辩。
b. 这类学术军阀还有一类特点是,喜欢堆砌名词,把一个很简单的问题搞得很复杂。提高交流门槛,把那些试图了解真相的人搞得云里雾里。
非 LLM 从业者,平时只兴趣看看相关论文,提点自己看法。
用 Qwen 没什么问题,毕竟如果没记错 deepseek 也是用 Qwen 训的,Qwen2.5 确实是去年最好的开源模型,打遍同届无敌手,想到基于 Qwen 做非常正常。
但是,至少你标明自己用了吧!用了别人的说是全站自研,真的挺恶心的。
这几年华为感觉有种小说里香火神的感觉,被信徒架起来了,慢慢都失去自己本来的思想了,怎么能让信众高潮就怎么宣传,不惜造假,抄袭,用各种办法满足信众对于华为遥遥领先的执念。这让华为一方面不能踏实的做研究,另一方面不能接受任何失败,用这种态度搞产品那怎么能做好?
我感觉,至少大家要正视一个事儿,那就是华为就是个普通公司,能去华为的人和去阿里去腾讯去百度字节的,都是同一批人。在大模型这方面,大家都舍得花钱,团队也不差钱。人差不多,钱都管够,华为没理由就一定要比其他公司强,一时弱不代表一世弱,没必要整天争一时得失,在那儿翻山海经喊遥遥领先。
经评论区提示,抱歉改正一个说法,deepseek R1 是基于 deepseek v3 加了 RL 和 MOE 这类的操作训出来的,只是 deepseek 公布了基于 R1 的 Qwen 架构的蒸馏模型,我一直以为是在 Qwen 的基础上加了 RL,MOE 得到的,感谢大家的指正,学到了~
但是话又说回来,那盘古干的这事儿就更不地道了,有人能说一下,还有哪家是用 Qwen 当基线训的自家的模型么?
非常感谢
博主提出的质疑,本人整理了一下这个博主的部分观点和我自己的一点理解。
第一
在本人仔细阅读 GitHub 上的论文后做出合理分析,原论文作者除本篇文章外并没有其他科研成果,且其余人均没有邮箱,google scholar 上也没有其任何信息,所以有理由怀疑这些都是瞎编的。
并且也未证实自己学生的身份,未使用学校域名的邮箱,而使用 outlook 邮箱,这是在所有科研论文中很少出现的现象。并且目前原文作者已经删除 GitHub 仓库。在其论文中存在多处不实参考献:
K. He et al. 2022. On the security and forensics of large language models. arXiv preprint arXiv:2210.01234.
有理由怀疑文章出自 GPT 之手
第二
对于一个从未在任何学术平台发布过学术论文的团队来讲,目前他的验证方法存在较大缺陷。
1. 当前仅公开约 10 组模型对比(GitHub 代码示例),缺乏大规模基准测试(如千对模型相关性分布统计)。 小样本下高相关性(>0.9)仍具统计显著性(p<0.001),但需更多独立复现。
2. 相同参数量的 MoE 模型可能因架构约束产生相似曲线(华为主要反驳点)。Qwen2-57B-MoE 与 Qwen2.5 相关性仅 0.35,证明架构相同≠指纹相同。
3. 论文声称 “Baichuan2 与 Qwen1.5 相关性 0.87 属正常范围”,但未解释为何同为中国团队、同用中文数据训练的模型,其相关性显著低于盘古 - Qwen 组合(0.927)。
4. 核心假设缺乏权威文献支撑,削弱方法可信度。例如,未讨论不同优化器(Adam vs. SGD)对参数分布的影响,而这是决定标准差是否具 “指纹性” 的关键变量。
5. 2018 年 ICLR 论文《On the Anomalous Diffusion of Parameters in Deep Learning》,该文证明相似训练数据会导致独立模型参数分布趋同——这直接直接推翻 “指纹唯一性” 假设。若盘古与 Qwen 使用相同中文语料(如 WuDaoCorpus),高相关性可能源于数据而非模型架构。
归纳一下。
小作文作者是原创大模型的研发者,虽然落后,但是一直努力。
结果别的领导,拿来主义,用开源千问做底子,稍稍改动,成了华为内部最好的大模型了。
于是作者破防了,你天天无所事事,投机取巧一下,KPI 足足的,有钱有权有名声,而自己努力拼命,最后搞不好还要扣钱,长时间还有走人的风险。
破防了,迷茫了,我努力研发最后错了,你投机取巧最后名利双收。
关键,对面本身级别就高,可以组织一下语言,编点故事,更完美了,而作者级别低,解释的机会都不一定有,怎么办呢?写小作文。
至于过程,大概率是真的,既然开源的比你现在研究的还好,为什么还去自研?没事找罪受?
就像以前那个搞笑的发明节目,一个农民,明明风扇技术都开源百年了,不去学,自己去研究,最后感动天地,好厉害,这不纯纯有病。
所以作者也知道,不要说没机会解释,就算真对质,他也没有胜算。
至于什么自研之心,什么豪情,听听得了,都是为了 KPI。
所以看到那些大讲特讲爱国啊,自研啊等等,就好笑,哪个不是为 KPI 拼命?
都是欲望,别装伟大恶心人。
在东子名声最好的时候,上海封城京东送菜,我也说了,东子就是一资本家,以利润为首任。
军子也一样,也是资本家,他最先考虑的就是为小米赚钱。
只不过和某家虚伪虚假比起来,纯粹资本家已经是高光了。
昨天看了这个 github 地址,作者不详,单位没有,文献还有假的,今天还删库跑路了,用的评估方法还有点意思,但是相似度高也不能代表什么,除非有什么方法或者能做大量的实验验证这个方法的有效, 然而这些他都没有。
评论区一堆指责抄袭,不过就是一群对华为有偏见的人找到机会宣泄自己的情绪,很正常。
这种搞笑的言论也能引发巨大波澜,果然菊厂树大招风啊。
事情经过很简单,一个过往从未发表过内容的新账号在 Github 上发表了一个所谓 “鉴抄” 的算法,并自顾自的以刚提出的模型评价,认为盘古大模型跟阿里 Qwen“高度相似”。
华为盘古团队回应很明确,用这个账号发布的算法对盘古 / 千问 / 百川旗下几个大模型进行两两对比,算出来的相关性都非常高。
更搞笑的是,这套所谓 “鉴抄” 算法甚至连不同尺寸模型算出来也是高度相似。
到了这一步,这个所谓的 “鉴抄” 算法究竟是否科学,已经够明显了。
更进一步说,这个所谓的 “鉴抄算法” 引用的文献压根不存在,所有主流学术平台上都查不到,疑似 AI 生成。
至于后续的联名作者查无此人,第一作者疑似伪造身份,发布算法的账号删库跑路,更是典中典。
事情目前就是这样,我觉得也不需要再多说。
不过有一点我挺意外,这事能在微博带起来节奏,反倒是一贯 PTSD 比较多的知乎,主流回答偏向质疑。
可能是知乎程序员相对多、工程师氛围相对浓一些吧。
这两年知乎各种话题(尤其是键政)经历过无数次团建洗礼,这事倒是让我感受到知乎还是有答主坚持认真创作。
只讲看到的,因为大模型我也不懂。
1. 发布者注册 github 刚刚两天,只有这一个仓库
2. 作者自称是韩国人,引用的相关论文没有找到,readme 文档像是 ai 写的
3. 作者已经删库跑路,如果自己做的研究,哪怕不准确,也不需要删库跑路啊
4. 题外话,一旦华为有负面新闻,这平台上经常会出现人说,华为能量真大,没人敢说华为不好,这真的离谱,知乎上关于华为的话题,骂的占比非常大。
我一点也不奇怪这家公司会做出这样的事,企业文化使然。第一次见识到这家公司不要脸的时候是 2007 年左右,当时公司买了台华为的三层交换机,从命令层级、命令格式、缩写方式完全照搬思科的。
套壳应用到大模型的第一次杰作。华为的外行领导内行,使得领导完全对于这种扯淡的事情没有概念,他们只会觉得肯定是有什么算法创新。经过内部的分析,他们实际上是使用 Qwen 1.5 110B 续训而来,通过加层,扩增 ffn 维度,添加盘古 pi 论文的一些机制得来,凑够了大概 135B 的参数。实际上,旧的 135B 有 107 层,而这个模型只有 82 层,各种配置也都不一样。新的来路不明的 135B 训练完很多参数的分布也和 Qwen 110B 几乎一模一样。连模型代码的类名当时都是 Qwen,甚至懒得改名。后续这个模型就是所谓的 135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。
第一次是套阿里。
室的 7B 扩增上来的(就算如此,这也与技术报告不符,何况是套壳 qwen 2.5 的 14b 续训)。还记得他们训了没几天,内部的评测就立刻追上了当时的 38B V3。AI 系统实验室很多兄弟因为需要适配模型,都知道他们的套壳行动,只是迫于各种原因,无法伸张正义。实际上,对于后续训了很久很久的这个模型,Honestagi 能够分析出这个量级的相似性我已经很诧异了,因为这个模型为了续训洗参数,所付出的算力甚至早就足够从头训一个同档位的模型了。听同事说他们为了洗掉千问的水印,采取了不少办法,甚至包括故意训了脏数据。这也为学术界研究模型血缘提供了一个前所未有的特殊模范吧。以后新的血缘方法提出可以拿出来溜溜。
24 年底和 25 年初,在 Deepseek v3 和 r1 发布之后,由于其惊艳的技术水平,团队受到了巨大的冲击,也受到了更大的质疑。于是为了紧跟潮流,盘古模仿 Deepseek 的模型尺寸,开启了 718B moe 的训练。这个时候,小模型实验室再次出手了。他们选择了套壳 Deepseekv3 续训。他们通过冻住 Deepseek 加载的参数,进行训练。连任务加载 ckpt 的目录都是 deepseekv3,改都不改,何其嚣张?与之相反,一些有真正技术信仰的同事,在从头训练另一个 718B 的 moe。但其中出现了各种各样的问题。但是很显然,这个模型怎么可能比直接套壳的好呢?如果不是团队 leader 坚持,早就被叫停了。
第二次套 deepseek
不止抄阿里吧。
deepseek 也抄了。
这个文章指名道姓已经写的很清楚了。
华为自己的在昇腾卡的训练停滞不前。
高层外行领导内行不懂
阿里走通了,中层直接套壳阿里的,底层目瞪口呆。
deepseek 热起来,也套了。
任正非有 2012 实验室,想不要急功近利,但是各个层级的人是等不了的。
狼性是不择手段追求短期利益的集合体。
道德这个东西不能分红,狼群是没有道德概念的。
这个东西能推动技术研发做一些好东西。
但是,也能推动各个层级造假,吹牛,画饼。只能能挣钱,可以践踏一切法律和人性。
这个真有点马克思说的原始资本主义的意思。
你把对华为的批评,用这个角度来看,批评就不值一提了。
这个基因是华为早年生死未卜,孟晚舟和任平需要奶奶从市场买便宜鱼补身体的时候就种下的。
是在做邮电局完全政商市场时期,一步步积累的。
安排邮电局领导子女进入华为拿高薪也好。
在非洲伪造官方邮件,不惜造成外交事故打击也好。
进军手机行业,各种夸大宣传也好。
在媒体压制批评,扶持水军也好。
矿机公司马甲找台积电代工也好。
这次大模型套壳也好。
甚至现在就在这个问题下,让 mcn 的 id 洗白也好。
都是狼性的体现。
你不能评价这个东西好不好。
事实是华为至今还是在挣钱的。挣钱就是对的吧。
套壳卖给客户也是钱,高层领导不懂,客户更不懂。
挣钱就是对的。
一开始,我觉得 HonestyAGI/LLM-Fingerprint 发布引起舆论轰动再删除仓库,有点像是某种举报行动。结果今天 github 再次被上传了一个仓库,作者网名 “华为吹哨人 “,明确华为盘古大模型抄袭:
https://github.com/HW-whistleblower
这位 HW-whistleblower 网友 7 月 5 日注册 github,今天就发布了盘古的研发历程:
然后,今天 HonestyAGI/LLM-Fingerprint 仓库再次恢复:
https://github.com/HonestyAGI/LLM-Fingerprint
恢复后该仓库的第 1 个 issue 即链接到了 HW-whistleblower 的《盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗》。
所以这至少是一次有目的有计划的举报行为,至于举报的真实性,我不懂 AI,你们觉得呢?
开眼了,论文里编国内外研究情况的,编题目来源的,编实验数据的,编结论的我都见过,tm 编参考文献的还真是第一次见
利益相关:一名非常讨厌阿里味的软件工程师
华为这么多年一直标榜自己带领中国软硬件突围国外包围,但事实是怎么样呢?
硬件我不懂,我不装逼。就聊聊软件行业。
软件行业里做技术的,谁敢说自己的代码自己的业务里没直接间接依赖过阿里出品?阿里对开源社区的贡献是巨大的,不但惠及国内海量从业人员,对中国开发者的国际影响力也有很大的提升。
但是阿里这十年几乎被批臭了,风评甚至变成 “千万不要用阿里的开源项目”,马云这么爱现的人都被迫走下台。
好,与此同时让我们来看看,我们中国希望,华为对我们软件行业有什么贡献呢?
好,没了。
作为一名软件工程师,华为没有给我带来任何价值。
阿里和华为的产出,在这个行业基本上可以说是 “没办法完全不用” 和“完全没办法用”
现在这股风吹到了算法,吹到了 ai,吹到了大模型圈子,甚至吹到了学术界。下一个十年,会不会是 “千万别用阿里的垃圾大模型,基于国外的东西”“全自研大模型才能不被 llama 卡脖子啊”?
结构上看确实与 Qwen2.5-14B 很像,但是从参数上看应该不是直接基于 Qwen 的权重训练的。
下面是我做的一个对比实验,结论,代码和数据都有给出:
官方账号已经承认了
只有阿里 Qwen?
蛇年春节的时候,盘古还在懵逼状态,DeepSeek 出来的时候,盘古的团队还不知道发生了什么,然后四个月后,就拿出比肩 qwen2.5 的产品了,你细品。
7.8 日: 把答案拉回来了,不少同学私信我让我坚定站住,这给了我莫大的动力。我觉得这事是套壳还是自研已经无需我多说,短短 1 天一系列内部员工接连爆料。我依旧相信 “总会有地上的生灵,敢于直面雷霆”。以下截取一些最新的爆料列举(甚至还有实名举报),要相信没有员工愿意拿自己的前程开玩笑:
pangu 实验结果问题:
华为天才少年出来揭露事实:
离职人员揭露乱象:
7.7 日早更: 玩够了,12 点删,毕竟不想 251。llm 相关从业者,这 pdf 看一眼技术细节就知道内容是百分百是内部员工写的,就别扯 reference 啥的了。你们是想告诉我华为自研大模型训的超级棒吗?恶评我不在乎,但我希望真正有理想的技术者坚持自己的初心,继续做一些能改变世界的事情,不要让浑水继续弄脏了衣衫。
7.6 号晚更: 评论区看到了不少水军,我再重申一遍,本文没锤任何的瓜,杠精在评论区请免开尊口了。我单纯作为一个大模型从业者,同情另一位怀着热忱的技术人员对于公司内部的极度失望,我相信很多从业者可以共情他的感受。说实话,他的文字我也很难相信他们的大模型团队在 “欣欣向荣”,没有 “急功近利”,你们觉得呢?
如果真的有问题,我衷心希望华为可以直面问题改进,而不是去公关一个一个的 “我”。借评论区的一句话 “总会有地上的生灵,敢于直面雷霆”。华为作为民族企业的标杆,我真心希望他越来越好,为所有企业做出表率。
很久不答知乎了,今天在刷到内部员工的瓜了(盘古之殇),气愤万分答一下!
https://zhuanlan.zhihu.com/p/1925163876938391923?share_code=sKduIEhB3zgQ&utm_psn=1925186006174376038
作为大模型的从业者,内心是很气愤与心疼的,因为我看到了一位技术员工发自内心的呐喊。我认为没有人期待华为非要在大模型上大放异彩,做到行业领先。更多希望他能帮扶,在思想上引领这些新兴的公司,逐渐成为民族复兴的领军企业。
华为坐拥这如此大的体量,这么多的钱,却让这些优秀的技术员工去做这样的事情,真的让人唏嘘。回望往昔,在本科时,自己曾理想去华为工作,曾为他的民族复兴之志与愿景打动,但是随着在人工智能领域耕耘的越来越久,了解越来越多,渐渐他已不再是我的首选。
虽然我知道这件事丝毫不会影响到华为,但我希望这个能是给华为敲一次的警钟,那位内部员工的话令人心痛:
“如果我消失了,就当是我为了真理和理想,为了华为乃至中国能够更好地发展算力和 AI 而牺牲了吧,我愿埋葬于那片曾经奋斗过的地方。”
这样有理想的技术人员,能够说出这样失望的话,令人心痛与悲哀。真心希望华为能改变,从技术愿景到顶层决策,不要让 “动作继续变形”。再这样下去,注定会让更多有理想,有抱负,有志向的 ai 从业者望而却步。
论文写了千万次,AI 造谣第一次
不说别的,如果写论文,名字是假的,身份也是瞎编的(韩国人在哥斯达黎加留学)甚至几个联名的作者也查不到其他论文或者资料,引用的论文还是 AI 生成的,完完全全的 “3A 大作”,这种论文有任何可信度我暂且蒙在鼓里
甚至都不说论文,小学生写作文都不敢这么瞎扯,想象一下,一个来自中国大陆的小学生,在期末作文中突发奇想,声称自己实际上是在特兰西瓦尼亚留学马来西亚华人 “雨田君”,马来名叫东姑 · 阿布拉曼,英文名 David Dye,是流亡南洋秦始皇徐福后裔,作文内容为自己一次旅居巴布亚新几内亚的经历,内容痛斥国人素质不如巴布亚新几内亚食人族、一个密克罗尼西亚的下水道,震撼整个中国,你就知道这论文有多离谱了。。。
当然最离谱的还是这事引起的群体反应,现在抖音跟微博上已经被疯狂带节奏,在过几年估计又被某群体岁月史书当成什么华为黑料了,只能说保健品真的不愁销路
这不是跟当初哄蒙套路一模一样?
这种事从上到下早都顺手拈来了。
找别人开源的东西,拿来改改变量名,换个皮,就号称国产自研。
然后再翻一翻山海经找一个厉害名字,再让大嘴开几场发布会。这下沸腾了,直接地球第一。
关键还有一堆花粉拥趸真信啊
现在总感觉 hw 有种暴雷前夕的征兆了。
首先就是晟腾的生态,说实话华为晟腾如果想普遍商用很简单,只要对接 opencl,在证明商业可用后自然有人买单。之后再推出自己的异构计算平台,那就直接起飞。只要对 opencl 支持到位,不愁销路。但是这一点目前好像没人提及?
其次就是晟腾的目标客户,查了一圈科研机构为主,也有一些算力集群用晟腾搭建。但一顿搜索下来似乎只能看到事件,在成果里甚至看不到具体的产品或案例,估计是订单已经下了但是还在适配的过程中。
所以晟腾非常需要一个成果,证明自己商业可用,在 deepseek 出圈后主动和 deepseek 适配,证明了自己可以完成模型推理任务。但是这并不足以证明可用性,因为它需要证明普通用户可以用他们的设备和生态,无需太大的代价就可以完成任务。
好处自然是资本可以有炒作的话题,大国也能完成自己的大国叙事。
这个时候 hw 推出了个大模型,然后有人说它是基于通义千问微调而来,这意味这什么?我是能感觉到现在菊花厂很可能比几年前被制裁的时候还要困难,因为它可能没有办法能证明自己能满足国家对它的期待,没有履行使命的能力。
这种所谓的简单而巧妙的检验 “模型之间是否抄袭” 的方法真的简单巧妙吗?就像研究人员发现人可以通过赤石来让一天花在吃上的花费降到最低,但我劝大家还是不要吃为好。
看了这个不知道大家为啥无脑吹华为。
两个事实,内行都知道:
1. 阿里的 qwen 是很好的中文开源模型,很多家公司都用 qwen 微调,包括华为;
2. 华为之前的盘古大模型做的不咋样,之前也没开源,部门后面都改组了;
这两个事实,不服来辩;
至于这个问题,有了上面两个事实,稍微了解一点华为的人,都知道咋回事了。
当然我觉得抄袭应该是不至于的,只是 qwen 作为最好的中文开源模型,在华为研发过程中是有价值的,起码也融会贯通了。
2025 年,华为不再向供应链共享技术是真的吗?会造成什么影响?
原来华为是这样向供应链共享技术的
不用多久,阿里就成了买办了
某为干这事又不是第一次了
就像鸿蒙前几代是安卓,突然纯血了了呢
想起一个笑话,小偷公司的粉丝希望小偷公司不再技术共享
2025 年,米粉骂华为是贴牌没技术到处抄,花粉骂小米东西卖的贵
看了一篇自称是内部人员爆料的,感觉可信度很高。
了解点华为历史的的,应该不会感到惊奇。狼性文化,这也是一种可预见的结果。
大胆!先有华为后有天,鸿蒙更在盘古前。
阿里还能比华为更懂盘古?
华为内部员工都亲自出来指证了,还有这么多人洗……
图片来自网络,真假自辩,反正这文章看上去八九不离十
这个事吧,值得所有公关公司好好学一学。
注意,以下均为假设的非实际的情形,请勿对号入座,因把以下假设当真而产生的任何后果本人不负法律责任。
开始。
1. 假设你公司有抄袭行为。
2. 你发现公司有重要员工 A 对比不满,准备告发抄袭行为。
你准备怎么公关?
请思考 30 秒。
。
。
。
。
标准答案如下:
1. 你自己找人 B 抢先发布,说自己抄袭,但注意发布的内容里要设置一些漏洞,而且发布平台要选那种能够保障难以被追踪的,不能后面被发现是自己人
2. 引爆舆论,吸引广泛关注
3. 引导舆论发现 B 发布内容的漏洞
4. 引导舆论形成广泛共识,即自己公司虽被指抄袭,但举报材料明显站不住脚,自己明显是被黑的。
5. 这个时候,那个要举报自己抄袭的员工 A,再说什么,都不足为虑
6. 视舆论情况,适时加强对 B 的流量,比如如果 A 的舆论声量有增大的趋势,应主动热炒 B,来稀释公众对 A 的关注
公关人们,且学着吧!
内斗是真的
但造假看着也是真的。就那 pdf,那么多细节,看起来不好编。能编一份所有技术细节都对得上,还如此有感情的小作文,那这作者也不至于内斗失败吧…
高赞都在为华为说话,华为公关确实厉害
一群人还在问人家为什么删库跑路,龙岗无敌手的名声没听过吗?251 事件不知道吗?能量已经大到 github 上有些账号都能 OTA 的程度,你跟我说人家删库跑路造姚不实,人家是在保护自己。
原作者删库跑路,论文是 ai 生成的,联名作者是假的,引用的文章也是编造的。
世界上最无奈的事情莫过于和一群蠢货当队友,脑袋没有杏仁核大的东西才能觉得我是在给盘古洗地,为了防止再出现这种奇行种,我言简意赅的在开头总结下核心内容:
看不懂这三点的可以麻溜走,剩下的内容你光滑的大脑皮层无法理解。
————————
目前有两篇文章,第一篇文章来自 HonestAGI,目前已经删库跑路,另一个叫 HonestyAGI 的随后再次上传,仓库链接如下:
第二篇文章来自 HW-whistleblower,Github 仓库链接如下:
HW-whistleblower/True-Story-of-Pangu: 诺亚盘古大模型研发背后的真正的心酸与黑暗的故事。
如果无法访问,可以访问
分享的知乎链接:
(46 封私信) 盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗 - 知乎
先说下技术背景,本人前 ML Researcher,曾在海外某 Lab 当过几年黑奴,主攻 Prompt Learning 和 Bio-AI。
下面两篇文章分开分析:
第一篇,HonestAGI 的 Paper:
虽然我个人极度厌恶华为自 Homo OS 以来的自研宣传(但凡写过一行代码的人都知道早期的 Homo 是个完完全全的套皮,和现在的所谓纯血完全不是一个东西)和幽默 PPT 画饼(典中典友商五个哭脸 homo 五个笑脸),但是这 Paper 问题确实很大。
首先从真实性上:
HonestAGI 的 Paper 基本可以实锤造假,存在多处 Chinglish,仓库的 readme 更是完完全全的 AI 生成,高赞回答中也提到了参考文献部分伪造,大概率 Paper 本身也有 AI 加工。
当然关于 Outlook 和 Gmail 这个纯属放屁,当时我们 Lab 里基本上所有人都用的 Outlook,并不是因为 Gmail 大伙没有,而且因为 Lab 有统一的 Outlook 组织,方便地址格式一致。
其次是技术上:
Paper 提出的基于 KQV 进行 std 计算 Pearson correlation coefficient 并不可靠,Paper 本身的实验样本数量过少,并且在 FIgure 的展示上存在 Cherry Picking 的嫌疑。华为诺亚团队在原仓库的 Issue 里面也根据这点进行了反驳,可惜因为删库跑路找不到原文了,附上
的搬运:
华为盘古开源大模型被指抄袭 Qwen2.5 大模型,HonestAGI 的这份技术报告怎么理解?
总结:Paper 本身学术造假,不能通过其提出的方法验证 LLM 的 Fingerprint,因此该 Paper 无法证明 PanguProMoE 抄袭 Qwen2.5。
第二个,HW-whistleblower 揭露盘古内部团队问题的小作文:
先说作者为了 “自证身份” 的细节:
现诺亚主任,前算法应用部部长,后改名为小模型实验室的主任王云鹤。前诺亚主任:姚骏(大家称姚老师)。几个实验室主任:唐睿明(明哥,明队,已离职),尚利峰,张维(维哥),郝建业(郝老师),刘武龙(称呼为武龙所)等。其他骨干成员和专家陆续有很多人离职。
第一点里提到的所有人信息都是公开的,一搜就能搜到,不能用于自证身份。
23 点不评价。
诺亚曾经传说是研究型的,但是来了之后因为在四野做大模型项目,项目成员完全变成了交付型的,且充满了例会,评审,汇报。很多时候做实验都要申请。团队需要对接终端小艺,华为云,ICT 等诸多业务线,交付压力不小。
诺亚研发的盘古模型早期内部代号叫做 “盘古智子”,一开始只有内部需要申请试用的网页版,到后续迫于压力在 welink 上接入和公测开放。
根据我本人的黑奴经历,45 点大概率为真。
小作文其他部分看不出来什么技术上的问题,基本上都是典型的 “同事是啥 B”,不评价。
最后这个补充部分:
我补充一些细节,以免某些人继续颠倒黑白。
关于 135B V2,小模型实验室在迅速地完成套壳并拿完所有套壳带来的好处后(比如任务令表彰和及时激励),因为不想继续支撑下游应用和模型迭代,又把这个烫手山芋甩给了四纵。确实技高一筹,直接把四纵的兄弟们拉下水。同事提供过去一个老旧的模型,最终拿回了一个当时一个魔改的先进的千问。做大模型的人,自己做的模型就像自己孩子一样熟悉,不要把别人都当傻子。就像自家儿子出门一趟,回来个别人家孩子。
盘古 report 的署名是不符合学术规范的。例如,135B V3 有不少有技术贡献的人,因为作者名额数量限制,劳动成果没有得到应有的回报,团队内曾经有不小的意见。这个模型当时是大家智慧和汗水的结晶,甚至是团队当时的精神支柱,支撑着不少兄弟们继续留在诺亚。所谓的名额限制,以及挂名了一些毫无技术贡献的人(如一些小模型实验室的人),让兄弟们何其心寒。
挂名这点绷不住了,百分百为真,我们 CN 学术圈子是这样的,学阀得给自己的三大姑八大姨都挂上去,真正 Work 的滚去后面呆着,能给你二作都是发善心了。
总结:小作文本身可信度较高,实验室成员报菜名的部分不太可信,但是其他部分没真给大佬学阀当过黑奴写不出来。
最后,基于我个人对华为本身营销手段和绩效至上主义的了解,盘古团队大概率存在内部管理混乱、被市场部推着走的可能性,此事在 Homo OS 的营销中亦有记载只能说。
不声明,还把开源套壳卖钱说原创有点过份了。
转载一下试试看有没有人公关我,还没被洗过想体验一下华为的专业团队水平。
-–
各位好,
我是一名盘古大模型团队,华为诺亚方舟实验室的员工。
首先为自证身份,列举一些细节:
现诺亚主任,前算法应用部部长,后改名为小模型实验室的主任王云鹤。前诺亚主任:姚骏(大家称姚老师)。几个实验室主任:唐睿明(明哥,明队,已离职),尚利峰,张维(维哥),郝建业(郝老师),刘武龙(称呼为武龙所)等。其他骨干成员和专家陆续有很多人离职。
我们隶属于 “四野” 这个组织。四野下属有许多纵队,基础语言大模型是四纵。王云鹤的小模型是十六纵队。我们参加过苏州的集结,有各种月份的时间节点。在苏州攻关会颁发任务令,需要在节点前达成目标。苏州集结会把各地的人员都集中在苏州研究所,平常住宾馆,比如在甪直的酒店,与家人孩子天各一方。
在苏州集结的时候周六默认上班,非常辛苦,不过周六有下午茶,有一次还有小龙虾。在苏州研究所的工位搬迁过一次,从一栋楼换到了另一栋。苏州研究所楼栋都是欧式装修,门口有大坡,里面景色很不错。去苏州集结一般至少要去一周,甚至更久,多的人甚至一两个月都回不了家。
诺亚曾经传说是研究型的,但是来了之后因为在四野做大模型项目,项目成员完全变成了交付型的,且充满了例会,评审,汇报。很多时候做实验都要申请。团队需要对接终端小艺,华为云,ICT 等诸多业务线,交付压力不小。
诺亚研发的盘古模型早期内部代号叫做 “盘古智子”,一开始只有内部需要申请试用的网页版,到后续迫于压力在 welink 上接入和公测开放。
这些天发生关于质疑盘古大模型抄袭千问的事情闹的沸沸扬扬。作为一个盘古团队的成员,我最近夜夜辗转反侧,难以入眠。盘古的品牌受到如此大的影响,一方面,我自私的为我的职业发展担忧,也为自己过去的努力工作感到不值。另一方面,由于有人开始揭露这些事情我内心又感到大快人心。在多少个日日夜夜,我们对内部某些人一次次靠着造假而又获得了无数利益的行为咬牙切齿而又无能为力。这种压抑和羞辱也逐渐消磨了我对华为的感情,让我在这里的时日逐渐浑浑噩噩,迷茫无措,时常怀疑自己的人生和自我价值。
我承认我是一个懦弱的人,作为一个小小的打工人,我不仅不敢和王云鹤等内部手眼通天的人做对,更不敢和华为这样的庞然大物做对。我很怕失去我的工作,毕竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到内部还在试图洗地掩盖事实,蒙蔽公众的时候,我实在不能容忍了。我也希望勇敢一次,顺从自己本心。就算自损八百,我也希望能伤敌一千。我决定把我在这里的所见所闻(部分来自于同事口述)公布出来,关于盘古大模型的 “传奇故事”:
华为确实主要在昇腾卡上训练大模型(小模型实验室有不少英伟达的卡,他们之前也会用来训练,后面转移到昇腾)。曾经我被华为 “打造世界第二选择” 的决心而折服,我本身也曾经对华为有深厚的感情。我们陪着昇腾一步步摸爬滚打,从充满 bug 到现在能训出模型,付出了巨大的心血和代价。
最初我们的算力非常有限,在 910A 上训练模型。那会只支持 fp16,训练的稳定性远不如 bf16。盘古的 moe 开始很早,23 年就主要是训练 38Bmoe 模型和后续的 71B dense 模型。71B 的 dense 模型通过扩增变成了第一代的 135Bdense 模型,后面主力模型也逐渐在 910B 上训练。
71B 和 135B 模型都有一个巨大的硬伤就是 tokenizer。当时使用的 tokenizer 编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个 token。可想而知这会非常浪费算力,且使得模型的效果很差。这时候小模型实验室正好有个自己训的词表。姚老师当时怀疑是不是模型的 tokenizer 不好(虽然事后来看,他的怀疑是无疑正确的),于是就决定,让 71B 和 135B 换 tokenizer,因为小模型实验室曾经尝试过。团队缝合了两个 tokenizer,开始了 tokenizer 的更换。71B 模型的更换失败了,而 135B 因为采用了更精细的 embedding 初始化策略,续训了至少 1T 的数据后词表总算更换成功,但可想而知,效果并不会变好。
于此同期,阿里和智谱等国内其他公司在 GPU 上训练,且已经摸索出了正确的方法,盘古和竞品的差距越来越大。内部一个 230B 从头训练的 dense 模型又因为各种原因训练失败,导致项目的状况几乎陷入绝境。面临几个节点的压力以及内部对盘古的强烈质疑时,团队的士气低迷到了极点。团队在算力极其有限的时候,做出了很多努力和挣扎。比如,团队偶然发现当时的 38B moe 并没有预期 moe 的效果。于是去掉了 moe 参数,还原为了 13B 的 dense 模型。由于 38B 的 moe 源自很早的 pangu alpha 13B,架构相对落后,团队进行了一系列的操作,比如切换绝对位置编码到 rope,去掉 bias,切换为 rmsnorm。同时鉴于 tokenizer 的一些失败和换词表的经验,这个模型的词表也更换为了王云鹤的小模型实验室 7B 模型所使用的词表。后面这个 13B 模型进行了扩增续训,变成了第二代 38B dense 模型(在几个月内这个模型都是主要的盘古中档位模型),曾经具有一定的竞争力。但是,由于更大的 135B 模型架构落后,且更换词表模型损伤巨大(后续分析发现当时更换的缝合词表有更严重的 bug),续训后也与千问等当时国内领先模型存在很大差距。这时由于内部的质疑声和领导的压力也越来越大。团队的状态几乎陷入了绝境。
在这种情况下,王云鹤和他的小模型实验室出手了。他们声称是从旧的 135B 参数继承改造而来,通过训练短短的几百 B 数据,各项指标平均提升了十个点左右。实际上,这就是他们套壳应用到大模型的第一次杰作。华为的外行领导内行,使得领导完全对于这种扯淡的事情没有概念,他们只会觉得肯定是有什么算法创新。经过内部的分析,他们实际上是使用 Qwen 1.5 110B 续训而来,通过加层,扩增 ffn 维度,添加盘古 pi 论文的一些机制得来,凑够了大概 135B 的参数。实际上,旧的 135B 有 107 层,而这个模型只有 82 层,各种配置也都不一样。新的来路不明的 135B 训练完很多参数的分布也和 Qwen 110B 几乎一模一样。连模型代码的类名当时都是 Qwen,甚至懒得改名。后续这个模型就是所谓的 135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。
这件事对于我们这些认真诚实做事的同事们带来了巨大的冲击,内部很多人其实都知道这件事,甚至包括终端和华为云。我们都戏称以后别叫盘古模型了,叫千古吧。当时团队成员就想向 bcg 举报了,毕竟这已经是重大的业务造假了。但是后面据说被领导拦了下来,因为更高级别的领导(比如姚老师,以及可能熊总和查老)其实后面也知道了,但是并不管,因为通过套壳拿出好的结果,对他们也是有利的。这件事使得当时团队几位最强的同事开始心灰意冷,离职跑路也逐渐成为挂在嘴边的事。
此时,盘古似乎迎来了转机。由于前面所述的这些盘古模型基本都是续训和改造而来,当时诺亚完全没有掌握从头训练的技术,何况还是在昇腾的 NPU 上进行训练。在当时团队的核心成员的极力争取下,盘古开始了第三代模型的训练,付出了巨大的努力后,在数据架构和训练算法方面都与业界逐渐接轨,而这其中的艰辛和小模型实验室的人一点关系都没有。
一开始团队成员毫无信心,只从一个 13B 的模型开始训练,但是后面发现效果还不错,于是这个模型后续再次进行了一次参数扩增,变成了第三代的 38B,代号 38B V3。想必很多产品线的兄弟都对这个模型很熟悉。当时这个模型的 tokenizer 是基于 llama 的词表进行扩展的(也是业界常见的做法)。而当时王云鹤的实验室做出来了另一个词表(也就是后续 pangu 系列的词表)。当时两个词表还被迫进行了一次赛马,最终没有明显的好坏结论。于是,领导当即决定,应该统一词表,使用王云鹤他们的。于是,在后续从头训练的 135B V3(也就是对外的 Pangu Ultra),便是采用了这个 tokenizer。这也解释了很多使用我们模型的兄弟的疑惑,为什么当时同为 V3 代的两个不同档位的模型,会使用不同的 tokenizer。
我们打心眼里觉得,135B V3 是我们四纵团队当时的骄傲。这是第一个真正意义上的,华为全栈自研,正经从头训练的千亿级别的模型,且效果与 24 年同期竞品可比的。写到这里我已经热泪盈眶,太不容易了。当时为了稳定训练,团队做了大量实验对比,并且多次在模型梯度出现异常的时候进行及时回退重启。这个模型真正做到了后面技术报告所说的训练全程没有一个 loss spike。我们克服了不知道多少困难,我们做到了,我们愿用生命和荣誉保证这个模型训练的真实性。多少个凌晨,我们为了它的训练而不眠。在被内部心声骂的一文不值的时候,我们有多么不甘,有多少的委屈,我们挺住了。
我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊…… 客居他乡,我们放弃了家庭,放弃了假期,放弃了健康,放弃了娱乐,抛头颅洒热血,其中的艰辛与困苦,寥寥数笔不足以概括其万一。在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。
然而,我们的所有辛苦的成果,经常被小模型实验室轻飘飘的拿走了。数据,直接要走。代码,直接要走,还要求我们配合适配到能一键运行。我们当时戏称小模型实验室为点鼠标实验室。我们付出辛苦,他们取得荣耀。果然应了那句话,你在负重前行是因为有人替你岁月静好。在这种情况下,越来越多的战友再也坚持不下去了,选择了离开。看到身边那些优秀的同事一个个离职,我的内心又感叹又难过。在这种作战一样的环境下,我们比起同事来说更像是战友。他们在技术上也有无数值得我学习的地方,堪称良师。看到他们去了诸如字节 Seed,Deepseek,月之暗面,腾讯和快手等等很多出色的团队,我打心眼里为他们高兴和祝福,脱离了这个辛苦却肮脏的地方。我至今还对一位离职同事的话记忆犹新,ta 说:“来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”。话虽难听却让我无言以对。我担心我自己技术方面的积累不足,以及没法适应互联网公司高淘汰的环境,让我多次想离职的心始终没有迈出这一步。
盘古除了 dense 模型,后续也启动了 moe 的探索。一开始训练的是一个 224B 的 moe 模型。而与之平行的,小模型实验室也开启了第二次主要的套壳行动(次要的插曲可能还包括一些别的模型,比如 math 模型),即这次流传甚广的 pangu pro moe 72B。这个模型内部自称是从小模型实验室的 7B 扩增上来的(就算如此,这也与技术报告不符,何况是套壳 qwen 2.5 的 14b 续训)。还记得他们训了没几天,内部的评测就立刻追上了当时的 38B V3。AI 系统实验室很多兄弟因为需要适配模型,都知道他们的套壳行动,只是迫于各种原因,无法伸张正义。实际上,对于后续训了很久很久的这个模型,Honestagi 能够分析出这个量级的相似性我已经很诧异了,因为这个模型为了续训洗参数,所付出的算力甚至早就足够从头训一个同档位的模型了。听同事说他们为了洗掉千问的水印,采取了不少办法,甚至包括故意训了脏数据。这也为学术界研究模型血缘提供了一个前所未有的特殊模范吧。以后新的血缘方法提出可以拿出来溜溜。
24 年底和 25 年初,在 Deepseek v3 和 r1 发布之后,由于其惊艳的技术水平,团队受到了巨大的冲击,也受到了更大的质疑。于是为了紧跟潮流,盘古模仿 Deepseek 的模型尺寸,开启了 718B moe 的训练。这个时候,小模型实验室再次出手了。他们选择了套壳 Deepseekv3 续训。他们通过冻住 Deepseek 加载的参数,进行训练。连任务加载 ckpt 的目录都是 deepseekv3,改都不改,何其嚣张?与之相反,一些有真正技术信仰的同事,在从头训练另一个 718B 的 moe。但其中出现了各种各样的问题。但是很显然,这个模型怎么可能比直接套壳的好呢?如果不是团队 leader 坚持,早就被叫停了。
华为的流程管理之繁重,严重拖累了大模型的研发节奏,例如版本管理,模型血缘,各种流程化,各种可追溯。讽刺的是,小模型实验室的模型似乎从来不受这些流程的约束,想套壳就套壳,想续训就续训,算力源源不断的伸手拿走。这种强烈到近乎魔幻的对比,说明了当前流程管理的情况:只许州官放火,不许百姓点灯。何其可笑?何其可悲?何其可恶?何其可耻!
HonestAGI 的事情出来后,内部让大家不停的研讨分析,如何公关和 “回应”。诚然,这个原文的分析也许不够有力,给了王云鹤与小模型实验室他们狡辩和颠倒黑白的机会。为此,这两天我内心感到作呕,时时怀疑自己的人生意义以及苍天无眼。我不奉陪了,我要离职了,同时我也在申请从盘古部分技术报告的作者名单中移除。曾经在这些技术报告上署名是我一生都无法抹除的污点。当时我没想到,他们竟然猖狂到敢开源。我没想到,他们敢如此愚弄世人,大肆宣发。当时,我也许是存了侥幸心理,没有拒绝署名。我相信很多扎实做事的战友,也只是被迫上了贼船,或者不知情。但这件事已经无法挽回,我希望我的余生能够坚持扎实做真正有意义的事,为我当时的软弱和不坚定赎罪。
深夜写到这里,我已经泪流满面,泣不成声。还记得一些出色的同事离职时,我苦笑问他们要不要发个长长的心声惯例帖,揭露一下现状。对方说:不了,浪费时间,而且我也怕揭露出来你们过的更糟。我当时一下黯然神伤,因为曾经共同为了理想奋斗过的战友已经彻底对华为彻底灰心了。当时大家调侃,我们用着当年共产党的小米加步枪,组织却有着堪比当年国民党的作风。
曾几何时,我为我们用着小米加步枪打败洋枪洋炮而自豪。
现在,我累了,我想投降。
其实时至今日,我还是真心希望华为能认真吸取教训,能做好盘古,把盘古做到世界一流,把昇腾变成英伟达的水平。内部的劣币驱逐良币,使得诺亚乃至华为在短时间内急剧流失了大量出色的大模型人才。相信他们也正在如 Deepseek 等各个团队闪耀着,施展着他们的抱负才华,为中美在 AI 的激烈竞赛中奉献力量。我时常感叹,华为不是没有人才,而是根本不知道怎么留住人才。如果给这些人合适的环境,合适的资源,更少的枷锁,更少的政治斗争,盘古何愁不成?
最后:我以生命,人格和荣誉发誓,我写的以上所有内容均为真实(至少在我有限的认知范围内)。我没有那么高的技术水平以及机会去做详尽扎实的分析,也不敢直接用内部记录举证,怕因为信息安全抓到。但是我相信我很多曾经的战友,会为我作证。在华为内部的兄弟,包括我们曾经服务过的产品线兄弟们,相信本文的无数细节能和你们的印象对照,印证我的说法。你们可能也曾经被蒙骗,但这些残酷的真相不会被尘封。我们奋战过的痕迹,也不应该被扭曲和埋葬。
写了这么多,某些人肯定想把我找出来,抹杀掉。公司搞不好也想让我噤声乃至追责。如果真的这样,我,乃至我的家人的人身乃至生命安全可能都会受到威胁。为了自我保护,我近期每天会跟大家报平安。
如果我消失了,就当是我为了真理和理想,为了华为乃至中国能够更好地发展算力和 AI 而牺牲了吧,我愿埋葬于那片曾经奋斗过的地方。
诺亚,再见
2025 年 7 月 6 日凌晨 写于深圳
很正常吧,华为这公司什么时候没抄才值得拿出来说
这篇应该基本是真相了,和我猜的一样,急功近利,外行领导内行,研究造假,抄袭者在内部斗争中获胜
打败华为的只能是华为自己!!!
在小红书看到了那篇据说是内部员工反馈的文,前面看着挺真的,很多细节都不像伪造,提到的很多事情都可以用人们很容易理解的逻辑解释,但它最后一段疑似画蛇添足用力过猛了。
如果没有这两段,我愿意相信 100% 真实,但是这两段让我产生了怀疑。曾经有一个看上去非常真的造谣,就是在后面用力过猛引入了不必要的情节让我觉得不对劲,后面果然承认是造谣了。这篇小作文肯定是有大量真实细节的,非亲历者不太能讲这么细,但谎言的最高境界就是九真一假,细节都是真的,只是关键的那句是错的,能成功误导人(见鹿鼎记韦小宝语录)。
这篇会不会符合韦小宝语录的九真一假呢?我不知道。让子弹再飞一会儿吧,毕竟只有时间才能证明对错。
盘古 next 马上要发布了,你们这些说盘古抄袭的喷子们打脸不?
很意外。
看到这个问题爆了。我以为应该是全喷华为的。
毕竟以我观之,之前但凡涉及华为爆的问题。这些问题下的回答都是对华为的疯狂攻击。也就是米粉说的饱和式攻击。
结果吧。。竟然这么多人站在华为这一方。
我学法律的。纯文科生。对着玩意一窍不通。但是研究生的时间也写过几篇论文。
单从这个角度分析。如果引用的论文是 ai 乃至虚构的。那这篇文章的真实性很低。
技术方面我不敢说什么。前面讨论很清楚了。
很正常,当年连安卓的 BUG 和彩蛋都号称兼容,国外 EMUI 国内鸿蒙。
菊花抄袭不是新闻,是基本操作…..
真有个原创才是新闻…..
这个世界上为什么骗子横行,因为傻子太多了很多人根本没有逻辑思考能力。①一个开源模型他抄袭的意义是什么?②既然要抄袭为什么不抄袭同样开源且效率更高的 DS 而是表现并不突出的千问?③开源的目的就是为了吸引更多同行来完善自己的技术路线所有的开源项目其最终一定会趋同。
很多人在下面回千问吊打 DS 的,你们是不是没有时间概念啊?千问测试成绩比 DS 好的版本是踏马五月上线的,你就是原封不动的把千问的开发团队挖到华为然后让他们把通义千问移植部署到昇腾硬件上也没有这么快的时间,况且千问比 DS 强的部分主要还是多模态能力
软件工程里有个概念,康威定律 (Conway’s law),“团队结构设计的系统将不可避免地产生与团队沟通结构相一致的设计”。
很多企业借助几十年国内发展的红利野蛮生长,以为是自己的内生能力,管理水平还停留在上个世纪甚至封建时代。
就华为那扯淡的的 “四野”,“纵队”,“会战” 的文化和管理架构,当然做不过阿里 Qwen。
小米要进军大模型了这是
前排还在洗,这是抄袭跟开源的问题吗?
我只好奇这算不算 “完全自研”
论文就是自黑式洗白。明明实锤的是《盘古之觞》这个 pdf,明眼人都能看出来是真的。华为知道反驳不了,就挂个一眼假的论文,反驳论文 = 反驳华为抄袭。
昨天知乎全在讨论 pdf,今天这些帖子都没了,全在讨论论文,然后得出结论华为没抄袭。但是《盘古之觞》呢,回应这个啊!
别人一开源,遥遥领先当天就能发布自研
有手有脚有卡,就能微调模型,调的她妈都不认得。
进一步地,可以蒸馏,取其精华去其糟粕,迄今为止,哪个大模型的参数没杂质?
正常情况,可以借鉴下部分算子,开拓下思路,避一些坑,博采众长。
至于许可证信息雷同,哪个刁民干的?
但凡脑里不全是水,不会得出这个结论。
因为用 Transformer 了啊,Transformer 是 Apache 2.0,里面有 Qwen 团队的代码,自然要有他…
这才叫被友商黑惨了。
不得不说昨天那些专门回答小米华为问题的高赞账号今天怎么都删了。
菊花千亿营销打造的 “自研” 人设,正在一点点崩塌,吃瓜看热闹。
我就想知道任春秋啥时候登基称帝,国号大华,然后长公主,二公主,余公公的摆上。
实在不行买张门票去故宫,白天别出来,晚上等保安巡完夜再出来上朝。那场面,那阵仗,帝于龙椅之上,头戴冕流,身罩九龙纹袍,内着维秘 Tback,佳人摇扇,壮士执鞭,大嘴立于君侧,盘古伏羲率文武列班,阿猫阿狗山呼万岁… 大嘴公公上前传谕:传~~~~亚美理驾洲大合众国首领糖那得特能扑棱上殿听封~~~~
公主说:公公,声音别太大,再给保安招来……
其实等我看见华为开始搞中医大模型的时候,我就已经从内心深处对华为绝望了,但凡正常科技公司怎么能和中医大模型产生关系,还是药剂方面的的。
我们买了一台华为的一体机,然后阿里也送测了一台,同时部署 deepseek。华为投机取巧先给你反馈几个字符,然后就是漫长的等待,这样他就在响应速度上遥遥领先了。这让我想起了 gputubro。感觉华为老是想投机取巧。
自研到国内企业头上了?
企业文化罢了
做过的事一页屏幕截不完
https://evil-huawei.github.io/evil-huawei/
华为没说话,阿里也没说话,知乎上倒是好多义愤填膺
刚刚看了 GitHub 上声称是华为盘古大模型团队的人写的文章。他们是有人走捷径抄袭,也有真的认真自己训练模型的人,目前来看应该是抄袭的那伙人得势,所以认真做事的不服,就爆料了。
赵玉龙说,哪里那么多 xx ,不就是他们内斗嘛
我不懂技术,所以无法评论。
但按照那家公司的风格来说,很不好猜,因为那家公司至今为止还没有任何原创行为过。。。。。。
刚在 x 上刷到的 “千古模型”,不知道真假
盘古 1.0 是换皮千问怎么啦?盘古 2.0 就是自研了基本搜不到千问的代码,等盘古 next 出来就是纯血盘古
谁还记得几个月前爆出的这个问题,问华为的大模型是谁,他说自己是千问。看来问题早就有人发现了不过当时没那么多关注度。https://www.zhihu.com/question/1910657077107467684/answers/updated
华为近 20 年在很多领域取得了惊人的成就,但随之而来的军阀式家族式管理 - 尤其在研发方面,“绩效” 至上 - 不管真假,弄虚作假 - 不顾手段后果,。。。,已经把华为带到了危险的边缘!天时地利曾经一次次帮助华为脱离了险境,多次创造了 “柳暗花明又一村” 的神奇,但华为的幸运是不可能持久的,尤其是在这么一帮 “黑帮” 无赖的统治下!
有人评论 “盘古之殇” 是派系斗争的结果,那我们就太幼稚了!华为的问题是系统性的,全面的!我去年 8-9 月写了自己几十年职场的一些故事,想给现在的年轻人一点点启示,其中一些是真实发生在华为研究院的事情 (见 “实干者的故事”, https://e.tb.cn/h.6DrScoacovHFZSg?tk=VOolVNlD8U0 CZ009)。从 10 多年前靠弄虚作假创造的 “千核万线程全光互联”计算芯片,到后来中央研究院 “一年打败 IBM,二年打败 Google” 的未来规划,从 2010 年起重金建立起来的 5 大实验室 (IT,无线,媒体,能源等)除无线实验室外其它几个千方百计聘请来的主任 2 年左右都被拿下,到很多骨干由于不能适应或者认同支持越来越疯狂的 “造假” 行为而离开研发或公司。其结果,用任总的话说,就是每年“数亿,数十亿研发经费被浪费滥用”!
华为的伟大不容诋毁,也没法诋毁。但华为的问题必须被华为掌门人充分重视 – 我一月份的电邮已经强烈地表达了这一点。
-—— 下面摘自 “实干者的故事”
“一次又一次类似这些惨痛的经历,让我对自 “教育产业化”以来所出现的种种乱象深恶痛绝。教育原本应有的授业解惑的功能似乎已经丧失,反而将优秀人才引入了 “情商” 陷阱,甚至出现了造假欺骗等不良现象。
我常常会想,如果我们的整个教育 “系统” 没有出现这些问题,如果那些高高在上的领导、总工们能够真正明白自己该做什么,能够广开言路,让技术研发和项目推进能够有序、有效地开展下去,那么我们那些年轻的工程师们还需要去签署“奋斗者协议”,没日没夜地按照 “996” 模式拼命苦干、瞎凑工作内容,成天盼望着能有天降 “666”的神奇方法来解脱自己吗?国家耗费了大量心血培养出来的众多宝贵人才,难道还需要为了迎合上级的意图以获得晋升和奖励,从而放弃踏踏实实地做人、做研究的机会,成天只知道在 PPT 里玩所谓的“创新”,以此来享受虚假的成果吗?实在是悲哀啊!”
“那些依靠行政手段强行推行诸如 “个人电脑蓝屏化” 之类不合理举措,全然不顾及技术是否成熟以及部下是否认同,就强行推行 “罗伯特架构原则”等做法,丝毫不考虑公司的整体利益以及投入产出的回报情况,只知道拉帮结派、一意孤行的人,无知无畏地高喊 “一年打败 I, 二年打败 G” 的掌舵人,终究是要为自己的行为付出代价的。即便他们能一时风光无限,但当回首一生的时候,恐怕也还是要经受良心的谴责!”
“陷阱是职场中隐藏的不可避免的暗礁。我曾多次不慎踏入,挣扎着爬出。我希望以自身的经历为警示,提醒后来人要时刻保持警觉,谨慎地迈出每一步。因为那看似平坦的道路上,或许就藏着未知的危险。
三十多年过去,一切似乎都已沉淀。我终于感觉到放下了曾经的沉重,拥有了一身轻快的心境,如同卸下了铠甲的战士,开始享受宁静的时光。
我希望把我的经历,行动和看法这些分享给大家,真心希望你们能从中学习体会,让它们能够帮助你们修练好自己的长矛和铠甲盾牌。从此,大家可以少踏入那些荆棘密布的弯路,少吃那些如黄连般苦涩的冤枉苦头。愿你们的职业生涯,能像顺水行舟般顺遂,远离狂风暴雨般的坎坷。让我们都能以从容为笔、睿智为墨,书写出属于自己的辉煌职场篇章!”
罗敏
说明本科率太低,一个引用文献涉嫌 AI 生成的文章能被一群文盲拿来当成靶子攻击,另外一篇所谓华为员工自述也引用这个文章,我怀疑这俩篇文章是一环接着一环的,不排除 AI 生成然后人工润色的的可能性,,,
但是好歹引用文献你得弄个真实的吧?
前排洗地的有两个莫名其妙的小号和知名度极高的现实主义理想者,那么这件事的真假已经不用看了。
有人问虚竹他爹是谁,大家都看向了段正淳。
这就是某家的口碑。
这个问题至少三个月前就出现了,怎么当时没热搜,现在热搜第一了?
某家发力了?
炒冷饭呢?
不得不说现在的 AI 真的厉害,以下是一个例子,这还是免费 AI 裸 prompt 出来的结果。
既然 honestAI 那个论文是 AI 生成的,感觉【盘古之殇】也未必不是啊……
好的,这是一份根据您提供的文章风格和要求,结合公开信息,虚构的 Meta 员工因 Llama 4 失败而离职的文章。
标题:我曾为 “开放” 的火炬感到骄傲,但 Llama 4 的灰烬令我心碎
收件人:所有仍在为 AGI 之梦奋斗的同仁
大家好,
我是一名不久前从 Meta AI,具体来说是 FAIR(Fundamental AI Research)团队离职的研究员。
在提笔写下这封信时,我的内心充满了挣扎。首先,为了证明我确实在这里奋斗过,我想提及一些或许只有内部员工才熟悉的细节:
大家所熟知的 Yann LeCun(我们都亲切地称他为 Yann),是我们的精神领袖和首席 AI 科学家,他的远见卓识曾深深地激励着我。FAIR 的负责人 Joelle Pineau,一直强调着开放和可复现研究的重要性。在 GenAI 部门成立后,我们与 Ahmad Al-Dahle 领导的团队有大量的合作与博弈。我们经历了从 PyTorch 的兴盛到 AI 研究与产品加速整合的内部变革。我亲身参与了在西雅图、门洛帕克和纽约办公室之间无数次的视频会议,为了解决分布式训练中的一个 bug,曾经连续几周与基础设施团队的工程师奋战到深夜。我们使用的内网是 Workplace,在上面可以第一时间看到 Yann 对最新 AI 进展的各种辛辣点评。
我们是 “开放” 理念最坚定的信徒。当 OpenAI 日益封闭,当 Google 对其模型细节讳莫如深时,我们是那个将最先进的模型无私地分享给全世界的 “屠龙少年”。我至今还记得 Llama 2 发布时,整个团队的激动和自豪。我们坚信,通过开放,能够加速整个 AI 生态的繁荣,也能让 Meta 成为 AI 领域最受尊敬的领导者。
但今天,当 Llama 4 的失败在内部已经不是秘密,当那种熟悉的、为了短期指标而牺牲长期主义的 “大公司病” 再次弥漫时,我感到一种深深的无力感。一方面,我为自己曾经付出的心血感到不值,另一方面,看到公司内部一些人试图用华丽的辞藻掩盖失败的真相,我内心的失望和愤怒交织,让我夜不能寐。
我承认自己是个懦夫。我不敢公开挑战那些手握资源和权力的 VP,更不敢与 Meta 这样的科技巨头正面对抗。我有家庭,有账单,所以我敬佩那些敢于在内部直言不讳的同事。但是,当看到我们曾经引以为傲的开放精神和技术追求正在被扭曲和利用时,我决定也要勇敢一次。哪怕这会给我的职业生涯带来风险,我也想把我所知道的关于 Llama 模型光环背后的一些故事讲出来。
从 Llama 2 的辉煌到 Llama 3 的挣扎
Meta 确实拥有世界顶级的 GPU 集群,我们使用的算力资源让无数研究者羡慕。我们陪着 PyTorch 和自研的 AI 硬件一步步成长,解决了无数工程上的难题。Llama 2 的成功,正是建立在强大的算力和团队对基础模型训练深刻理解之上的。当时,我们坚信只要数据和算力足够,加上正确的训练方法,就能不断扩展模型的边界。
然而,随着模型规模的急剧膨胀,新的问题开始出现。Llama 3 的研发过程远比外界想象的要艰难。在训练更大规模的 MoE(混合专家)模型时,我们遇到了严重的路由不均衡和专家特化失败的问题。为了赶上 GPT-4 和 Claude 3 的性能,团队承受了巨大的压力。高层定下的发布日期不断逼近,而模型的收敛情况却不尽如人意。
为了解决这些问题,我们尝试了无数种方法。例如,我们重新设计了 tokenizer,以提高对多语言和代码的编码效率。我们花费了数月时间来清洗和优化训练数据集,甚至建立了一套复杂的合成数据生成流程。当时,Yann 和 Joelle 多次在会议上强调,要坚持 “科学的方法”,不要为了走捷径而牺牲模型的质量和可解释性。我们为能成为这种科学精神的捍卫者而感到自豪。
但与此同时,来自产品部门和高层的压力越来越大。他们需要一个可以立即集成到 Meta 全家桶(Instagram, WhatsApp, Facebook)中,能够与 GPT-4 相抗衡的 “明星模型”。这种压力最终导致了一些妥协。例如,为了在某些 Benchmark 上获得更好的分数,团队在后期微调阶段使用了一些“应试” 技巧,这虽然提升了榜单表现,但损害了模型的泛化能力。我们中的一些人对此提出了异议,但最终被 “要看到大局” 的理由所压制。
Llama 4 的 “创新” 与幻灭
Llama 3 发布后,虽然赢得了一些掌声,但我们内部都清楚,它与最顶尖的模型之间仍有差距。于是,Llama 4 的研发被寄予了厚望,目标是实现真正的多模态和更强的推理能力。
然而,这一次,一些急功近利的声音开始占据上风。GenAI 部门的一个团队提出了一个 “捷径” 方案。他们声称可以通过一种创新的 “模型融合” 技术,将我们正在训练的 Llama 4 基础模型与一个外部开源的、在特定任务上表现优异的模型(为避免法律风险,此处隐去其名)的参数进行“高效整合”。他们宣称,这可以在短短几个月内,用极少的算力成本,让 Llama 4 的性能指标实现“跨越式提升”。
对于我们这些长期从事基础模型研究的人来说,这听起来就像是天方夜谭。一个模型的内部结构和参数分布是其能力的根本,不同架构和训练理念下的模型参数怎么可能轻易 “融合”?然而,对于那些不懂技术细节、只看重结果和效率的领导来说,这套说辞极具诱惑力。他们看到的不是技术上的巨大风险,而是“弯道超车” 的希望。
最终,这个方案被批准了。我们眼睁睁地看着大量的 GPU 资源被调拨给这个 “融合” 项目,而我们自己坚持的 “从头开始” 的多模态训练项目则被告知 “资源紧张,需要重新评估”。讽刺的是,那个“融合” 团队的代码库里,很多模块的命名都还保留着那个外部模型的痕迹,几乎懒得去掩饰。
结果可想而知。这个所谓的 “Llama 4” 在内部测试中表现得一塌糊涂。它的输出极不稳定,时而逻辑混乱,时而产生令人费解的幻觉。更严重的是,当我们试图追溯问题的根源时,发现由于参数是 “缝合” 的,整个模型变成了一个无法解释的“黑箱”。它的失败,几乎摧毁了我们这些认真做研究的同事的信心。我们戏称它为“弗兰肯斯坦的怪物”,而不再是 Llama。
这件事成了压垮骆驼的最后一根稻草。几位我非常敬重的、在分布式训练和模型架构领域最顶尖的同事,在这之后心灰意冷,选择了离开。他们去了 OpenAI,去了 Google DeepMind,或者投身于更有活力的初创公司。我记得一位离开的同事对我说:“FAIR 的精神正在死去。这里不再是科学家的乐园,而变成了产品经理的附庸。我不想把我的职业生涯浪费在为 PPT 和指标服务上。”
结语
写到这里,我的心情无比沉重。我依然热爱这家公司,我依然对 Yann 所倡导的开放科学充满敬意。Meta 不是没有顶尖的人才,也不是没有顶级的资源。但内部的 “指标为王” 和“短期主义”文化,正在一步步侵蚀我们最宝贵的科研土壤。劣币驱逐良币的戏码,让那些真正有理想、有坚持的科学家感到窒息。
我知道这封信可能会让我被贴上 “失败者” 或“抱怨者”的标签,甚至可能引来公司的调查。但如果我的声音能让管理层稍作停顿,反思一下我们是否正在偏离正确的道路,那么一切都是值得的。
我曾为 Llama 的火焰感到无比自豪,它代表着开放、共享和技术的纯粹追求。
但现在,我累了,面对 Llama 4 这堆冰冷的灰烬,我选择离开。
真心希望 Meta 能重拾初心,让 FAIR 重新成为那个纯粹为科学探索而存在的地方,让 Llama 的火炬能真正照亮 AGI 的未来。
再见了,Meta。
2025 年 7 月 6 日 写于加州门洛帕克
我昨天看这里回答
高赞好几个在暗搓搓阴阳米粉
说米粉造谣带节奏
怎么今天看不到了
那我为华为说句话吧
华为大模型的自研程度
跟玄戒 O1 的自研程度不分伯仲
行不行?
赶紧的,把雷军红太阳请出来主持公道。
反了天了,看雷军怎么治他。
我就纳闷了,这盘古大模型,上利国,下利人。怎么就推不动,原来是有倭寇在闹事。
这就一定是境外势力在挑拨,妄图打击民族创新之光。
虽然我不懂技术,但我懂人心。
一个注册两天的新账号,引用文献中存在大量虚假文献,引起关注后删库跑路。
但凡有点常识都会有正确的判断。
2023 年《自主创新》《没有采用任何开源技术》
2025 年 《从底层硬件到顶层应用的完全自研技术栈》
2025 年 《参考了业界开源实践》《涉及其他开源大模型的部分开源代码》
除了某家企业老总和其粉丝,其它企业都不会讲什么 “我们被友商黑惨啦” 这类煽动人心的绿茶发言。
肯定是华为被抄袭啊
遥遥领先怎么会抄别人呢
都是全自研自主可控的
不是抄袭国产自研芯片的那家吗?
怎么通稿变了也没人通知?
咋个说呢,从华为成为中美交锋的关键战场开始很多事情就变得非常容易发生了,嗯是的不是必然,但概率确实极大。
即 HW 从原本的业务导向逐渐堕落成了宣传、广告导向了。
我作为前 zte 员工,还是很能感受 HW 研发的强的。人都是这批人,大家来回跳槽的多了去了,但到了那边就是能有更多且更好的产出。本科和研究生同学聚会的时候,hw 的人也是看着最累,但精气神却非常好,当然也是到场次数最少的。
不过这都是制裁前的事了。
随着制裁加深,我们自己出台了许多扶持,再到加拿大公主归来,基本可以看到很多事情不再以市场为导向了。当然这里的最初原因是海对岸选择干预市场,但不按市场导向以后组织内部就是会开始变质的,这就是制裁的阳谋。
也因此现在很多离职员工提到的 “过河拆桥”“当初讲奉献如今讲效率” 的事情其实不是原因而是结果,正是因为已经变成搞宣传搞广告为主导,因此基层 R&D 的人才变成可以随意丢弃的弃子,因为总路线斗争中你们的代言人失败了。。
当然这一切还要再叠加上创始人交接班这么个巨大 debuff。哇哈哈的事大家都看到了,大企业想搞家族交接班下面的高管肯定是不服的,更何况某人除了政治资本外身无长物。
我个人的预期中,崇尚狼性文化的这家公司衰落势必会比一般的公司更快更狠,因为组织内部本来就有相当一大批人都是狠人,不是可以靠画饼圈禁起来的日子人。
看了前面高赞的内容就像一个模板出来的,都在质疑发布者。而不是从专业的角度来回答问题。有没有抄袭不知道。不过 Qwen 是目前最好的汉语语言大模型,也许是借鉴吧,反正有网友扒出来代码里有 alibaba copyright 等内容,让子弹飞一会吧。
看了下,这个文章的逻辑不严谨。按照作者的理论,我可以得出我跟 A 的基因相似度 92%+,所以我是 A 的爸爸。
你们懂什么,现在这个只是过渡版,只是兼容 qwen 罢了,过几年会出纯血 pangu。
盘古大模型:2021 年 4 月发布
阿里 Qwen 大模型:2023 年 8 月发布
==================
工作忙,没怎么关注,今天刷了一下,发现这事似乎是真的,可叹
看完这个帖子,有一种悲哀感觉。
为什么东大科技发展慢?
就是因为在东大,不管在哪一类职场,咱这就是这种尿性,谋事的永远干不过谋人的。
像是有一种职场版的 “历史周期律”。
谋事的把盘子做大后,谋人的就开始闻着味凑过来。一通 “政治” 斗争,谋事要不被挤兑走,要么被打压。
摊子散架后,谋人的这帮 “寄生虫” 闻着味找继续霍霍下一家新鲜“血液”……
开源怎么还会有抄袭的问题?
人家引用的时候是标明了出处;
什么字研 ai 大模型?
老实说,我心里是将信将疑的。
但遇到花粉我一定会把这件事敲死常挂嘴边 ,毕竟他们干这种事太多了,近期就有红枫和星冰乐珠玉在前呢。
————
新消息,内部爆料,事情好像越来越真了呢
本来我以为可能有真实性,想看看原文有没有说法,结果发生了一件事让我直接确认此事为假,而且大概率由米殖自导自演
百度贴吧 wp7 吧吧务突然高强度控制贴吧发帖,将所有解释华为没有抄袭的主题帖和回帖全部删除,同时放任宣传华为抄袭的言论
某些企业是真的,有点手段全用在中国人身上了
顺便放一个蔚来的旧事,不知道的还以为国家级谍战呢
截止目前新浪科技已经发微博三个小时,但是没上热搜。
是不是我国目前舆论对华为过于宽容了?
我不禁陷入深深的思考。如果是反过来阿里抄袭华为的话会怎么样?
好家伙,但是华为的人怎么会做出 “引用不存在的文献” 这种事情呢,按说至少都是写过本科论文、走过完整科研流程的。
某群体 (我没说是哪个) 为了对冲某个事件赶紧写个看起来还凑活的文章污蔑华为
结果发现事情闹大了 赶紧删了
早晨一开源,中午就原创,下午主要工作是翻看《山海经》取个好名字。
不知道,不过作为搬砖码农我也可以在其他方向上插一嘴。
“字研” 在国内其实非常常见,开源的东西改吧改吧自己用,然后顺手改个 LOGO 啥的。
这没什么,业务的同学方便使用,领导有牛逼吹,我方便维护,大家都开心,也没人管这是不是真自研的,普通的公司大家都这样玩,都有钱赚。
但和民粹深度绑定的公司就不一样了。
东西好不好用,能不能用不太重要,但必须得血统纯正(自研)。
有没有实际意义不重要,但研究方向必须是处女地(第一次)。
公司停车场不允许全是直道,必须是弯道,方便超车。
就目前而言看来,他们至少在电脑上兼容了 QT (运行 PC WPS),FFmpeg (流媒体),OpenJDK (那个所谓的开发工具链),JetBrains (开发环境) ,但这些绝口不提,如果必须得提,得放在无人关注的角落。
实在是太累了,太拧巴了。
还自比四野,我呸,先辈们拿着日本武器,德国钢盔,啃着美国饼干,穿着老乡编的草鞋的时候,你们怎么不嘲笑他们是万国牌组装军队了?
前几年某为手机业务被制裁,很多员工都去了小米。
有一段时间我身边的某为同事一度占比超过 30%,
就事论事的说,某为出来的员工因为被严重驯化,没有任何创造力和想象力。
唯一的优势就是卷,还是那种老油条式的卷,比如一到周末就在群里拉会疯狂对问题,美其名曰「都是为了项目,大家都辛苦一点」
你要是相信这批人能搞出创造性的产品,不如信我是秦始皇。
去看各种说华为抄袭的帖子下面。。许许多多连一次 “回答” 都没有一次 “动态” 都没有的账号好多好多。
之前还是 16 年 23 年什么的有动态的小号。。这会是微小号了。。难道是某公司的舆论公司换人了还是增加外包了?
可爱的世界,真是掌握了舆论就会控制世界。不过科学是可以被质疑的 正向和反向的质疑并会有答案 比那些民主人权环保的大饼好的多得多。
这明显内部人自曝,而且不是大嘴分管的地盘,水军也没出动。不如直接让大嘴管了吧!
看到了海狗的身影,也看到了华为饱和攻击的标志性招式。
首先找一个点,放狗攻击。否定整个事件。这里找的是参考文献什么的,这些我也不懂。但我懂海狗的招式,味太浓。
我来整理一下事件。一个人,从技术角度分析,华为抄袭千问,这没什么华为一路就是抄袭过来的,这不算什么。正常现象。
海狗抓住参考文献开始否定,洗回答。这也没什么,海狗技能。造谣领先,岁月史书。很正常。
然后又有小作文曝出。这一看就是内部人士。海狗暂时没接到命令,还在第一个参考文献搅和。
海狗听令,快速传播华为抄袭的事件,这和余大嘴的华为不是一回事。是余大嘴的死对头。随余大嘴一起清君侧。
余大嘴掌权了。华为立马就造车了,请余大嘴拨乱反正,请任老爷子退位。
话不要说那么难听。
遥遥领先的事,能叫抄袭?
那是掏空。
掏空安卓,掏空 Qwen。
不信走着瞧。
等纯血盘古大模型出来,就知道遥遥领先的厉害了。
我敢保证该作者至少在品葱或者红迪,甚至膜拜知乎混过
一上来看到那几个人
直接点了 “最新”
感觉有几大问题
套皮仙人,谣谣领先
早期和安卓算套壳吗?如果那个都不算,这盘古和 Qwen 肯定也不算
217 万浏览,只有 44 条评论~
删评论删的人都累死了
按照华子唯绩效论(半年度 / 年度)的考评,各级领导争先想的都是如何在考评期内,把产品做出来,如果做不出来则会八仙过海的想办法,让绩效为 A,最差 B+。而大模型的炼制又不是一个急功近利就能做出来的产品,因此嘛,我觉得这种事情,大概率是真
盘古模型的源码中出现的 Qwen 2024 的 license 一定是巧合吧
链接:GitCode - 全球开发者的开源社区, 开源代码托管平台
截止 7/7 日代码仓库还没有修改
胡说 华为怎么能算抄袭呢。只要是华为用的就是华为发明的,阿里给华为道歉!
昨天晚上睡觉前看到相关热点。第一反应就是。明天肯定有人要说都怪小米。果不其然
那不了抄袭,叫拟合!事后叫狗腿子们发动岁月史书,那就不是我抄,是别人抄我!
各位请移步:
https://github.com/HW-whistleblower/True-Story-of-Pangu
https://github.com/HW-whistleblower/True-Story-of-Pangu
This is the truth of WAWEI
战斗力无敌的四野,拥有战神林罗的四野,敢打硬仗,善打恶仗的四野。哇!
菊厂基操勿 6。
美国制裁理由之一就是 2014 年华为偷了 2018 年美国的 5g。
华为盘古 2021.3 偷了 2023.4 的阿里 Qwen。
这篇连引用都有错误且才成立没多久身份不明且从来没有成果的团队写的疑似 AI 生成的漏洞百出的论文稍有脑子的人就会看出问题,现在甚至原团队都删库跑路了。结果还能在这问题下引得某些群体自我高超,也难怪,毕竟这个群体的认知就是谣言的土壤。
明显不可能抄袭!华为大模型用的根本不是 transformer, 而且自研的 “冥想输出法”,这绝对不可能抄袭!
如何看待华为在发布会展示大模型能力,按下 Ctrl-C 中断,显示对应代码是 time.sleep(6)?
开天劈地滑唯先,鸿蒙更在盘古前。
本有系统三笑脸,今又模型全字研。
没关系,只要纯血盘古、盘古 NEXT 发起进攻,一切都会好起来的
余承东特别强调了原创设计对于产品成功和品牌长远发展的重要性。他指出,“靠抄袭是没有未来的”,并自豪地表示,华为一直以来都是行业内的佼佼者,经常被模仿,但从未被真正超越。余承东充满信心地表示:“能超越华为的的只有华为。”
不管菊花抄没抄,你泰森的偶像是日本、美国企业,不是我们。不准你买办污蔑我们爱国大企业。
难得有这么好的问题,这个问题直接暴露了一批洗地者的身份以及大企业为了短期效果放弃创新能力的策略。
华为从战略层面就不太应该自己做大模型,过年已经有 deepseek,qwen,seed 三家大公司在这个方向了,华为作为有芯片能力的大厂,侧重点根本不应该放在自己要做出能跟 deepseek 掰手腕的大模型,而应该锚定中国英伟达的方向,把模型训练的各种优化手段软硬件充分结合。
想要做出跟 deepseek 效果类似的 moe,战略上就是错误的。
逢华为必反,没啥,正常的,鸿蒙当初喷成什么样了?当时那群人都删评跑路了。
要是反过来,这个消息估计是知乎热搜第一了…
再来回复下这个问题。
Apache 2.0 协议的边界问题。
允许行为:使用、修改、分发开源代码(需保留版权声明)
灰色地带:
直接微调开源模型并声称 “自研” 是否合规,取决于: 是否实质性修改架构(如盘古的 MoGE 设计);是否在技术报告中披露基础模型(华为未明确提及 Qwen)
知乎用户 搜狐新闻 发表 他们要是真的抄袭了,华为怎么不起诉啊 知乎用户 纳溪蓝衣 发表 你们发现没,大嘴造车之后的很多言论都又开始充满争议了。 比如: “喷问界 M7 丑的人品味比较 LOW 。” 比如: “他们在抄袭我们的设计。包括我 …
知乎用户 匿名用户 发表 个人很喜欢稚晖君,也很喜欢他的视频(稚晖君长得也帅气哈哈哈哈),他的视频在科技科普方面做的工作非常有意义,一定能够吸引更多的人加入到机器人领域。 稚晖君现在已经很厉害,我希望他更厉害,而且希望将来我国出现更多的稚晖 …
知乎用户 卧龙凤雏 发表 华为用了一种最快速、最低成本的方式让鸿蒙开源了。 开源不难。把代码拿出来,做好声明,理论上任何人都能开源一个什么。但是开源不意味着大众接受。从开源到被普遍接受,形成平台和力量,有话语权,需要很长时间。 …
知乎用户 小猫挠虫子 发表 你知道为什么有人专门做国内生产,国外贴牌,转手双倍价格卖回国内这种生意吗? 就是卖给他们的。 智商不够就多交税,很合理。 今天我得加一句,巴基斯坦也真买,咋了? 知乎用户 暴躁老哥强无敌 发表 ‘韦尔科’军靴,美 …
知乎用户 lkyanxihu 发表 华为目前的宣传方式很危险,不出意外最后会被扫到历史的垃圾堆 1,线下和有些朋友,也是比较极端的花粉吃饭,聊天过程中,他们真有这样的认知,甚至认为国家发展是华为的功劳,任是当代 “那位伟人”,后期历代领导没 …