如何看待「盘古之殇」一文爆料华为盘古大模型涉嫌「套壳、续训、洗水印」？

by , at 09 July 2025, tags : 华为模型盘古团队自研 点击纠错 点击删除

使用CN2/CN2GIA顶级线路，支持Shadowsocks/V2ray科学上网，支持支付宝付款，每月仅需 5 美元

## 加入品葱精选 Telegram Channel ##

知乎用户天降神农发表

余承东，你记一下，我做如下部署调整。

以四纵十一纵加两个独立师，强化公关防线。二、三、七、八、九五个纵队加六纵十七师，抓出内鬼；十纵加一个师，在阿里、deepseek 一线阻击友商推波助澜；十二纵加十二个独立师管控相关技术人员；五纵、六纵两个师监视舆论；一纵做总预备队！

知乎用户 Snower 发表

前华子员工蹭一下，前同事写的基本上都与我的认知吻合。我的离职也和盘古大模型做的极烂相关

其实 2024 年基本上华为内部都知道盘古做的极烂，到了 2025 年，估计整个业界都知道做的极烂了

看到很多评论说原作者是斗争失败云云，其实如果真的是通过赛马看谁的大模型表现好反而是件好事，但是现在华为基本上是看谁给领导汇报的好，谁是嫡系，谁才能够赛的出来

所谓的 “四野会战”，我也参加过，其实就是一场给领导的大型表演赛而已

知乎用户八舞耶俱矢发表

团队斗争失败，抄袭等事情我没法确认。

但是关于 133B 性能那里确实没问题。华为给了我们 2 套 135B，应该是对应文章里的 135B V1 和 135B V2。

135B V1 拉跨到什么程度呢？不是和其他模型比较的问题，而是纯纯在胡言乱语，好像一个婴儿在说话，除了是一个大模型，我想不出有任何实际功能。

后面华为紧急提供了 135B V2 给我们，确实改善了不少。

过了很久，我自己也测试过了 Pangu Ultra（即文章中的 135B V3），效果还行，没有惊艳到我。

这篇文章解答我最大的疑惑，为什么华为的 135B 模型，各个版本之间的差异怎么大。

不像 qwen，chatglm，是有着一套清晰的发展轨迹的。

原来是不同团队，不同人的出品，自研 or 套壳而来的。

HonestAGI 那篇论文基本上是在扯淡，「盘古之殇」看起来有一定的可信度，但里面具体多少是可信的，哪些是可信的，我不知道。

知乎用户张少游发表

技术细节太丰富，而且基本没什么模棱两可的描述，不像编的。

这样看来，整件事情就是华为的内部斗争，搞自主研发的被搞套壳的打败了，毕竟人家效率奇高无比，更受高层青睐。

至于这件事情会有什么影响，那我估计是没啥影响，普通民众不太会关心这种细分领域的技术问题，而且即使实锤抄袭，阿里大概率也不会撕破脸来指责乃至起诉华为。过段时间大家都会忘了的，我只希望这篇文章的作者能够保全自己，希望华为不要弄个泄漏商业秘密的罪名安到他头上去。

知乎用户桑耶朴发表

关于盘古 ultra 实验图造假的质疑，更新另外两名离职员工视角的小作文。

天才少年曹焕琦实名揭露。

原作者时间线和工作内容部分可信度极高，“离职，申请除名，人身安全，报平安” 这些字眼估计是真真假假的烟雾弹。

再补充几篇其他视角的小作文，大致可以互相佐证。

知乎用户 zjmomk 发表

四野退伍将士，不请自来。

小作文写的好，前面的基本事实和我了解的差不多。我也在苏州集结了不少时间。

至于是否抄袭，不好说，不过也不关键，想说不是这个，估计最后还是能以某种方式证明是没抄袭的。

华子其实搞四野，是想用 ibm 学会的 ipd 流程来管理大模型训练，这句话写出来应该就知道成功概率很小了。最终四野真的就是一场大型真人 show，表演给领导看的。

作为离职人员，我感觉华子真的有点危险了。。集结是搞不出大模型的，作为硬件厂商，不如先把底层做好，好好卖卡就行了，小艺的业务 finetune 千问也没啥，好好做好卡和卖卡是正道。

知乎用户 Uranus 发表

补充一点观点，有的答主在说作者所在的团队技术不行，小模型团队出来救场，套壳是合理的技术路线。对于不开源的模型确实无可厚非，但如果是开源模型，我认为菜是可以的，但不透明是不应该的。

Qwen 大多采用 Apache 2.0 的开源许可证，我随便贴个链接：https://huggingface.co/Qwen/Qwen2.5-0.5B/blob/main/LICENSE

Derivative Works 这部分充分说明了如果模型确实是基于 Qwen 训练的，那么盘古应当声明这一事实。

不敢看，担心 251（bushi

正经点，前两天的 HonestAGI 锤华为的事儿以 HonestAGI 删库跑路结束。有一说一 HonestAGI 的 LLM-Fingerprint 确实没有太强的说服力。

今天盘古之殇这篇雄文横空出世也是引起了很多群友的讨论，不过很多观点与其说是对盘古的质疑，不如说是一些大家隐约感觉到的事儿被戳破之后的感叹。但不管怎么样吧，这篇文章所述也不一定是真相，大家还是理性吃瓜（容我叠个甲: D）。

抛开这个事儿不谈，我的感受是 “外行指导内行” 这种事儿在大模型这种创新密集型的领域真的是毒瘤，做决策的人如果搞不清应该长期投入的方向，要求团队反复 pivot；或者倚重 PPT 高手导致劣币驱逐良币，那失败是注定的。

Qwen 团队直接把一线最 hands on 大模型的人提拔成负责人真的太正确了！

知乎用户狄拉克之海发表

原 repo 的 issues 里有其他离职员工现身了，这篇文章可信度很高。

https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317

有人在 issue 中提问为什么 benchmark 会出现 100 分这种极其离谱的结果，有两位当事人回答了相关情况。

看完不得不感慨：官僚主义是杀死理想主义的第一步和最后一步。

知乎用户慵懒的蒸汽机发表

只要稍微有大模型训练经验的人，都能看出来这个人写的内容真实性整体问题不大，是有非常高的可信度的。

在 npu 上训练大模型，除了菊厂的自家员工，应该鹅厂家的员工感触最深吧。现阶段的 npu 搞搞推理部署啥的还行，做 research 上百卡千卡训练费点劲也还算可以，但要是纯靠 npu 自研一个业界领先的开源大模型，这个我认为是不可能完成的任务，需要华为的人才实力至少比千问高一个水平线才能做到，但显然这是不可能的。就算是采购 npu 数额最大的腾讯，混元团队的训练据我所知也是用的 n 卡。

作为研究人员，有自己的学术底线是很正常的，但是如果他自己是王云鹤，面对上面大领导提出的做到开源领先的战略目标，再看着自己面前的纯自研 npu 集群，能保住下面一帮人饭碗的唯一选择就是套壳 qwen，就算是套壳，这个工程难度也绝对是不小的。

这个问题之所以会出现，我个人认为最大的问题还是出在华为的管理和科研模式上。我能看出来的有两个问题:

外行指导内行，汇报水分太大。领导不说一行代码也没写过，但至少没有实际的大模型一线开发经验，往往会提出一些不切实际的需求，而下面的汇报人员在明知道达不成的情况下，迫于考核压力，只能画大饼忽悠领导。这种制度问题没法纯靠员工的科研操守来解决。不仅仅是大模型的汇报是这样，我现在严重怀疑，是不是 npu 团队的汇报也是这样？npu 实际上可能远远没有他们向上汇报的那么好用，可用。
用项目的方式攻关科研。在纯 research 的岗位上工作了几年后，我也亲身经历过不少集中力量办大事攻关科研难题的项目，这些项目基本没有能达到预期目标的。research 没法像工程项目一样，提前几个月就定一个精细化的每周的切实可行的计划，都是用无数试错的成本堆积而成的。华为这种攻关科研的模式，最大程度上只能追赶，很难实现超越和领先。再者说，能够在纯 npu 训练环境上复现 qwen 训练，本身就是一个非常了不起的成就了，实在是没有必要再来一个实现业界领先的目标。

最后还是挺可怜这个作者的。他是现实中非常少见的既认同华为这种攻关式科研，又有非常高的科研准则和道德操守的人。但可惜，这两种价值观是对冲的，不管去哪个科研团队，都很难碰到作者理想中的合作氛围。

知乎用户痛苦轴心发表

20250708:

事情演变很快，眼花缭乱。

如果之前指控揭露者都是 “藏头露尾” 还有点道理，现在已经快进到实名下场肉身开团了

“吹哨人” 的 GitHub 仓库中，一个 Issue 讨论（https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317）原本只是平平无奇的争论盘古论文里的数据，居然引出了数位自称前项目组相关成员，包括一位清华博士实名下场，提供了全新的、细节更丰富的解释。

根据他们的说法，盘古报告中那些饱受诟病的脑残数据，“恶意套壳” 其实只是一个表象，内在是一场由管理层急功近利、强压 KPI 所导致的工程灾难。具体而言，是为了抢在竞争对手前发布报告，团队在极度匆忙中：

使用了仅包含少量样本的 “快评” 测试结果。

采用了能让分数虚高的、非业界标准的评估方法。

而且，当团队发现这些致命错误并试图修正时，据称遭到了某王姓为首领导的否决，最终导致了 “捂盖子” 的局面。

如果属实，事情已经从底层的技术欺诈，叠加了由特定领导者引发的管理混乱和学术道德滑坡。整个事件不仅指向盘古模型、指向盘古模型项目组，更直指整个公司：

不是没能力，而是有能力但管理混乱，急功近利不择手段，顶层 KPI 压力层层加码向下传导，中层管理者上梁不正下梁歪，最终牺牲基层技术人员的科研伦理和工作成果。

20250707:

HW-whistleblower 又更新了他的吹哨信，看来还有的是瓜。

在谈这篇文章之前，我们先回到起点。

最初那份 HonestAGI 的指控报告，技术分析上是比较到位的。它提出的 “模型指纹”、“QKV 偏置重合”和 “LICENSE 文件遗留” 这三大疑点，逻辑环环相扣，置信率很高。对于一个技术背景的人来说，这绝非空穴来风。

但是，这份报告有一个致命的硬伤，那就是被扒出 “伪造参考文献”。这是一个极其业余且无法饶恕的学术不端行为。在讲求严谨和事实的技术领域，此举无异于挥刀自宫，使报告所有论点的公信力都大打折扣，也让后续出现了“数据污染” 论和 “工程疏忽” 论。可以说，在 “吹哨人” 出现前，“诚实 AI 不诚实”极大挫败了指控方的锐气，在舆论场上落了下风。

这篇文章，彻底逆转了局面。

这篇文章没有太多艰深的技术分析，取而代之的是海量的、第一人称视角的内部工作细节——具体到人名、具体到项目组织架构、具体到在苏州某个小镇集中攻关的酒店。这些细节的真实度，让这篇文章的分量变得比精妙的技术分析更重。

我们可以怀疑匿名信的动机，但伪造如此具体的内部信息，已经超越了一般 “抹黑” 的范畴。这不仅是对华为公司声誉的挑战，更是对信中被点名的所有人的直接指控，其中包含了极高的法律和刑事风险。除非作者愿意为此付出极大的代价，蹲几年大牢，否则很难想象这是凭空捏造。这份背负着巨大风险的 “投名状”，让信中那个“因自研失败而系统性套壳” 的故事，显得比任何技术分析都更触目惊心。

它让之前所有的疑点都有了答案：高度的指纹相似性，不再是 “数据污染” 的巧合，而是 “有意伪装” 后留下的痕跡；那个独特的 QKV 偏置，也不再是技术路线的趋同，而是 “直接拿来” 的铁证。

这里，我不由想起了 DeepSeek。他们横空出世时，同样面临过无数的质疑和 “溯源” 分析。但他们是怎么做的？没有铺天盖地的营销，没有诉诸情怀的公关文。他们选择用最硬核的方式回应：一次又一次地刷新全球大模型的性能榜单，用硬实力让所有的质疑者闭嘴。

这才是 AI 大模型赛道最根本的法则。它终究是一个技术驱动的领域，而不是靠营销话术和品牌光环就能高枕无忧的消费电子市场。华为在手机领域取得了巨大成功，其背后有一套非常成熟的营销和品牌叙事逻辑。但这套逻辑，在大模型的世界里，实在讲，是行不通的。任何试图将技术争议引导向商业竞争甚至家国情怀的叙事，长期来看都只会反噬自身的信誉。

Talk is cheap. Show me the code. 这是所有程序员都信奉的真理。

所以，这场闹剧该收场了。

作为同样泡在开源社区，也参与模型项目开发的一员，我真心认为应该让技术回归技术。一个连参考文献都能造假的 “诚实 AGI”，和一个深陷系统性造假指控的 “顶尖团队”，都已严重损害了社区的互信。

现在，华为方面需要回应的，不再是那份有瑕疵的 HonestAGI 报告，而是这份来自你们自己内部的、滴血的指控。如果 “吹哨人” 所言是虚假的，请拿出更有力的证据来驳斥；如果对自研的盘古有信心，那就公开更多能自证清白的技术细节和训练数据。大家把所有东西都拿到台面上来，让代码自己说话，让数据证明一切。

这远比任何一篇公关文都更有力量，也是终结这场风暴，重拾开发者与用户信任的唯一方式。

知乎用户墨荀发表

刚回答完这个问题，这又来了新鲜出炉的华为职场瓜，真的是完美印证我这个回答

如何看待华为海思 21 级大佬谈「主动管理 OD」？

其实几年前我就回答过盘古大模型的问题。

华为的盘古大模型与 ChatGPT 相比真的很落后吗？

盘古 1.0 时代本来就是给循环智能也就是月之暗面那帮团队外包开发的，本来如果能延续这个合作到现在，盘古至少可以成为类 kimi 大模型在 b 端千行百业的垂直延伸，最起码能上大模型的牌桌上，给华为各个政企军团充分在产品侧赋能，何至于那些个军团全一窝蜂的卖什么封装 deepseek+modelart 的昇腾行业一体机，特别是最近成立的这个医疗军团，这方案那咨询的本质又全都是为了卖盒子包装的话术，盘古又何至于此这一泡污鸡血，就怪某些人又菜又自信，以为厚黑学学的好真的以为能做好研发项目管理就一脚踢开循环智能，自以为真的学透了就可以自主迭代，诺亚方舟训盘古，云 EI 实验室也训盘古，今年连终端也要训盘古做行业垂类大模型（黑人问号），一堆团队都在盘古这个帽子里做垂直小模型，把一堆小模型聚合在一起就能叫大模型吗，这实质不就飞桨和 modelart 平台的小模型库吗？从 2018 年到现在 7 年了，一直在原地绕圈，比讯飞星火都不如。

不要点赞，看看得了，我也只是想随便吐槽下，个人感受，不想被跨。

知乎用户 momo 发表

盘古早期的技术选型真是无力吐槽

居然用绝对位置编码

RoPE 最早是用中文记载的

甚至早于英文论文的发表

这下子没办法甩锅给中英文信息差了

知乎用户李明殊发表

个人觉得，里边说到的大部分内容都是可信的，因为相对合理。

能成这个样子，无非就是大公司病导致的。

强如苹果，有钱有人，这么多年，连个 Siri 都搞不明白，AI 一直迟迟也端不出来。

大公司的的 KPI 决定了，最好的做法就是『不求有功但求无过』，攻坚新项目总有风险，那还不如做一些稳定不会出错的内容。

所以 AI 界一些瞩目的成就，往往是一些小公司，比如 Deepseek 搞出来的。

现在来看，Qwen 和 Gemini 能诞生在阿里和谷歌，简直可以称之为管理学奇迹了。

其实也不是那么顺的，比如谷歌一开始的 Bard 也各种招笑，直到创始人自己下场带队，才慢慢好起来的，原因还是在于，创始人就算创业失败也不会丢工作降低待遇，但是职业经理人考虑的更多是要稳。

知乎用户朱紫鹏发表

为了吃瓜，专门去看了 pangu ultra 718B 模型的论文，发现和 deepseek 的模型架构几乎一摸一样，套壳基本实锤了。

首先，和 deepseek 一样，都是 61 层，并且有 3 个 dense 层；stage 0 有 2 个 dense 层，stage 1 有 1 个 dense，加起来是 3 个 dense，和 deepseek 一样

其次，有 256 个路由专家和 1 个共享专家，并激活 8 个路由专家；每个专家的 hidden size 都是 2048

然后，注意力机制都是用的 MLA，有 128 个头

再然后，使用了 deepseek 的 MTP；

再再然后，把 hidden size 从 7168 改成了 7680，增加了 512；嗯，这是一个创新；

再再再然后，这个模型可能只训练了不到 1T 的 token，而现在 sota 的模型普遍需要训练 15～20T tokens；从截图看，大概训练了 11000 steps，按照每个 step 32M token 换算，大概是 352B tokens；当然 32M 是我拍脑袋的，但是理论上 bs 也不会比这个值大很多。

PS：整篇论文花了非常多的篇幅在论证模型结构的合理性，感觉有点过于费力的在论证了

【update 2025.7.7】

再放个论文里的对比吧，各个 benchmark 的结果，都基本和 DeepSeek 一样。如果是从头训练，使用自己的数据，相似度怎么可能这么高呢

论文在此链接可以自提：https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-moe-report.pdf

大家可以进一步移步围观 sszyd 的回答：

华为盘古开源大模型被指抄袭 Qwen2.5 大模型，HonestAGI 的这份技术报告怎么理解？ - sszyd 的回答 - 知乎

华为盘古开源大模型被指抄袭 Qwen2.5 大模型，HonestAGI 的这份技术报告怎么理解？

知乎用户互联网科技小于哥发表

有消息说年初字节还有运营商用昇腾训练 moe 都训练崩了，同样的方案在英伟达上是没问题的。所以才出了训练 718b moe 的论文。

事情的导火索是 GitHub 上一位韩国大学生用 “LLM 指纹技术” 分析发现，盘古 Pro MoE 模型和阿里通义千问 Qwen-2.5 的参数相似度高达 92.7%，远超行业正常阈值。

如果是真的对华为的影响就大了，要知道小米汽车的金身被破是因为安徽那场车祸在那之前那是怎么黑都黑不不动，华为这事要是真的绝对不亚于小米那件事，因为华为最大的宣传就是全自研加千亿研发，现在套了一个壳米粉不得大反攻。

在模型激活分析中，初步结果显示盘古仍然与 Qwen 相似，表明它们的计算模式存在显著重叠。

更关键的是，QKV 偏差模式在早期层的特征峰值及收敛行为上近乎一致——这种设计恰是 Qwen 1-2.5 代的标志性特征，而多数新模型（包括 Qwen 3）已弃用。

盘古大模型如果不是被 deepseek 打乱节奏，现在三端齐杀了，deepseek 的横空出世把中国人的焦点全给吸走了，而且 deepseek 的爆火最关键的一步就是在国外爆火，要不然在国内一辈子都在盘古的阴影之下，未出 deepseek 之前，国内吹的最多的就是这个盘古，现在的它只能窝在 g 端恰烂钱了，各地方的智慧项目，华子哥的盘中餐。

内部员工都知道盘古垃圾，哪怕都是国产模型团队，也只有盘古一家是一直坚持在昇腾 npu 上训练，完全逆主流了，几乎是需要自己开发一套新的技术路线，和在英伟达 gpu 上训好了只是简单适配昇腾 npu 不可同日而语。这个前提下做的烂一点也是正常，互相吐槽说一句昇腾垃圾盘古垃圾，也就过了。没想到这么垃圾都可能不是自己做的

国内的大模型训练有 DeepSeek 和 Qwen 已经够了，华为盘古做不好，只是华为自己的损失，不是国家的损失。但是如果昇腾芯片没有进步，确实是国家层面的损失，因为矮个里拔高个，硬件确实就这一个。华为只要能够把在昇腾上训练这一套流程打通，哪怕训出来就是不如 deepseek 和 qwen，那也是做到了该做的事情。而像小模型实验室这样搞套皮，有啥意义，只是绩效好看而已

华为以 “相同方法检测其他模型亦现高相关性” 反驳：

Baichuan2-13B vs Qwen1.5-14B = 0.87 Baichuan2-13B vs 盘古 = 0.84

核心是自研的不给力，输给了套壳的。从业务部门怎么办，客户不会为自研的买单，套壳起码能用

我们更需要自研的昇腾而不是自研的盘古。如果这个盘古不是在昇腾上面跑出来的，那强不强有啥意义，再强能吊打 deepseek？

看看英伟达，英伟达不执着于基座研究，难道不是因为之前社区已经都帮忙研究验证过了吗？昇腾的生态和英伟达比起来几乎是 0 零 zero，那昇腾就必须多做很多英伟达已经不必做的工作啊。

属实的话，这名员工堪称 “堂吉诃德”，敢于与造假者斗争到底，希望有个好结局。

座模型的架构，不是什么秘密，更不是什么玄学，数据才是各家最大的壁垒。在社区的基础上去构建自己的技术，再反馈社区，这才是一个良性循环。

知乎用户 Ariel 发表

7-7 二更：

还得是大模型啊，这热度杠杠的，db 纯纯路边一条没人关注。前几年 “100% 自研”gaussdb 的时候，一个帖子都没看到（笑

真情流露不像串的，难蚌

知乎用户还是不注名好发表

我发现这种类型的文章是在 Deep research 类应用的射程内的，华为这些人是半公开的，Deep research 类应用很容易找到是哪些 leader，而写作的手法则也有 AI 的痕迹。而且那个 honestAI 的假文献似乎也是 AI 生成的显著特征。

有趣啊…… 看来 openai 或者 anthropic 又有内部新 agent 模型了，现在的 AI 很擅长打舆论战了。

-——————————————————— 分割线，以下为原回答 ———————————–

从这个文章可以看出，这个作者自己没什么技术，甚至都没搞明白自己那个 train from scratch 的模型效果不好的实际原因，只是一味地指责【对面套壳，这不公平】。

qwen 和 deepseek 强的主要原因是合成数据搞的好，结果他这个文章里一个字都没提…… 一直在说 tokenizer。

说明华为内部，至少他这个实验室，压根就没想到去搞这一块的东西。那怎么可能成功呢？所以他们实验室输的一点都不冤。

如果华为内部没人重视这些，那你没有这些数据，train from scratch 自然是不可能成功的，唯一可能成功的方法就是小模型实验室那种，使用 qwen 和 deepseek 已有的模型，调整他们的参数，加训自己的数据。

这里主要是已有的 qwen 和 deepseek 模型里包含了 qwen 和 deepseek 的强大合成数据的信息，而这些数据对提升模型性能是非常必要的。

所以看了这篇文章，技术上只能站小模型实验室，因为这是在华为唯一可行的路径。你自己不组建个和 qwen,deepseek 一样好的合成数据团队，那显然是没法越过的。但你作为模型训练团队大概率很难在公司内部推这个，这时候你唯一办法不就是用开源模型初始化吗？

但是华为的主要目的又不在于模型，而是在于卖他自己的硬件，证明自己的硬件可以训模型。

而且 nvidia 也是这么搞的啊，nemotron 不也是套壳的 llama,qwen,deepseek 吗？硬件商证明自己的硬件可以做【高效训练模型】这件事就够了，为啥要强调 train from scratch?

人家特意搞 MIT 开源就是给你随便用的，甚至 qwen 和 deepseek 的这个【你】指的重点就是你华为，所以你用就是了。

你的目标是拿着他们的模型，做好能够训好这些模型结构的硬件，最后能够反哺到他们，而不是自己作为一个硬件商，在训模型上没技术还要坚持 train from scratch。

另外我发现有很多【自研魔怔人】，要知道自研的目的是什么。重复造轮子本来并不是好事，自研的唯一原因就是因为美国日常出台制裁政策，卡你脖子。你车造好了他把轮子给你拆了，那你肯定 GG。

那阿里和 deepseek 没事制裁华为干什么？你自己不会造轮子，有人会造而且那人也不会卡你脖子，甚至把轮子直接开放送给你用，希望你能搞个好点的发动机，那你再重复造这个轮子有意思吗？

知乎用户 Solaris 发表

基本是国内很多基座团队的困境了。

Qwen 和 Deepseek 定期发布自己的基座模型参数，如果自己从头训的基座远远比不上外界开源的，那么基座团队选择基于外部开源模型来做续训可能就是一个为了商业化必须的妥协了。

BTW，复制层，复制专家，基本都是能涨不少分的。。。

知乎用户求生之路发表

其他也就看个乐子，但是华为居然设一个 “四野” 部门，下设几十个 “纵队”，这 cosplay 有点微妙吧。

有没有万岁军啊？

知乎用户 momo 发表

这篇文章看完，然后刷了下这个问题下的几个回答，有了个想法。

在这个大模型开发过程中，某厂可能延续了之前一贯的模式，即派没有任何相关经验的员工去工作，所以才产生了这么一篇帖子。。。

然后找朋友取证了一下，朋友组里有两个同事在苏州攻关时期被抽调去帮忙，这两人确实就是没有大模型经验。。。

知乎用户离谱发表

去 GitHub 看了一下 issue，额，我不太好评价

虽然 issue 已经是立场互斗了，但是这个级别的还是难以绷住

知乎用户 pansz 发表

看完了，只能说虽然看起来像真的，但未必就是真的，毕竟假话也可以隐藏在大量真实内容中。同时，虽然有一些假的地方，但未必就是假的，因为作者为了避免引火上身，可以故意做一些假信息避免追踪到自己。

其实我个人觉得讨论它的真真假假没有意义，就算真的基于 qwen 开发，又能有啥问题呢，华为就把对升腾的适配老老实实搞好就行，人家辛辛苦苦搞 ai，你开开心心卖计算卡，这不香么？当年人家打二战辛辛苦苦，美国卖军火两头吃，最后赚得盆满钵满不好么？

所以，华为真的需要自研 ai 吗？或者说，国内那么多家，每家都自研 ai，这真有必要吗？基座收缩到集中的几家，别家就直接用就行了，什么都自己做根本不是啥值得称赞的事。工业社会就是要分工，ai 是每家都搞的，华为没必要搞，但计算卡没几家能搞，我期待华为把它搞好。

就算你说怕卡脖子，难道阿里的开源模型还能不让华为用？阿里要是敢卡华为脖子，会被喷成啥样子？

作为用户，真的没兴趣看到一大堆自研但是不好用的产品，宁可看到少量的不那么自研但足够好用的东西。你放弃把自研吹上天的信念，那一切都好了。追求全栈自研实质上等于逆工业化，因为别人做过的事情你都得从头到尾重新做一遍。

腾讯是何时开始提升口碑的，从腾讯开始放弃什么都自（chao）研（xi），改为直接购买或者合作之后，腾讯的口碑突然就开始逐渐好起来了。

是啊，人家专业的小公司把自研做好，你直接买不就行了，干嘛非要什么都自己搞一套？你华为那么有钱，非要把别人的路全都堵死？直接投资 deepseek 助力他们研发不行吗？直接买 qwen 授权然后自定义客制化不行吗？非要搞盘古为了个纯自研的虚名，我觉得这态度。。。迟早会反噬。因为盲目追求全栈自研，约等于说世界上其它小公司的研发都是垃圾，你们做的都没啥技术含量，我自己招兵买马也同样能搞出来，相当于否定世人的努力。以前的腾讯就是这个态度，看不起其它小公司做的任何东西，所以什么都追求自己自研，可现在腾讯早就改邪归正了。

如果大家都搞不了，你搞，我觉得很合理，结果现在中国有几十家在搞，你搞得又不算好，这还要搞，我觉得是浪费资源。

知乎用户董不懂在摸鱼发表

1. 自证身份里面列出的五个细节，基本没问题，但这个自证恰恰说明其不在小模型实验室，于是对里面的认识和多数普通员工一样，多属于道听途说，我不是说一定错，只是并没有小模型实验室内部人士的证言支撑。如果有的话，证据置信度会更高。

2. 诺亚作为 AI lab，本身就不是研究型的，没有任何资本家会只给你开工资让你做探索研究，这是非常残酷无情的事实而又必须被接受，其实这一点从其他大厂 AI lab 前几年的恶劣生存状况中可见一斑，似乎并不是华为独有。

3. 第一次指控 wyh 套壳，是基于 135B 大模型，但这个大模型其实正是盘古自己，似乎并没有实质硬伤。

4. 整篇文章非常核心的指控有两条（我写在第 4 点和下面第 9 点），第一个就是这句 “经过内部的分析，他们实际上是使用 Qwen 1.5 110B 续训而来，通过加层，扩增 ffn 维度，添加盘古 pi 论文的一些机制得来，凑够了大概 135B 的参数。”，—— 这个 “内部分析”，最好不要用简简单单的四个字直接概括，有时候 40 篇 paper 都不一定说清楚，我不太相信这四个字就能盖棺定论。

5. 文中提到 “当时两个词表还被迫进行了一次赛马，最终没有明显的好坏结论。于是，领导当即决定，应该统一词表，使用 wyh 他们的”，—— 请注意，对大模型 llm 的评价，是有很多客观标准和 benchmark 的，没有明显好坏这几个字，用在科学问题上，似乎太过模糊。

6. 全文看了特别是基于上面第 5 条，似乎这是一个诺亚内部两个实验室内部竞争，一方彻底失败，心存不满，——这时候其实更需要另一方站出来，平衡各方观点，尽量做到理性客观，而不是单方面输出，带动情绪。

7. “在各种动员大会上，当时口号中喊出的盘古必胜，华为必胜，我们心里是真的深深被感动。” —— 这个一眼假，诺亚参与大模型项目的员工几乎人均 phd，年龄不小，有家有孩子的更是人数众多，多少算是职场老油条了，给资本家打工，出卖劳动领取报酬，天经地义，这个看着像小学生的情绪渲染无脑感动的细节描写，在利益问题上、在科学问题上谈情绪，似乎是一文不值的。

8. 文中重点提到 “然而，我们的所有辛苦的成果，经常被小模型实验室轻飘飘的拿走了”，同第 6 条，似乎更证明是两个实验室之间的内部利益斗争。

9. 除了第 4 条的第一个核心支撑观点，文中的第二个核心支撑观点，“这个模型是套壳 qwen 2.5 的 14b 续训”，—— 似乎参考了 HonestAGI 的技术报告，但其作者已经跑路了，所以可信度非常一般（404 见 github 链接 https://github.com/HonestAGI/LLM-Fingerprint ）。

10. 剩下都是情绪输出，就不多分析了，同第 7 条。

知乎用户挣脱束缚随风飘荡发表

我作为一个毕业刚满一年出来工作的人，无法理解怎么会有人能够在私企写出满篇满文充满 “奉献” 二字的精神文章。

拿一分钱干一分事，差不多得了，还整的什么自我感动，自我落泪，钱又不是没给你。

知乎用户经济筑基发表

打败华为的只能是华为！！！

知乎用户张绳武发表

瞎评论几句

华为确实需要一个从零开始预训练的大模型来证明昇腾硬件的可靠性，但完全没必要在软件层面自研，即完全没必要在数据和模型层面下功夫

用昇腾预训练华为自研模型，结果非常差劲，别人心里琢磨，到底是模型本身烂，还是昇腾不行？结果就是别人根本不琢磨，直接认定昇腾不靠谱。除非你真训练出一个第二梯队的模型，否则只能是反向打广告

所以华为真正该做的是和 qwen deepseek 团队通力合作，先预训练一个几十 B 小模型，跑通了，再逐渐上规模。假如效果和英伟达硬件训出来的差不多，说明昇腾可用；否则就是昇腾有问题，回去慢慢 debug

训练一个好模型并不比造芯片简单，开源模型已经被验证没问题，帮你减少一个非常大的不确定因素。自家算法团队水平不行，还硬自研，不是找麻烦吗

（除非学扎克伯格，用 1 亿年薪挖人）

总之我完全看不出华为自研模型的必要性，那篇文章作者团队的定位就莫名其妙的，好像是真指望用盘古去刷榜？而且我感受到一股做题家自我感动的味道，就是明明啥都没做出来，还想着被认可

知乎用户毅大师发表

每次看到中国人维权只能通过 GitHub 就有一种说不出的难受。

知乎用户快乐 ing 发表

这人就是内部项目组竞争失败发泄吧。他连华为要干嘛都不知道，华为要卖昇腾，想的是越多其他家公司能用昇腾越好，支持性越广越好，他就一直在那里怪华为让他用昇腾做训练拖慢他们组的进度？他脑子真的知道自己公司是干嘛的吗，怪不得他们组竞争不过，能招这种人的组不说技术水平就管理水平就一塌糊涂

知乎用户 pornmaker 发表

靠抄袭是没有未来的

我说怎么蛇年春节的时候，盘古还在懵逼状态，DeepSeek 出来的时候，盘古的团队还不知道发生了什么，四个月后，就拿出比肩 qwen2.5 的产品了，现在懂了

知乎用户顾远发表

华为所谓的狼性文化正在遭到反噬。

所谓狼性文化，既有团队协作，又有敢冲敢战。但带来的另一面，就是不择手段。这种不择手段，既有外部竞争，比如与，与小米，在海外市场；也有内部赛马的进一步异化。

最近在想，任正非不许华为造车，是不是就是不想华为吃相太难看？但是显然这个政策也没有执行地很坚定，余大嘴一直在鼓吹，并且问界等在用户认知里已经跟华为相关联，也充分说明了华为内部的摇摆和矛盾。

余大嘴对华为手机当然是有功的，但长远来看，他对华为的品牌、形象，是负面效果，且这种效果将越来越凸现

知乎用户花椰汁发表

硬件我不懂，但是软件领域我认为现在这几个泛大厂里，技术综合最强的是阿里、字节，断档领先其他互联网企业，腾讯次之，百度再次，华为得和小米坐一桌，甚至还不如小米。

阿里排字节前面，因为阿里比字节更 “开源”，但是确实都很强，腾讯就有点草台班子的感觉了，但不多，百度以前行，现在看表现是不行了，但至少也是有点底子。

而华为，我说实话，硬件我不懂，在软件领域，华为永远都是牛批吹的震天响，但是实际上还没拿出过任何一个国民级的，或者国际领先的高精尖的商用产品出来。华为永远都是进入一个成熟领域，收购，包装，或者套壳开源，然后各种宣传自研大赢特赢，但是其实做的只是早就有人做过，且做的更好的东西。

而小米差不多，但至少小米不吹牛。

知乎用户硬核米粉毛利兰发表

之前 “实锤” 抄袭的论文文献被扒出来是编的了

现在某些群体又开始转移阵地了

好像很多人不知道你不是写大学论文引用文献都是编的这意味着什么？

知乎用户回头太难发表

余承东说过，抄袭是没有未来的…… 看看华为一路走来，抄袭了不少吧……

知乎用户虚怀若谷发表

本来我也觉得刚开始那个 GitHub 的 repo 提的那个所谓的模型指纹有点扯，但是我也没有很详细的了解过这个大模型血缘方向的技术，所以就不发表评论。

但是这篇文章一出来，没想到连 tokenizer 都是缝合的，再加上所提到的技术细节以及外行领导内行等行为，非常符合我对华为的一些刻板印象。

继汽车专家，芯片专家后，LLM 专家也要遍地开花了，真是为普及知识做了极大的贡献

知乎用户林谨发表

盘古是不是抄袭不论，

这文章里面有些味道是真冲。

开发大模型非得叫什么 XX 纵，四野。虽然我知道华为管理者很想把这个的重要性和解放战争相提并论，但是我真的要说，配么？

然后非得把人都集中在苏州，和家人分离。凭什么这么折腾啊？造原子弹呢？受这鸟气。

在字节 / 阿里 / Deepseek，三家抢人攻势下，华子能把这种紧俏人才 PUA 成这样，有没有内部同学说下是真的吗？

以下是段落精选：

我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊…… 客居他乡，我们放弃了家庭，放弃了假期，放弃了健康，放弃了娱乐，抛头颅洒热血，其中的艰辛与困苦，寥寥数笔不足以概括其万一。在各种动员大会上，当时口号中喊出的盘古必胜，华为必胜，我们心里是真的深深被感动。

知乎用户子猫发表

只要记住一点，全世界无论中国还是美国，所有业务是 to G 的，或者靠 to G 发家的，无论怎么吹虚，怎么广告营销，其公司产品真实竞争力需要打个 5 折，这是 to G 商业模式决定的。

——

你觉得华为做大模型，面向的未来大客户是谁呢？

知乎用户傲慢与偏见发表

连续两届互联网企业 dota 比赛开挂，这样的企业文化有什么前途

知乎用户今天又违反了哪条发表

该说的都说了，发现了两个华点，一个好笑一个惊悚，先说好笑的：

诺亚方舟实验室？？？

爱国企业都开始用西方神话了，是词汇不够了还是要统治地球？

惊悚的：

作者作为曾经的内部员工，在最后两段居然提到了自己和家人的生命安全，并采取报平安的方式，这家企业的手段可以说媲美东厂了吧。

祝他平安。

知乎用户一水遮夏发表

前面那些涉及到华为内部事情我不想多说，我也不知道到底是不是真的。

但是这句话，「诚然，这个原文的分析也许不够有力」。

请问这是一个从事大模型技术的人说出来的话么？

那篇所谓的论文连 ref 都是假的，这叫不够有力？

这根本就是造谣好吧？

就这么一句轻飘飘的带过去了，让我对整篇文章的目的有了极大地怀疑。

知乎用户有芙同享发表

如果真是内部的，发这种小作文出来，想必之前内部就已经摊过牌了，对方并不认怂，所以小作文才得以面世。相信这帮人能做到的也就仅限于此了。

这几年的小作文基本都吃回旋镖，原因就在于有真本事的那方往往不需要发小作文。说白了，连友商都不留你，你还说啥？不会和那个 251 的李洪元一样最终诉求是留在华为吃干饭吧？

华为一向是绩效赢学的，除了养了一小部分搞基础理论的，你们这些搞应用 AI 的怎么觉着自己是搞理论的？没绩效也配赢吗？

还有 github 不是给你闹钟发小作文的地方，github 的尺度也比推小的多。要发小作文建议上 twitter，别在 github 上闹，污染别人视线，毕竟微软还是要和中国做生意的。

知乎用户静觅黎明发表

一个群体有组织的互相呼应，互相配合。

之前的那篇文章已经被锤的实实的是造假，论文是 ai 生成的，引用的论文都是假的，联名作者也是伪人，只能说某群体确实信这套。

知乎用户飞猫发表

哟，参考文献为假的论文被扒拉干净。改头换面装内部员工又来？匿名，那必须信了是吧

知乎用户 075127 发表

大模型不懂，不说

就文章里说的这些名词就足以震惊我了，四野，纵队，华为内部这么喜欢玩 cosplay 的吗？

啊？真情流露？？？

知乎用户二位无群发表

不知道有没有人也发现了一个搞笑的

刚才我去那个华为员工发的爆料原 github 地址看了下

有些人发疯的程度都把上面一些人看傻了

好像是几位 (或者一位有多个号) 花黑在 issues 区疯狂发

… 然后就被教育了 (好像是发的内容都被删了)

可惜没看到他们被删之前的内容

知乎用户明明明之发表

又如何呢，并不会改变什么，该怎么样还是怎么样。

大公司病罢了，更何况东大的公司喜欢横向发展，恨不得垄断所有行业。

HW 早已成为庞然巨兽，老爷子也已经 81，到交接班的时候了。

在东大权力的交接一向很糙，集体制这种哄哄小孩罢了。

人力有穷尽力所不能及

寻机对 HW 进行分拆，专精于各自行业于国于民都有利。

知乎用户祝你事事顺心发表

余承东笑疯了，给大模型团队投资的钱，还不如给我去造华为汽车和华为手机，好歹我做的问界和手机能挣钱，不会把队伍带成套壳的粪坑，钱花了还一身骚。

话说回来，看完爆料，感觉这个华为诺亚方舟实验室也是有贡献的，为德云社培养了一位说学逗唱四门精通的 90 后科学家，云字科多一员猛将，曹云金、岳云鹏、张云雷、加一个王云鹤，老和部队势力不可小觑。

知乎用户坚定米粉发表

知乎 er 们对小作文的态度貌似是:

女写小作文说男犯罪站男

别人写小作文吐槽华为站写小作文的人

知乎用户天行健发表

没事

下次来个原生盘古

再下次来个纯血盘古

然后再来个盘古 Next

里面残留的代码像手机系统一样

逐步的就会被清除干净的

时间紧，没来得及，大家理解一下

知乎用户飘零久发表

sleep（6）

是哪一派搞的？

知乎用户范遥发表

我确定盘古 CTO 之前对大模型 /AI 一窍不通，也不是技术路线上来的

知乎用户平凡发表

先说点我对于大模型这几年演进和评价变化的看法。

对于大模型的看法在 2025 年其实已经和 ChatGPT 刚出来的时候不一样了。

那个时候想的是赢家通吃，也就是 ChatGPT 或者其他的霸主会统治一切，所以有一段时间内资本涌入的极其疯狂。

但是后来出现了变化，就是开源和闭源的争斗，Meta 的 Llama 搞出了一个不错的开源版本，能让 ChatGPT 不那么舒服的野蛮生长。

再后来就是闭源在摘到低垂果实后的降速，以及开源大模型慢慢追了上来，这个时候代表就是中国的阿里 Qwen 和深度求索 DeepSeek，已经和最顶尖的模型并驾齐驱了。

再到 25 年，其实对于大模型的评价更加多元化了。

OpenAI，最全面；Claude，编程最强；Qwen，最全开源；DeepSeek，性价比祖师爷；就连不是特别顶尖的模型，比如 Kimi 超长上下文，MiniMax 多模态，大家都有自己独特的标签。

华为大模型，在我看来标签页非常的明确，就是在自己的显卡上训练大模型，它最近发的这篇文章也说了，135B 的 Pangu Ultra 模型，训练在 Ascend NPU，也就是昇腾上。

什么是昇腾计算，就是华为自己做的 AI 处理器，目标就是尽量的减少对于英伟达显卡的依赖。

这个出发点说实话挺牛逼的，你看硅基流动上的这俩 DeepSeek 模型，就是部署在华为卡上的。

往小了说，大模型的训练以及部署，不需要只看英伟达的脸色；往大了说，动摇 AI 底层英伟达霸主地位。

DeepSeek 在几个月前的开源周，一连发个 5 个技术，非常牛，但都是基于 H800 这个芯片上的，这个就是所谓的阉割版，中国特供芯片。

原因就是市场就这么一家，英伟达的绝活。

所以，华为的盘古，立意没问题，并且站的高度相当之高。

就这两天的争论：

看了删库的 HonestAGI 以及这篇文章，刚刚发现这篇文章在 50 分钟前更新了。

更新内容是：

纯粹根据文章里说的，这个 135B v2 模型，是根据 Qwen 的 11B 模型续训来的，方法就是：加层，扩增 ffn 维度，添加盘古 pi 论文的一些机制得来，凑够了大概 135B 的参数。

Qwen 1.5 110B 这个模型是去年发布的，算是 Qwen2 的早期版本，模型大小也能对的上。

单纯从文章来看，该作者提到了第三代的 135B V3 模型，是他们团队（包括作者自己）的核心成果。

但刚刚我也提到了，这个成果在今年的 4 月份发表在 arXiv 上了。

而论文中的核心贡献者 + 普通贡献者，在论文里面写的明明白白，人数一共也就 30+。

不论真相是什么，对于填补国内大模型生态，我觉得都是损失。

知乎用户欲三更发表

公开信里的内容作为外人无法求证，但是公开信里面间接透露出一个事情——华为的大模型部门在昇腾部门的客户名单里，根本排不到前面，导致陷入算力贫困。

这个倒是蛮符合我对大公司的认知的。毕竟计算卡太赚钱了，给自己人用，结算来结算去其实给不了几个钱，肉都烂在锅里了，哪有卖给外面赚现金好？

知乎用户 Dustsev 火羽发表

基本靠谱，和之前爆料的胡玲事件、251 事件以及欧洲贿赂案一样，事情脉络清晰，细节详细，有理有据。

华为做这种事情不是一天两天了，这是长期企业文化带来的问题，企业长期宣传 “战狼文化”，内部讲究恶性竞争，不看过程只看结果，包括最近流传的主动管理 OD 事件，都是恶性竞争带来的反作用，我认为华为现在的问题非常大，不仅仅是抄袭，而是整个企业层层叠叠，像癌细胞一样恶性循环越来越严重。公司的股权结构不透明，资金流向不明，内部长期分化严重，在企业高利润时期这些问题还没有凸显出来，现在华为从手机到 to G 业务再到汽车，都不是太顺利，利润率下滑，内部问题会越来越尖锐。

知乎用户右眼浮云发表

说点题外话，华为现在最大的问题是，什么钱都要赚，可能盘子大了，虚拟股份让他盘子变得巨大，简直就是一个资金池项目。本来一个产品，有好的反馈，差的反馈挺正常，你看 oppo，, 垃圾产品一堆，好的也有，不妨碍骂，人家也听进去了，华为不行，智驾得强行第一，手机也得第一，哪怕是弱智 680 也说不得。

知乎用户我是鼻涕蛆发表

华为正常操作啊，跟华为鸿蒙系统一模一样。抄袭抄袭抄袭，最后搞个四不像变成自己的。一如既往的习俗罢了。

知乎用户 momo 发表

片段精选：

这篇文章的各种解放时期常用名词，各种自我奉献的感动。

极大增加了文章可信度！！！！！

凡是和毕业即入职该公司的人交流过，应该或多或少有注意到这份情感都是这些人自然而然流露出的。

（我第一次注意到的时候，有点绷不住）

知乎用户脱离了高级趣味发表

套皮思科，套皮芯片，套皮安卓，套皮车，现在套皮个 ai 很难理解吗

知乎用户相关网民发表

这不就是第二个 “哄蒙” 嘛！

还是得谢谢某菊这几天提供的乐子

知乎用户 Urizenchief117 发表

为什么一个 tokenizer 的事翻来覆去的搞还搞不定？merge 两个 tokenizer 相比从头训一个有什么好处吗？后面还发现有 bug？一个空格汉字一个 token 不是什么很常见的事吗？

我不清楚小模型研究团队套没套我倒是满清楚这个作者团队技术水平确实一般

知乎用户知乎用户 gXZBmN 发表

关华为什么事，华为只是提供技术，ai 是赛力斯训练的

知乎用户 www 发表

华子最近可谓是风波不断，先是爆出 od 入职造假，后面严抓考勤，又是大量裁员，输出不续约，又有内部人主动管理 od，现在又是盘古开源造假，之前所谓的模型指纹检测文章应该也是内部的人用 ai 生成的自己举报的，因为论文内容有漏洞且参考文献虚构，没有锤成功，所以主动跳出来写文章举报了，可见内部很多人都被公司逼急了，宁肯冒着被 251 刑事的风险也要把问题揭露出来，领导已经得罪太多底层员工了，那这些员工必然要以相同方式来报答公司，水能载舟，亦能覆舟，今年上半年营收也大幅度下滑，可见离倒塌已经不远了。

知乎用户 JerryYin777 发表

虽然自己不太喜欢 hvv 生态和宣传，也在自己用 Ascend 中遇到了各种莫名奇妙的问题，但本身事情没有想象中那么大，套壳也加了 Qwen 的 License 来开源，无非就是劣币驱逐良币、新老团队的斗争，只不过加上 hvv 话题热度就高了。

其实 hvv 看起来本身应该也对做 llm 基模没啥投入，卖卡而已，nv 也是在 llama 上 sft nemotron 及变式，关键数据也没买没自己做，没什么产出和效果也是正常的，只是中间过程有亿点点想象不到的狗血了。

说回 PDF，算法水平上，虽然不知道具体时间节点，但是看上去原团队 23 年居然还在用 character-level 的 tokenizer（感觉就算不用 bbpe 也该 bpe 了吧，就算不是自己 train 也可以套个其他 model 的 tokenizer 吧，总之感觉被困扰这么久有点怪了），23 年 llama1 就开源的 rmsnorm + rope 方案也没看没用，很难不让人感觉旧团队的水平可能有一点点_，但当时的 Ascend infra 能成功训 38B MoE 和 135B Dense，还是值得肯定一下的。小模型团队走捷径套壳搞了高一点的 benchmark，虽然可能有隐瞒，但总体在开源协议上还是合规的。

Infra 方面，看上 Ascend 能支持小模型团队（但也不一定，提到了小模型团队有 N 卡）在 Qwen1.5 110B 上加层和扩 FFN 做训练到 135B，应该至少通信这块和训练基本算子是写的还可以了，看上去也能正常推理部署，推理算子也写的差不多了，在 24 年（Qwen1.5 110B 开源于 24 年 4 月推断）还是比较难得的。后续能支持 224B MoE 的 training infra（某知友一人搞定）和继续用老方法套壳如法炮制一波，看的上去也还行，最近一些 Cloud Matrix 384 等 paper，感觉华子的 infra 水平还是很 nice 的，就是不知道实际部署怎么样了，毕竟_。

至于 HonestAGI 那个 QKV std 相似度定罪就有点扯了，虽然结果好像近似是对的……

切入角度写的比较奇怪，也不是洗地，只是一点抛开感性后睡前随便想的故事。

知乎用户 Humble and Kind 发表

为何 2.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了？

为何鸿蒙 3.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了？

为何鸿蒙 4.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了？

为何鸿蒙 NEXT 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了？

为何盘古 2.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了？

为何盘古 3.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了？

为何盘古 4.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了？

为何盘古 5.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了？

……

这两个月，甚至可能未来几个月都要沒日没夜赶工了，能否追上欧美就看这一把了。

且听龙吟

知乎用户持墨发表

作为一个纯外行，深刻意识到训练基座大模型的难度，虽然外行，但这几年其实也一直在看关于 llm 的论文，基础的理论都了解，一直没理解为啥全世界几乎只有中美两个国家几支手数的过来的团队搞出了真实可用的 llm 基座模型，也不理解为啥像沐神，李博杰等一众大佬创业不从头搞自己的大模型，而是基于开源模型微调。我相信理论和 coding 甚至包括卡的数量（maybe）对他们来说都不是问题。

现在终于意识到了…. 一个看似简单的理论完备的 Tokenizer 在 llm 时代下都如此复杂，更别说超大规模模型的训练（连 meta 的 llama4 都翻车了），也突然意识到 llm 的推理和参数开源真的是有机会形成技术垄断的，一旦某家技术团队掉队迫于业务和上层压力就很容易走捷径，一旦走了捷径，走向下一个台阶过程中的很多技术细节都丢失了导致后续差距进一步拉大。

对所有中小厂声明自己搞了基座模型都得持怀疑态度。

知乎用户谣谣领先发表

作者有 251 风险，大家多转发，事情满大了，舆论可以保护作者。

大家转发就是保护作者。

知乎用户 Hitch 发表

好家伙，四野、四纵，这是想干嘛

知乎用户澪同学发表

切下瓜顺带整理一下时间线，附带奇妙名词解释。时间线来自多个 issue 的交叉整理，不代表个人意见。

2023 年初，910A 开始了大模型框架适配工作。

2024 年中，四纵开始在 910A/B 上训练 71B 和 135B

2024 大概年底，230B 不顺利，135B 性能未达预期

2025.2 王云鹤完成权力整合，成立小模型实验室，同一时期通过 Qwen 1.5 训练和洗水印得到 135B v2 邀功。对此部分四纵成员不满，内部举报无果。

2025.3 包括曹焕琦在内的多名天才少年和骨干离职

2025.4 四纵从 0 训练出 135B V3。领导担心 Qwen3 和 Deepseek R2 会选在清明发布，要求尽快完成报告，这导致了报告里出现了非常离谱的数据错误，但是领导不许进一步的修改。

2025.6 盘古技术报告发布，但是大部分署名作者没有得到事先沟通，此外很多有贡献的人没有署名，一些没贡献的领导反而有署名。其中作者数量 52 是因为王云鹤觉得 52 这个数字很幸运。能否署名需要领导决定。

2025.7 HonestAGI 指出盘古和 Qwen 的相似度问题，但是方法论存在缺陷，文章大概率为 AI 生成，目前没有进一步回应。

2025.7 名为华为吹哨人的用户公开了小作文，同时有多名四纵的战友响应发布了小作文讨伐王云鹤。

一些名词解释：

小模型实验室：王云鹤主导实验室

四野：华为整个大模型团队，下面分多纵队

四纵：本次爆料人所在纵队

十六纵队：王云鹤所在纵队

持续吃瓜！

知乎用户 Medium 发表

贵司粉丝都分派系啊？真是一出好戏

知乎用户逆铭发表

讲道理，拿开源的工作作为基础加上自己的东西，搞出一个性能更好的东西来自己用，是一个非常务实的选择，毕竟多交流，多协作的效率肯定比闭门造车，重复造轮子要高得多，既然人家愿意开源，自然也代表人家不在意你那他的成果去做进一步的工作。

很多时候，把事情推进下去是最重要的，不管用什么方法，只要合理不犯法，能 work 就行了。这件事上我是不会双标的。

只是有一群人天天喷 xx 都是用的供应商，喷 xx 开源 xx 就有，喷 xx 没技术，等事情轮到自己了就突然哑火，开始理智地讨论起来，甚至有的人还想围 x 救 x，这件事就挺搞笑的。

知乎用户克拉丽丝发表

这事儿有点大了。一个小米已经扛不住了，得想办法让美国来背锅了。

知乎用户秋元明发表

我们还是关注隔壁小米路由器把散热片缩短了 5mm，处理器从联发科换了个降频低性能，高通还增加了 IoT 和 Mesh 功能偷工减料把，这件事先过去吧。

知乎用户河朔节度使发表

害，不就是 AI 领域的纯血吗，大惊小怪的，原汁原味的蛙伪。

其实可以跟其它厂商合作，赏口饭吃。册封 qwen 为问戒大模型，册封 deepseek 为享戒大模型，遥尊 gemini 为尊戒大模型。全球厂商伺候蛙伪，岂不美哉！

知乎用户方程式赛猫发表

之前还听有的海狗说

硬件企业来做软件，是降维打击来着？

不是…… 我……… 简直不知道该如何回答这种问题。

就很诡异你知道吧？

抄袭千问，这个我反而觉得不意外，毕竟自己人最清楚。

千问这玩意我们就天天在用，你说好不好用，能不能比得上 GPT，这个有待争议。

但这玩意真是阿里用天量的数据喂出来的，中国排名前三，甚至是前二的互联网公司。

十几年的网络大数据积累，最后造出来了。

十几年前你华为在干啥？

卖路由器？

明明项目专业不对口，硬要顶上去…… 这是某些国企的作风，最后搞得鸡飞狗跳。

真的真的，我劝一些大企业，别老想着跨界了……… 很容易扯着蛋的你知道吗？

淘宝能上外卖，是因为踏马的本来阿里就有饿了么，就是重新单开一个页面的问题

京东能上外卖，是因为人家有完善的外送团队。

互联网企业能做 AI，是因为他们手里真有海量的数据资源。

你华为手里有啥数据资源？

用户存在网盘里面的小电影吗？

知乎用户嘴很毒发表

维权用 github，

好用又高效！

知乎用户零卡州发表

非常典型的大企业内部团队赛马，输了的不服气，攻击其他团队人品和技术有问题。

但是有一点，从这个作者的言语来看，是可以证实的，那就是他们的团队确实是干了几年，没有干出什么成果来。

华为的盘古大模型发布好些年了，但是在我这边来看一直是类似于工业大模型，行业大模型，都是 ToB 用的，国内主要的玩家就是百度，抖音，腾讯，阿里，就是这几家 ToC 还不错，抖音在我看来马上都要胜出了，在 Deepseek 爆火之前，我认为用起来还不错的就是抖音的豆包和讯飞的那个，后面讯飞不知道怎么突然拉了。

华为的面向 C 端的大模型纯纯一坨，直接点名就是小艺，然后 Deepseek 开源后，华为最先一批部署到自己的小艺上面了，才稍微好用了一点，也就是今年 PuraX 的发布会上，小艺才没有那么像假人。

从结果来看，可能是华为内部认为这个团队确实出不了成果，主力就交给别的团队了。

知乎用户 cracks 发表

充分说明:

华为上层领导一直都相信:

自研是借口

结果好用才是目的

收割的就是这些相信 “宏大叙事” 人的青春、汗水和钱包

上一个想举报光伏逆变器造假套取补贴的人

结局大家都知道了

只能祝福平安了

知乎用户忠诚爱国柳军发表

你还别说，时间点真是精准，刚刚好对冲蕾教主的 “车规级”，围魏救赵用了十几年了，还真是得心应手。看国内那些肺雾公关公司看看，什么叫教科书式的操作。

知乎用户 hewii 发表

以这个公司过往的行状来看，这样操作并不让人惊讶，

让人担心的是，以这个公司的通天手眼，找到作者的真实身份并不困难，然后，重拳之下，又一个 “251”，或者一个若干倍的 “251” 会重现？

真要是那样…………………，唉，祈福作者平安吧！

知乎用户长路漫漫发表

对冲一下华为最新的算力突破。

知乎用户冷眼看世界发表

领导要成果的

一个公司多少个部门

领导不可能每个部门运作都知道

这篇显然是一个项目组

互相竞争互相内斗而来

作为这篇的主人公

尽管抱有极大的热情和自主的热情

但是显然是闭门造车，埋头造车

显然上层给了他们很多的机会

但是在要结果的时间节点上没有

拿出来成果被另外一个团队截胡了

————————————————

通篇文章，虽然写的很真情实感

但是非常幼稚，你完全可以在开源

的时候不署名，或者公开反对

—————————————————

而不是已经署名了

却在开源后，出来写小作文

你有无数次机会可以说出自己的想法

————————————————

大模型是公司的发展项目

在什么节点要成果，什么节点开源

并不是公司决定的，而是市场决定的

作为一个团队，没有在节点上拿出来东西

反而助纣为虐的，开源项目书上签字

数次可以讲出自己的看法

确实是唯唯诺诺，各种推脱

尽管你最后讲出来很多情感

但是显然当初选择团队上是非常错误的

———————————————————

盘古大模型不重要，重要的是是

910 训练出来的模型

从 384 节点的公布，到盘古的模型

是为了推广而存在的

公司开源了但是并没有裁撤你们团队

说明了什么？这一点都想不明白

现在大模型主要是英伟达训练的

必须要推出 910 的自研训练卡的开源模型

知乎用户战忽局的发表

国家不能换管管吗，菊花老爱起这样的名字，玷污盘古了

知乎用户路易十四的王爵发表

一个技术专家因为有人质疑为什么不用水洗煤被气哭了

马前卒都没这本事好吧

如果都这心理素质，马超一出，航天科工可以集体自闭了

还真挺有意思的，本来诚实 ai 都删库了，结果此文一出，人家又恢复了

诚实 ai 造假已经被锤了，所以论证盘古抄袭的证据就是

一篇小作文 + 一个野鸡造假机构的报告

听着就可信

再放两个 github 截图，大家体会一下，有些味是不是太浓了

华为吹哨人

诚实 agi

知乎用户红树林的鸟发表