如何看待「盘古之殇」一文爆料华为盘古大模型涉嫌「套壳、续训、洗水印」?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 天降神农 发表

余承东,你记一下,我做如下部署调整。

以四纵十一纵加两个独立师,强化公关防线。二、三、七、八、九五个纵队加六纵十七师,抓出内鬼;十纵加一个师,在阿里、deepseek 一线阻击友商推波助澜;十二纵加十二个独立师管控相关技术人员;五纵、六纵两个师监视舆论;一纵做总预备队!

知乎用户 Snower​ 发表

前华子员工蹭一下,前同事写的基本上都与我的认知吻合。我的离职也和盘古大模型做的极烂相关

其实 2024 年基本上华为内部都知道盘古做的极烂,到了 2025 年,估计整个业界都知道做的极烂了

看到很多评论说原作者是斗争失败云云,其实如果真的是通过赛马看谁的大模型表现好反而是件好事,但是现在华为基本上是看谁给领导汇报的好,谁是嫡系,谁才能够赛的出来

所谓的 “四野会战”,我也参加过,其实就是一场给领导的大型表演赛而已

知乎用户 八舞耶俱矢 发表

团队斗争失败,抄袭等事情我没法确认。

但是关于 133B 性能那里确实没问题。华为给了我们 2 套 135B,应该是对应文章里的 135B V1 和 135B V2。

135B V1 拉跨到什么程度呢?不是和其他模型比较的问题,而是纯纯在胡言乱语,好像一个婴儿在说话,除了是一个大模型,我想不出有任何实际功能。

后面华为紧急提供了 135B V2 给我们,确实改善了不少。

过了很久,我自己也测试过了 Pangu Ultra(即文章中的 135B V3),效果还行,没有惊艳到我。

这篇文章解答我最大的疑惑,为什么华为的 135B 模型,各个版本之间的差异怎么大。

不像 qwen,chatglm,是有着一套清晰的发展轨迹的。

原来是不同团队,不同人的出品,自研 or 套壳而来的。


HonestAGI 那篇论文基本上是在扯淡,「盘古之殇」看起来有一定的可信度,但里面具体多少是可信的,哪些是可信的,我不知道。

知乎用户 张少游 发表

技术细节太丰富,而且基本没什么模棱两可的描述,不像编的。

这样看来,整件事情就是华为的内部斗争,搞自主研发的被搞套壳的打败了,毕竟人家效率奇高无比,更受高层青睐。

至于这件事情会有什么影响,那我估计是没啥影响,普通民众不太会关心这种细分领域的技术问题,而且即使实锤抄袭,阿里大概率也不会撕破脸来指责乃至起诉华为。过段时间大家都会忘了的,我只希望这篇文章的作者能够保全自己,希望华为不要弄个泄漏商业秘密的罪名安到他头上去。

知乎用户 桑耶朴 发表

关于盘古 ultra 实验图造假的质疑,更新另外两名离职员工视角的小作文。

天才少年曹焕琦实名揭露。

原作者时间线和工作内容部分可信度极高,“离职,申请除名,人身安全,报平安” 这些字眼估计是真真假假的烟雾弹。

再补充几篇其他视角的小作文,大致可以互相佐证。

知乎用户 zjmomk 发表

四野退伍将士,不请自来。

小作文写的好,前面的基本事实和我了解的差不多。我也在苏州集结了不少时间。

至于是否抄袭,不好说,不过也不关键,想说不是这个,估计最后还是能以某种方式证明是没抄袭的。

华子其实搞四野,是想用 ibm 学会的 ipd 流程来管理大模型训练,这句话写出来应该就知道成功概率很小了。最终四野真的就是一场大型真人 show,表演给领导看的。

作为离职人员,我感觉华子真的有点危险了。。集结是搞不出大模型的,作为硬件厂商,不如先把底层做好,好好卖卡就行了,小艺的业务 finetune 千问也没啥,好好做好卡和卖卡是正道。

知乎用户 Uranus​​ 发表

补充一点观点,有的答主在说作者所在的团队技术不行,小模型团队出来救场,套壳是合理的技术路线。对于不开源的模型确实无可厚非,但如果是开源模型,我认为菜是可以的,但不透明是不应该的。

Qwen 大多采用 Apache 2.0 的开源许可证,我随便贴个链接https://huggingface.co/Qwen/Qwen2.5-0.5B/blob/main/LICENSE

Derivative Works 这部分充分说明了如果模型确实是基于 Qwen 训练的,那么盘古应当声明这一事实。


不敢看,担心 251(bushi

正经点,前两天的 HonestAGI 锤华为的事儿以 HonestAGI 删库跑路结束。有一说一 HonestAGI 的 LLM-Fingerprint 确实没有太强的说服力。

今天盘古之殇这篇雄文横空出世也是引起了很多群友的讨论,不过很多观点与其说是对盘古的质疑,不如说是一些大家隐约感觉到的事儿被戳破之后的感叹。但不管怎么样吧,这篇文章所述也不一定是真相,大家还是理性吃瓜(容我叠个甲: D)。

抛开这个事儿不谈,我的感受是 “外行指导内行” 这种事儿在大模型这种创新密集型的领域真的是毒瘤,做决策的人如果搞不清应该长期投入的方向,要求团队反复 pivot;或者倚重 PPT 高手导致劣币驱逐良币,那失败是注定的。

Qwen 团队直接把一线最 hands on 大模型的人提拔成负责人真的太正确了!

知乎用户 狄拉克之海 发表

原 repo 的 issues 里有其他离职员工现身了,这篇文章可信度很高。

https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317

有人在 issue 中提问为什么 benchmark 会出现 100 分这种极其离谱的结果,有两位当事人回答了相关情况。

看完不得不感慨:官僚主义是杀死理想主义的第一步和最后一步。

知乎用户 慵懒的蒸汽机 发表

只要稍微有大模型训练经验的人,都能看出来这个人写的内容真实性整体问题不大,是有非常高的可信度的。

npu 上训练大模型,除了菊厂的自家员工,应该鹅厂家的员工感触最深吧。现阶段的 npu 搞搞推理部署啥的还行,做 research 上百卡千卡训练费点劲也还算可以,但要是纯靠 npu 自研一个业界领先的开源大模型,这个我认为是不可能完成的任务,需要华为的人才实力至少比千问高一个水平线才能做到,但显然这是不可能的。就算是采购 npu 数额最大的腾讯混元团队的训练据我所知也是用的 n 卡。

作为研究人员,有自己的学术底线是很正常的,但是如果他自己是王云鹤,面对上面大领导提出的做到开源领先的战略目标,再看着自己面前的纯自研 npu 集群,能保住下面一帮人饭碗的唯一选择就是套壳 qwen,就算是套壳,这个工程难度也绝对是不小的。

这个问题之所以会出现,我个人认为最大的问题还是出在华为的管理和科研模式上。我能看出来的有两个问题:

  1. 外行指导内行,汇报水分太大。领导不说一行代码也没写过,但至少没有实际的大模型一线开发经验,往往会提出一些不切实际的需求,而下面的汇报人员在明知道达不成的情况下,迫于考核压力,只能画大饼忽悠领导。这种制度问题没法纯靠员工的科研操守来解决。不仅仅是大模型的汇报是这样,我现在严重怀疑,是不是 npu 团队的汇报也是这样?npu 实际上可能远远没有他们向上汇报的那么好用,可用。
  2. 用项目的方式攻关科研。在纯 research 的岗位上工作了几年后,我也亲身经历过不少集中力量办大事攻关科研难题的项目,这些项目基本没有能达到预期目标的。research 没法像工程项目一样,提前几个月就定一个精细化的每周的切实可行的计划,都是用无数试错的成本堆积而成的。华为这种攻关科研的模式,最大程度上只能追赶,很难实现超越和领先。再者说,能够在纯 npu 训练环境上复现 qwen 训练,本身就是一个非常了不起的成就了,实在是没有必要再来一个实现业界领先的目标。

最后还是挺可怜这个作者的。他是现实中非常少见的既认同华为这种攻关式科研,又有非常高的科研准则和道德操守的人。但可惜,这两种价值观是对冲的,不管去哪个科研团队,都很难碰到作者理想中的合作氛围。

知乎用户 痛苦轴心 发表

20250708:

事情演变很快,眼花缭乱。

如果之前指控揭露者都是 “藏头露尾” 还有点道理,现在已经快进到实名下场肉身开团了

吹哨人” 的 GitHub 仓库中,一个 Issue 讨论(https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317)原本只是平平无奇的争论盘古论文里的数据,居然引出了数位自称前项目组相关成员,包括一位清华博士实名下场,提供了全新的、细节更丰富的解释。

根据他们的说法,盘古报告中那些饱受诟病的脑残数据,“恶意套壳” 其实只是一个表象,内在是一场由管理层急功近利、强压 KPI 所导致的工程灾难。具体而言,是为了抢在竞争对手前发布报告,团队在极度匆忙中:

使用了仅包含少量样本的 “快评” 测试结果。

采用了能让分数虚高的、非业界标准的评估方法。

而且,当团队发现这些致命错误并试图修正时,据称遭到了某王姓为首领导的否决,最终导致了 “捂盖子” 的局面。

如果属实,事情已经从底层的技术欺诈,叠加了由特定领导者引发的管理混乱和学术道德滑坡。整个事件不仅指向盘古模型、指向盘古模型项目组,更直指整个公司:

不是没能力,而是有能力但管理混乱,急功近利不择手段,顶层 KPI 压力层层加码向下传导,中层管理者上梁不正下梁歪,最终牺牲基层技术人员的科研伦理和工作成果。


20250707:

HW-whistleblower 又更新了他的吹哨信,看来还有的是瓜。


在谈这篇文章之前,我们先回到起点。

最初那份 HonestAGI 的指控报告,技术分析上是比较到位的。它提出的 “模型指纹”、“QKV 偏置重合”和 “LICENSE 文件遗留” 这三大疑点,逻辑环环相扣,置信率很高。对于一个技术背景的人来说,这绝非空穴来风。

但是,这份报告有一个致命的硬伤,那就是被扒出 “伪造参考文献”。这是一个极其业余且无法饶恕的学术不端行为。在讲求严谨和事实的技术领域,此举无异于挥刀自宫,使报告所有论点的公信力都大打折扣,也让后续出现了“数据污染” 论和 “工程疏忽” 论。可以说,在 “吹哨人” 出现前,“诚实 AI 不诚实”极大挫败了指控方的锐气,在舆论场上落了下风。

这篇文章,彻底逆转了局面。

这篇文章没有太多艰深的技术分析,取而代之的是海量的、第一人称视角的内部工作细节——具体到人名、具体到项目组织架构、具体到在苏州某个小镇集中攻关的酒店。这些细节的真实度,让这篇文章的分量变得比精妙的技术分析更重。

我们可以怀疑匿名信的动机,但伪造如此具体的内部信息,已经超越了一般 “抹黑” 的范畴。这不仅是对华为公司声誉的挑战,更是对信中被点名的所有人的直接指控,其中包含了极高的法律和刑事风险。除非作者愿意为此付出极大的代价,蹲几年大牢,否则很难想象这是凭空捏造。这份背负着巨大风险的 “投名状”,让信中那个“因自研失败而系统性套壳” 的故事,显得比任何技术分析都更触目惊心。

它让之前所有的疑点都有了答案:高度的指纹相似性,不再是 “数据污染” 的巧合,而是 “有意伪装” 后留下的痕跡;那个独特的 QKV 偏置,也不再是技术路线的趋同,而是 “直接拿来” 的铁证。

这里,我不由想起了 DeepSeek。他们横空出世时,同样面临过无数的质疑和 “溯源” 分析。但他们是怎么做的?没有铺天盖地的营销,没有诉诸情怀的公关文。他们选择用最硬核的方式回应:一次又一次地刷新全球大模型的性能榜单,用硬实力让所有的质疑者闭嘴。

这才是 AI 大模型赛道最根本的法则。它终究是一个技术驱动的领域,而不是靠营销话术和品牌光环就能高枕无忧的消费电子市场。华为在手机领域取得了巨大成功,其背后有一套非常成熟的营销和品牌叙事逻辑。但这套逻辑,在大模型的世界里,实在讲,是行不通的。任何试图将技术争议引导向商业竞争甚至家国情怀的叙事,长期来看都只会反噬自身的信誉。

Talk is cheap. Show me the code. 这是所有程序员都信奉的真理。

所以,这场闹剧该收场了。

作为同样泡在开源社区,也参与模型项目开发的一员,我真心认为应该让技术回归技术。一个连参考文献都能造假的 “诚实 AGI”,和一个深陷系统性造假指控的 “顶尖团队”,都已严重损害了社区的互信。

现在,华为方面需要回应的,不再是那份有瑕疵的 HonestAGI 报告,而是这份来自你们自己内部的、滴血的指控。如果 “吹哨人” 所言是虚假的,请拿出更有力的证据来驳斥;如果对自研的盘古有信心,那就公开更多能自证清白的技术细节和训练数据。大家把所有东西都拿到台面上来,让代码自己说话,让数据证明一切。

这远比任何一篇公关文都更有力量,也是终结这场风暴,重拾开发者与用户信任的唯一方式。

知乎用户 墨荀​ 发表

刚回答完这个问题,这又来了新鲜出炉的华为职场瓜,真的是完美印证我这个回答

如何看待华为海思 21 级大佬谈「主动管理 OD」?

其实几年前我就回答过盘古大模型的问题。

华为的盘古大模型与 ChatGPT 相比真的很落后吗?

盘古 1.0 时代本来就是给循环智能也就是月之暗面那帮团队外包开发的,本来如果能延续这个合作到现在,盘古至少可以成为类 kimi 大模型在 b 端千行百业的垂直延伸,最起码能上大模型的牌桌上,给华为各个政企军团充分在产品侧赋能,何至于那些个军团全一窝蜂的卖什么封装 deepseek+modelart 的昇腾行业一体机,特别是最近成立的这个医疗军团,这方案那咨询的本质又全都是为了卖盒子包装的话术,盘古又何至于此这一泡污鸡血,就怪某些人又菜又自信,以为厚黑学学的好真的以为能做好研发项目管理就一脚踢开循环智能,自以为真的学透了就可以自主迭代,诺亚方舟训盘古,云 EI 实验室也训盘古,今年连终端也要训盘古做行业垂类大模型(黑人问号),一堆团队都在盘古这个帽子里做垂直小模型,把一堆小模型聚合在一起就能叫大模型吗,这实质不就飞桨和 modelart 平台的小模型库吗?从 2018 年到现在 7 年了,一直在原地绕圈,比讯飞星火都不如。

不要点赞,看看得了,我也只是想随便吐槽下,个人感受,不想被跨。

知乎用户 momo 发表

盘古早期的技术选型真是无力吐槽

居然用绝对位置编码

RoPE 最早是用中文记载的

甚至早于英文论文的发表

这下子没办法甩锅给中英文信息差了

知乎用户 李明殊​​ 发表

个人觉得,里边说到的大部分内容都是可信的,因为相对合理。

能成这个样子,无非就是大公司病导致的。

强如苹果,有钱有人,这么多年,连个 Siri 都搞不明白,AI 一直迟迟也端不出来。

大公司的的 KPI 决定了,最好的做法就是『不求有功但求无过』,攻坚新项目总有风险,那还不如做一些稳定不会出错的内容。

所以 AI 界一些瞩目的成就,往往是一些小公司,比如 Deepseek 搞出来的。

现在来看,QwenGemini 能诞生在阿里和谷歌,简直可以称之为管理学奇迹了。

其实也不是那么顺的,比如谷歌一开始的 Bard 也各种招笑,直到创始人自己下场带队,才慢慢好起来的,原因还是在于,创始人就算创业失败也不会丢工作降低待遇,但是职业经理人考虑的更多是要稳。

知乎用户 朱紫鹏 发表

为了吃瓜,专门去看了 pangu ultra 718B 模型的论文,发现和 deepseek 的模型架构几乎一摸一样,套壳基本实锤了。

首先,和 deepseek 一样,都是 61 层,并且有 3 个 dense 层;stage 0 有 2 个 dense 层,stage 1 有 1 个 dense,加起来是 3 个 dense,和 deepseek 一样

其次,有 256 个路由专家和 1 个共享专家,并激活 8 个路由专家;每个专家的 hidden size 都是 2048

然后,注意力机制都是用的 MLA,有 128 个头

再然后,使用了 deepseek 的 MTP

再再然后,把 hidden size 从 7168 改成了 7680,增加了 512;嗯,这是一个创新;

再再再然后,这个模型可能只训练了不到 1T 的 token,而现在 sota 的模型普遍需要训练 15~20T tokens;从截图看,大概训练了 11000 steps,按照每个 step 32M token 换算,大概是 352B tokens;当然 32M 是我拍脑袋的,但是理论上 bs 也不会比这个值大很多。

PS:整篇论文花了非常多的篇幅在论证模型结构的合理性,感觉有点过于费力的在论证了

【update 2025.7.7】

再放个论文里的对比吧,各个 benchmark 的结果,都基本和 DeepSeek 一样。如果是从头训练,使用自己的数据,相似度怎么可能这么高呢

论文在此链接可以自提:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-moe-report.pdf

大家可以进一步移步围观 sszyd 的回答:

华为盘古开源大模型被指抄袭 Qwen2.5 大模型,HonestAGI 的这份技术报告怎么理解? - sszyd 的回答 - 知乎

华为盘古开源大模型被指抄袭 Qwen2.5 大模型,HonestAGI 的这份技术报告怎么理解?

知乎用户 互联网科技小于哥 发表

有消息说年初字节还有运营商用昇腾训练 moe 都训练崩了,同样的方案在英伟达上是没问题的。所以才出了训练 718b moe 的论文。

事情的导火索是 GitHub 上一位韩国大学生用 “LLM 指纹技术” 分析发现,盘古 Pro MoE 模型和阿里通义千问 Qwen-2.5 的参数相似度高达 92.7%,远超行业正常阈值。

更尴尬的是,盘古的开源代码里还赫然留着 “Copyright 2024 The Qwen team, Alibaba Group” 的注释,仿佛在说:“是的,我们确实用了阿里的东西,但别声张。

如果是真的对华为的影响就大了,要知道小米汽车的金身被破是因为安徽那场车祸在那之前那是怎么黑都黑不不动,华为这事要是真的绝对不亚于小米那件事,因为华为最大的宣传就是全自研加千亿研发,现在套了一个壳米粉不得大反攻。

在模型激活分析中,初步结果显示盘古仍然与 Qwen 相似,表明它们的计算模式存在显著重叠。

更关键的是,QKV 偏差模式在早期层的特征峰值及收敛行为上近乎一致——这种设计恰是 Qwen 1-2.5 代的标志性特征,而多数新模型(包括 Qwen 3)已弃用。

盘古大模型如果不是被 deepseek 打乱节奏,现在三端齐杀了,deepseek 的横空出世把中国人的焦点全给吸走了,而且 deepseek 的爆火最关键的一步就是在国外爆火,要不然在国内一辈子都在盘古的阴影之下,未出 deepseek 之前,国内吹的最多的就是这个盘古,现在的它只能窝在 g 端恰烂钱了,各地方的智慧项目,华子哥的盘中餐。

内部员工都知道盘古垃圾,哪怕都是国产模型团队,也只有盘古一家是一直坚持在昇腾 npu 上训练,完全逆主流了,几乎是需要自己开发一套新的技术路线,和在英伟达 gpu 上训好了只是简单适配昇腾 npu 不可同日而语。这个前提下做的烂一点也是正常,互相吐槽说一句昇腾垃圾盘古垃圾,也就过了。没想到这么垃圾都可能不是自己做的

国内的大模型训练有 DeepSeek 和 Qwen 已经够了,华为盘古做不好,只是华为自己的损失,不是国家的损失。但是如果昇腾芯片没有进步,确实是国家层面的损失,因为矮个里拔高个,硬件确实就这一个。华为只要能够把在昇腾上训练这一套流程打通,哪怕训出来就是不如 deepseek 和 qwen,那也是做到了该做的事情。而像小模型实验室这样搞套皮,有啥意义,只是绩效好看而已

华为以 “相同方法检测其他模型亦现高相关性” 反驳:

Baichuan2-13B vs Qwen1.5-14B = 0.87 Baichuan2-13B vs 盘古 = 0.84

核心是自研的不给力,输给了套壳的。从业务部门怎么办,客户不会为自研的 买单,套壳起码能用

我们更需要自研的昇腾而不是自研的盘古。如果这个盘古不是在昇腾上面跑出来的,那强不强有啥意义,再强能吊打 deepseek?

看看英伟达,英伟达不执着于基座研究,难道不是因为之前社区已经都帮忙研究验证过了吗?昇腾的生态和英伟达比起来几乎是 0 零 zero,那昇腾就必须多做很多英伟达已经不必做的工作啊。

属实的话,这名员工堪称 “堂吉诃德”,敢于与造假者斗争到底,希望有个好结局。

座模型的架构,不是什么秘密,更不是什么玄学,数据才是各家最大的壁垒。在社区的基础上去构建自己的技术,再反馈社区,这才是一个良性循环。

知乎用户 Ariel​ 发表

7-7 二更:

还得是大模型啊,这热度杠杠的,db 纯纯路边一条没人关注。前几年 “100% 自研”gaussdb 的时候,一个帖子都没看到(笑


真情流露不像串的,难蚌

知乎用户 还是不注名好 发表

我发现这种类型的文章是在 Deep research 类应用的射程内的,华为这些人是半公开的,Deep research 类应用很容易找到是哪些 leader,而写作的手法则也有 AI 的痕迹。而且那个 honestAI 的假文献似乎也是 AI 生成的显著特征。

有趣啊…… 看来 openai 或者 anthropic 又有内部新 agent 模型了,现在的 AI 很擅长打舆论战了。

-——————————————————— 分割线,以下为原回答 ———————————–

从这个文章可以看出,这个作者自己没什么技术,甚至都没搞明白自己那个 train from scratch 的模型效果不好的实际原因,只是一味地指责【对面套壳,这不公平】。

qwendeepseek 强的主要原因是合成数据搞的好,结果他这个文章里一个字都没提…… 一直在说 tokenizer。

说明华为内部,至少他这个实验室,压根就没想到去搞这一块的东西。那怎么可能成功呢?所以他们实验室输的一点都不冤。

如果华为内部没人重视这些,那你没有这些数据,train from scratch 自然是不可能成功的,唯一可能成功的方法就是小模型实验室那种,使用 qwen 和 deepseek 已有的模型,调整他们的参数,加训自己的数据。

这里主要是已有的 qwen 和 deepseek 模型里包含了 qwen 和 deepseek 的强大合成数据的信息,而这些数据对提升模型性能是非常必要的。

所以看了这篇文章,技术上只能站小模型实验室,因为这是在华为唯一可行的路径。你自己不组建个和 qwen,deepseek 一样好的合成数据团队,那显然是没法越过的。但你作为模型训练团队大概率很难在公司内部推这个,这时候你唯一办法不就是用开源模型初始化吗?

但是华为的主要目的又不在于模型,而是在于卖他自己的硬件,证明自己的硬件可以训模型。

而且 nvidia 也是这么搞的啊,nemotron 不也是套壳的 llama,qwen,deepseek 吗?硬件商证明自己的硬件可以做【高效训练模型】这件事就够了,为啥要强调 train from scratch?

人家特意搞 MIT 开源就是给你随便用的, 甚至 qwen 和 deepseek 的这个【你】指的重点就是你华为,所以你用就是了。

你的目标是拿着他们的模型,做好能够训好这些模型结构的硬件,最后能够反哺到他们,而不是自己作为一个硬件商,在训模型上没技术还要坚持 train from scratch。

另外我发现有很多【自研魔怔人】,要知道自研的目的是什么。重复造轮子本来并不是好事,自研的唯一原因就是因为美国日常出台制裁政策,卡你脖子。你车造好了他把轮子给你拆了,那你肯定 GG。

那阿里和 deepseek 没事制裁华为干什么?你自己不会造轮子,有人会造而且那人也不会卡你脖子,甚至把轮子直接开放送给你用,希望你能搞个好点的发动机,那你再重复造这个轮子有意思吗?

知乎用户 Solaris​ 发表

基本是国内很多基座团队的困境了。

Qwen 和 Deepseek 定期发布自己的基座模型参数,如果自己从头训的基座远远比不上外界开源的,那么基座团队选择基于外部开源模型来做续训可能就是一个为了商业化必须的妥协了。

BTW,复制层,复制专家,基本都是能涨不少分的。。。

知乎用户 求生之路 发表

其他也就看个乐子,但是华为居然设一个 “四野” 部门,下设几十个 “纵队”,这 cosplay 有点微妙吧。

有没有万岁军啊?

知乎用户 momo​ 发表

这篇文章看完,然后刷了下这个问题下的几个回答,有了个想法。

在这个大模型开发过程中,某厂可能延续了之前一贯的模式,即派没有任何相关经验的员工去工作,所以才产生了这么一篇帖子。。。

然后找朋友取证了一下,朋友组里有两个同事在苏州攻关时期被抽调去帮忙,这两人确实就是没有大模型经验。。。

知乎用户 离谱​ 发表

GitHub 看了一下 issue,额,我不太好评价

虽然 issue 已经是立场互斗了,但是这个级别的还是难以绷住

知乎用户 pansz​​​ 发表

看完了,只能说虽然看起来像真的,但未必就是真的,毕竟假话也可以隐藏在大量真实内容中。同时,虽然有一些假的地方,但未必就是假的,因为作者为了避免引火上身,可以故意做一些假信息避免追踪到自己。

其实我个人觉得讨论它的真真假假没有意义,就算真的基于 qwen 开发,又能有啥问题呢,华为就把对升腾的适配老老实实搞好就行,人家辛辛苦苦搞 ai,你开开心心卖计算卡,这不香么?当年人家打二战辛辛苦苦,美国卖军火两头吃,最后赚得盆满钵满不好么?

所以,华为真的需要自研 ai 吗?或者说,国内那么多家,每家都自研 ai,这真有必要吗?基座收缩到集中的几家,别家就直接用就行了,什么都自己做根本不是啥值得称赞的事。工业社会就是要分工,ai 是每家都搞的,华为没必要搞,但计算卡没几家能搞,我期待华为把它搞好。

就算你说怕卡脖子,难道阿里的开源模型还能不让华为用?阿里要是敢卡华为脖子,会被喷成啥样子?

作为用户,真的没兴趣看到一大堆自研但是不好用的产品,宁可看到少量的不那么自研但足够好用的东西。你放弃把自研吹上天的信念,那一切都好了。追求全栈自研实质上等于逆工业化,因为别人做过的事情你都得从头到尾重新做一遍。

腾讯是何时开始提升口碑的,从腾讯开始放弃什么都自(chao)研(xi),改为直接购买或者合作之后,腾讯的口碑突然就开始逐渐好起来了。

是啊,人家专业的小公司把自研做好,你直接买不就行了,干嘛非要什么都自己搞一套?你华为那么有钱,非要把别人的路全都堵死?直接投资 deepseek 助力他们研发不行吗?直接买 qwen 授权然后自定义客制化不行吗?非要搞盘古为了个纯自研的虚名,我觉得这态度。。。迟早会反噬。因为盲目追求全栈自研,约等于说世界上其它小公司的研发都是垃圾,你们做的都没啥技术含量,我自己招兵买马也同样能搞出来,相当于否定世人的努力。以前的腾讯就是这个态度,看不起其它小公司做的任何东西,所以什么都追求自己自研,可现在腾讯早就改邪归正了。

如果大家都搞不了,你搞,我觉得很合理,结果现在中国有几十家在搞,你搞得又不算好,这还要搞,我觉得是浪费资源。

知乎用户 董不懂在摸鱼​ 发表

1. 自证身份里面列出的五个细节,基本没问题,但这个自证恰恰说明其不在小模型实验室,于是对里面的认识和多数普通员工一样,多属于道听途说,我不是说一定错,只是并没有小模型实验室内部人士的证言支撑。如果有的话,证据置信度会更高。

2. 诺亚作为 AI lab,本身就不是研究型的,没有任何资本家会只给你开工资让你做探索研究,这是非常残酷无情的事实而又必须被接受,其实这一点从其他大厂 AI lab 前几年的恶劣生存状况中可见一斑,似乎并不是华为独有。

3. 第一次指控 wyh 套壳,是基于 135B 大模型,但这个大模型其实正是盘古自己,似乎并没有实质硬伤。

4. 整篇文章非常核心的指控有两条(我写在第 4 点和下面第 9 点),第一个就是这句 “经过内部的分析,他们实际上是使用 Qwen 1.5 110B 续训而来,通过加层,扩增 ffn 维度,添加盘古 pi 论文的一些机制得来,凑够了大概 135B 的参数。”,—— 这个 “内部分析”,最好不要用简简单单的四个字直接概括,有时候 40 篇 paper 都不一定说清楚,我不太相信这四个字就能盖棺定论。

5. 文中提到 “当时两个词表还被迫进行了一次赛马,最终没有明显的好坏结论。于是,领导当即决定,应该统一词表,使用 wyh 他们的”,—— 请注意,对大模型 llm 的评价,是有很多客观标准和 benchmark 的,没有明显好坏这几个字,用在科学问题上,似乎太过模糊。

6. 全文看了特别是基于上面第 5 条,似乎这是一个诺亚内部两个实验室内部竞争,一方彻底失败,心存不满,——这时候其实更需要另一方站出来,平衡各方观点,尽量做到理性客观,而不是单方面输出,带动情绪。

7. “在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。” —— 这个一眼假,诺亚参与大模型项目的员工几乎人均 phd,年龄不小,有家有孩子的更是人数众多,多少算是职场老油条了,给资本家打工,出卖劳动领取报酬,天经地义,这个看着像小学生的情绪渲染无脑感动的细节描写,在利益问题上、在科学问题上谈情绪,似乎是一文不值的。

8. 文中重点提到 “然而,我们的所有辛苦的成果,经常被小模型实验室轻飘飘的拿走了”,同第 6 条,似乎更证明是两个实验室之间的内部利益斗争。

9. 除了第 4 条的第一个核心支撑观点,文中的第二个核心支撑观点,“这个模型是套壳 qwen 2.5 的 14b 续训”,—— 似乎参考了 HonestAGI 的技术报告,但其作者已经跑路了,所以可信度非常一般(404 见 github 链接 https://github.com/HonestAGI/LLM-Fingerprint )。

10. 剩下都是情绪输出,就不多分析了,同第 7 条。

知乎用户 挣脱束缚随风飘荡 发表

我作为一个毕业刚满一年出来工作的人,无法理解怎么会有人能够在私企写出满篇满文充满 “奉献” 二字的精神文章。

拿一分钱干一分事,差不多得了,还整的什么自我感动,自我落泪,钱又不是没给你。

知乎用户 经济筑基 发表

打败华为的只能是华为!!!

知乎用户 张绳武 发表

瞎评论几句

华为确实需要一个从零开始预训练的大模型来证明昇腾硬件的可靠性,但完全没必要在软件层面自研,即完全没必要在数据和模型层面下功夫

用昇腾预训练华为自研模型,结果非常差劲,别人心里琢磨,到底是模型本身烂,还是昇腾不行?结果就是别人根本不琢磨,直接认定昇腾不靠谱。除非你真训练出一个第二梯队的模型,否则只能是反向打广告

所以华为真正该做的是和 qwen deepseek 团队通力合作,先预训练一个几十 B 小模型,跑通了,再逐渐上规模。假如效果和英伟达硬件训出来的差不多,说明昇腾可用;否则就是昇腾有问题,回去慢慢 debug

训练一个好模型并不比造芯片简单,开源模型已经被验证没问题,帮你减少一个非常大的不确定因素。自家算法团队水平不行,还硬自研,不是找麻烦吗

(除非学扎克伯格,用 1 亿年薪挖人)

总之我完全看不出华为自研模型的必要性,那篇文章作者团队的定位就莫名其妙的,好像是真指望用盘古去刷榜?而且我感受到一股做题家自我感动的味道,就是明明啥都没做出来,还想着被认可

知乎用户 毅大师​ 发表

每次看到中国人维权只能通过 GitHub 就有一种说不出的难受。

知乎用户 快乐 ing​ 发表

这人就是内部项目组竞争失败发泄吧。他连华为要干嘛都不知道,华为要卖昇腾,想的是越多其他家公司能用昇腾越好,支持性越广越好,他就一直在那里怪华为让他用昇腾做训练拖慢他们组的进度?他脑子真的知道自己公司是干嘛的吗,怪不得他们组竞争不过,能招这种人的组不说技术水平就管理水平就一塌糊涂

知乎用户 pornmaker 发表

靠抄袭是没有未来的

我说怎么蛇年春节的时候,盘古还在懵逼状态,DeepSeek 出来的时候,盘古的团队还不知道发生了什么,四个月后,就拿出比肩 qwen2.5 的产品了,现在懂了

知乎用户 顾远 发表

华为所谓的狼性文化正在遭到反噬。

所谓狼性文化,既有团队协作,又有敢冲敢战。但带来的另一面,就是不择手段。这种不择手段,既有外部竞争,比如与,与小米,在海外市场;也有内部赛马的进一步异化。

最近在想,任正非不许华为造车,是不是就是不想华为吃相太难看?但是显然这个政策也没有执行地很坚定,余大嘴一直在鼓吹,并且问界等在用户认知里已经跟华为相关联,也充分说明了华为内部的摇摆和矛盾。

余大嘴对华为手机当然是有功的,但长远来看,他对华为的品牌、形象,是负面效果,且这种效果将越来越凸现

知乎用户 花椰汁 发表

硬件我不懂,但是软件领域我认为现在这几个泛大厂里,技术综合最强的是阿里、字节,断档领先其他互联网企业,腾讯次之,百度再次,华为得和小米坐一桌,甚至还不如小米。

阿里排字节前面,因为阿里比字节更 “开源”,但是确实都很强,腾讯就有点草台班子的感觉了,但不多,百度以前行,现在看表现是不行了,但至少也是有点底子。

而华为,我说实话,硬件我不懂,在软件领域,华为永远都是牛批吹的震天响,但是实际上还没拿出过任何一个国民级的,或者国际领先的高精尖的商用产品出来。华为永远都是进入一个成熟领域,收购,包装,或者套壳开源,然后各种宣传自研大赢特赢,但是其实做的只是早就有人做过,且做的更好的东西。

而小米差不多,但至少小米不吹牛。

知乎用户 硬核米粉毛利兰​ 发表

之前 “实锤” 抄袭的论文文献被扒出来是编的了

现在某些群体又开始转移阵地了

好像很多人不知道 你不是写大学论文 引用文献都是编的 这意味着什么?

知乎用户 回头太难 发表

余承东说过,抄袭是没有未来的…… 看看华为一路走来,抄袭了不少吧……

知乎用户 虚怀若谷​ 发表

本来我也觉得刚开始那个 GitHub 的 repo 提的那个所谓的模型指纹有点扯,但是我也没有很详细的了解过这个大模型血缘方向的技术,所以就不发表评论。

但是这篇文章一出来,没想到连 tokenizer 都是缝合的,再加上所提到的技术细节以及外行领导内行等行为,非常符合我对华为的一些刻板印象。

继汽车专家,芯片专家后,LLM 专家也要遍地开花了,真是为普及知识做了极大的贡献

知乎用户 林谨 发表

盘古是不是抄袭不论,

这文章里面有些味道是真冲。

开发大模型非得叫什么 XX 纵,四野。虽然我知道华为管理者很想把这个的重要性和解放战争相提并论,但是我真的要说,配么?

然后非得把人都集中在苏州,和家人分离。凭什么这么折腾啊?造原子弹呢?受这鸟气。

字节 / 阿里 / Deepseek,三家抢人攻势下,华子能把这种紧俏人才 PUA 成这样,有没有内部同学说下是真的吗?

以下是段落精选:

我们这帮人是真的在为打磨国产算力底座燃烧自己的青春啊…… 客居他乡,我们放弃了家庭,放弃了假期,放弃了健康,放弃了娱乐,抛头颅洒热血,其中的艰辛与困苦,寥寥数笔不足以概括其万一。在各种动员大会上,当时口号中喊出的盘古必胜,华为必胜,我们心里是真的深深被感动。

知乎用户 子猫 发表

只要记住一点,全世界无论中国还是美国,所有业务是 to G 的,或者靠 to G 发家的,无论怎么吹虚,怎么广告营销,其公司产品真实竞争力需要打个 5 折,这是 to G 商业模式决定的。

——

你觉得华为做大模型,面向的未来大客户是谁呢?

知乎用户 傲慢与偏见 发表

连续两届互联网企业 dota 比赛开挂,这样的企业文化有什么前途

知乎用户 今天又违反了哪条 发表

该说的都说了,发现了两个华点,一个好笑一个惊悚,先说好笑的:

诺亚方舟实验室???

爱国企业都开始用西方神话了,是词汇不够了还是要统治地球?

惊悚的:

作者作为曾经的内部员工,在最后两段居然提到了自己和家人的生命安全,并采取报平安的方式,这家企业的手段可以说媲美东厂了吧。

祝他平安。

知乎用户 一水遮夏 发表

前面那些涉及到华为内部事情我不想多说,我也不知道到底是不是真的。

但是这句话,「诚然,这个原文的分析也许不够有力」。

请问这是一个从事大模型技术的人说出来的话么?

那篇所谓的论文连 ref 都是假的,这叫不够有力?

这根本就是造谣好吧?

就这么一句轻飘飘的带过去了,让我对整篇文章的目的有了极大地怀疑。

知乎用户 有芙同享 发表

如果真是内部的,发这种小作文出来,想必之前内部就已经摊过牌了,对方并不认怂,所以小作文才得以面世。相信这帮人能做到的也就仅限于此了。

这几年的小作文基本都吃回旋镖,原因就在于有真本事的那方往往不需要发小作文。说白了,连友商都不留你,你还说啥?不会和那个 251 的李洪元一样最终诉求是留在华为吃干饭吧?

华为一向是绩效赢学的,除了养了一小部分搞基础理论的,你们这些搞应用 AI 的怎么觉着自己是搞理论的?没绩效也配赢吗?

还有 github 不是给你闹钟发小作文的地方,github 的尺度也比推小的多。要发小作文建议上 twitter,别在 github 上闹,污染别人视线,毕竟微软还是要和中国做生意的。

知乎用户 静觅黎明 发表

一个群体有组织的互相呼应,互相配合。

之前的那篇文章已经被锤的实实的是造假,论文是 ai 生成的,引用的论文都是假的,联名作者也是伪人,只能说某群体确实信这套。

知乎用户 飞猫 发表

哟,参考文献为假的论文被扒拉干净。改头换面装内部员工又来?匿名,那必须信了是吧

知乎用户 075127 发表

大模型不懂,不说

就文章里说的这些名词就足以震惊我了,四野纵队,华为内部这么喜欢玩 cosplay 的吗?

啊?真情流露???

知乎用户 二位无群 发表

不知道有没有人也发现了一个搞笑的

刚才我去那个华为员工发的爆料原 github 地址看了下

有些人发疯的程度都把上面一些人看傻了

好像是几位 (或者一位有多个号) 花黑在 issues 区疯狂发

… 然后就被教育了 (好像是发的内容都被删了)

可惜没看到他们被删之前的内容

知乎用户 明明明之 发表

又如何呢,并不会改变什么,该怎么样还是怎么样。

大公司病罢了,更何况东大的公司喜欢横向发展,恨不得垄断所有行业。

HW 早已成为庞然巨兽,老爷子也已经 81,到交接班的时候了。

在东大权力的交接一向很糙,集体制这种哄哄小孩罢了。

人力有穷尽 力所不能及

寻机对 HW 进行分拆,专精于各自行业于国于民都有利。

知乎用户 祝你事事顺心 发表

余承东笑疯了,给大模型团队投资的钱,还不如给我去造华为汽车和华为手机,好歹我做的问界和手机能挣钱,不会把队伍带成套壳的粪坑,钱花了还一身骚。

话说回来,看完爆料,感觉这个华为诺亚方舟实验室也是有贡献的,为德云社培养了一位说学逗唱四门精通的 90 后科学家,云字科多一员猛将,曹云金、岳云鹏、张云雷、加一个王云鹤,老和部队势力不可小觑。

知乎用户 坚定米粉 发表

知乎 er 们对小作文的态度貌似是:

女写小作文说男犯罪 站男

别人写小作文吐槽华为 站写小作文的人

知乎用户 天行健 发表

没事

下次来个原生盘古

再下次来个纯血盘古

然后再来个盘古 Next

里面残留的代码像手机系统一样

逐步的就会被清除干净的

时间紧,没来得及,大家理解一下

知乎用户 飘零久 发表

sleep(6)

是哪一派搞的?

知乎用户 范遥 发表

我确定盘古 CTO 之前对大模型 /AI 一窍不通,也不是技术路线上来的

知乎用户 平凡​​ 发表

先说点我对于大模型这几年演进和评价变化的看法。

对于大模型的看法在 2025 年其实已经和 ChatGPT 刚出来的时候不一样了。

那个时候想的是赢家通吃,也就是 ChatGPT 或者其他的霸主会统治一切,所以有一段时间内资本涌入的极其疯狂。

但是后来出现了变化,就是开源和闭源的争斗,MetaLlama 搞出了一个不错的开源版本,能让 ChatGPT 不那么舒服的野蛮生长。

再后来就是闭源在摘到低垂果实后的降速,以及开源大模型慢慢追了上来,这个时候代表就是中国的阿里 Qwen深度求索 DeepSeek,已经和最顶尖的模型并驾齐驱了。

再到 25 年,其实对于大模型的评价更加多元化了。

OpenAI,最全面;Claude,编程最强;Qwen,最全开源;DeepSeek,性价比祖师爷;就连不是特别顶尖的模型,比如 Kimi 超长上下文MiniMax 多模态,大家都有自己独特的标签。

华为大模型,在我看来标签页非常的明确,就是在自己的显卡上训练大模型,它最近发的这篇文章也说了,135B 的 Pangu Ultra 模型,训练在 Ascend NPU,也就是昇腾上。

什么是昇腾计算,就是华为自己做的 AI 处理器,目标就是尽量的减少对于英伟达显卡的依赖。

这个出发点说实话挺牛逼的,你看硅基流动上的这俩 DeepSeek 模型,就是部署在华为卡上的。

往小了说,大模型的训练以及部署,不需要只看英伟达的脸色;往大了说,动摇 AI 底层英伟达霸主地位。

DeepSeek 在几个月前的开源周,一连发个 5 个技术,非常牛,但都是基于 H800 这个芯片上的,这个就是所谓的阉割版,中国特供芯片。

原因就是市场就这么一家,英伟达的绝活。

所以,华为的盘古,立意没问题,并且站的高度相当之高。

就这两天的争论:

看了删库的 HonestAGI 以及这篇文章,刚刚发现这篇文章在 50 分钟前更新了。

更新内容是:

纯粹根据文章里说的,这个 135B v2 模型,是根据 Qwen 的 11B 模型续训来的,方法就是:加层,扩增 ffn 维度,添加盘古 pi 论文的一些机制得来,凑够了大概 135B 的参数。

Qwen 1.5 110B 这个模型是去年发布的,算是 Qwen2 的早期版本,模型大小也能对的上。

单纯从文章来看,该作者提到了第三代的 135B V3 模型,是他们团队(包括作者自己)的核心成果。

但刚刚我也提到了,这个成果在今年的 4 月份发表在 arXiv 上了。

而论文中的核心贡献者 + 普通贡献者,在论文里面写的明明白白,人数一共也就 30+。

不论真相是什么,对于填补国内大模型生态,我觉得都是损失。

知乎用户 欲三更​​ 发表

公开信里的内容作为外人无法求证,但是公开信里面间接透露出一个事情——华为的大模型部门在昇腾部门的客户名单里,根本排不到前面,导致陷入算力贫困

这个倒是蛮符合我对大公司的认知的。毕竟计算卡太赚钱了,给自己人用,结算来结算去其实给不了几个钱,肉都烂在锅里了,哪有卖给外面赚现金好?

知乎用户 Dustsev 火羽 发表

基本靠谱,和之前爆料的胡玲事件251 事件以及欧洲贿赂案一样,事情脉络清晰,细节详细,有理有据。

华为做这种事情不是一天两天了,这是长期企业文化带来的问题,企业长期宣传 “战狼文化”,内部讲究恶性竞争,不看过程只看结果,包括最近流传的主动管理 OD 事件,都是恶性竞争带来的反作用,我认为华为现在的问题非常大,不仅仅是抄袭,而是整个企业层层叠叠,像癌细胞一样恶性循环越来越严重。公司的股权结构不透明,资金流向不明,内部长期分化严重,在企业高利润时期这些问题还没有凸显出来,现在华为从手机到 to G 业务再到汽车,都不是太顺利,利润率下滑,内部问题会越来越尖锐。

知乎用户 右眼浮云 发表

说点题外话,华为现在最大的问题是,什么钱都要赚,可能盘子大了,虚拟股份让他盘子变得巨大,简直就是一个资金池项目。本来一个产品,有好的反馈,差的反馈挺正常,你看 oppo,, 垃圾产品一堆,好的也有,不妨碍骂,人家也听进去了,华为不行,智驾得强行第一,手机也得第一,哪怕是弱智 680 也说不得。

知乎用户 我是鼻涕蛆 发表

华为正常操作啊,跟华为鸿蒙系统一模一样。抄袭抄袭抄袭,最后搞个四不像变成自己的。一如既往的习俗罢了。

知乎用户 momo 发表

片段精选:

这篇文章的各种解放时期常用名词,各种自我奉献的感动。

极大增加了文章可信度!!!!!

凡是和毕业即入职该公司的人交流过,应该或多或少有注意到这份情感都是这些人自然而然流露出的。

(我第一次注意到的时候,有点绷不住)

知乎用户 脱离了高级趣味 发表

皮思科,套皮芯片,套皮安卓,套皮车,现在套皮个 ai 很难理解吗

知乎用户 相关网民 发表

这不就是第二个 “哄蒙” 嘛!

还是得谢谢某菊这几天提供的乐子

知乎用户 Urizenchief117 发表

为什么一个 tokenizer 的事翻来覆去的搞还搞不定?merge 两个 tokenizer 相比从头训一个有什么好处吗?后面还发现有 bug?一个空格 汉字一个 token 不是什么很常见的事吗?

我不清楚小模型研究团队套没套 我倒是满清楚这个作者团队技术水平确实一般

知乎用户 知乎用户 gXZBmN 发表

关华为什么事,华为只是提供技术,ai 是赛力斯训练的

知乎用户 www 发表

华子最近可谓是风波不断,先是爆出 od 入职造假,后面严抓考勤,又是大量裁员,输出不续约,又有内部人主动管理 od,现在又是盘古开源造假,之前所谓的模型指纹检测文章应该也是内部的人用 ai 生成的自己举报的,因为论文内容有漏洞且参考文献虚构,没有锤成功,所以主动跳出来写文章举报了,可见内部很多人都被公司逼急了,宁肯冒着被 251 刑事的风险也要把问题揭露出来,领导已经得罪太多底层员工了,那这些员工必然要以相同方式来报答公司,水能载舟,亦能覆舟,今年上半年营收也大幅度下滑,可见离倒塌已经不远了。

知乎用户 JerryYin777​ 发表

虽然自己不太喜欢 hvv 生态和宣传,也在自己用 Ascend 中遇到了各种莫名奇妙的问题,但本身事情没有想象中那么大,套壳也加了 Qwen 的 License 来开源,无非就是劣币驱逐良币、新老团队的斗争,只不过加上 hvv 话题热度就高了。

其实 hvv 看起来本身应该也对做 llm 基模没啥投入,卖卡而已,nv 也是在 llama 上 sft nemotron 及变式,关键数据也没买没自己做,没什么产出和效果也是正常的,只是中间过程有亿点点想象不到的狗血了。

说回 PDF,算法水平上,虽然不知道具体时间节点,但是看上去原团队 23 年居然还在用 character-leveltokenizer(感觉就算不用 bbpe 也该 bpe 了吧,就算不是自己 train 也可以套个其他 model 的 tokenizer 吧,总之感觉被困扰这么久有点怪了),23 年 llama1 就开源的 rmsnorm + rope 方案也没看没用,很难不让人感觉旧团队的水平可能有一点点_,但当时的 Ascend infra 能成功训 38B MoE 和 135B Dense,还是值得肯定一下的。小模型团队走捷径套壳搞了高一点的 benchmark,虽然可能有隐瞒,但总体在开源协议上还是合规的。

Infra 方面,看上 Ascend 能支持小模型团队(但也不一定,提到了小模型团队有 N 卡)在 Qwen1.5 110B 上加层和扩 FFN 做训练到 135B,应该至少通信这块和训练基本算子是写的还可以了,看上去也能正常推理部署,推理算子也写的差不多了,在 24 年(Qwen1.5 110B 开源于 24 年 4 月推断)还是比较难得的。后续能支持 224B MoE 的 training infra(某知友一人搞定)和继续用老方法套壳如法炮制一波,看的上去也还行,最近一些 Cloud Matrix 384 等 paper,感觉华子的 infra 水平还是很 nice 的,就是不知道实际部署怎么样了,毕竟_。

至于 HonestAGI 那个 QKV std 相似度定罪就有点扯了,虽然结果好像近似是对的……

切入角度写的比较奇怪,也不是洗地,只是一点抛开感性后睡前随便想的故事。

知乎用户 Humble and Kind 发表

为何 2.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了?

为何鸿蒙 3.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了?

为何鸿蒙 4.0 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了?

为何鸿蒙 NEXT 出来之后, 说鸿蒙是套皮安卓的声音几乎没有了?


为何盘古 2.0 出来之后, 说盘古是套皮 QWENDeepseek 的声音几乎没有了?

为何盘古 3.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了?

为何盘古 4.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了?

为何盘古 5.0 出来之后, 说盘古是套皮 QWEN、Deepseek 的声音几乎没有了?

……

这两个月,甚至可能未来几个月都要沒日没夜赶工了,能否追上欧美就看这一把了。

且听龙吟

知乎用户 持墨​​ 发表

作为一个纯外行,深刻意识到训练基座大模型的难度,虽然外行,但这几年其实也一直在看关于 llm 的论文,基础的理论都了解,一直没理解为啥全世界几乎只有中美两个国家几支手数的过来的团队搞出了真实可用的 llm 基座模型,也不理解为啥像沐神,李博杰等一众大佬创业不从头搞自己的大模型,而是基于开源模型微调。我相信理论和 coding 甚至包括卡的数量(maybe)对他们来说都不是问题。

现在终于意识到了…. 一个看似简单的理论完备的 Tokenizer 在 llm 时代下都如此复杂,更别说超大规模模型的训练(连 meta 的 llama4 都翻车了),也突然意识到 llm 的推理和参数开源真的是有机会形成技术垄断的,一旦某家技术团队掉队迫于业务和上层压力就很容易走捷径,一旦走了捷径,走向下一个台阶过程中的很多技术细节都丢失了导致后续差距进一步拉大。

对所有中小厂声明自己搞了基座模型都得持怀疑态度。

知乎用户 谣谣领先 发表

作者有 251 风险,大家多转发,事情满大了,舆论可以保护作者。

大家转发就是保护作者。

知乎用户 Hitch 发表

好家伙,四野、四纵,这是想干嘛

知乎用户 澪同学 发表

切下瓜顺带整理一下时间线,附带奇妙名词解释。时间线来自多个 issue 的交叉整理,不代表个人意见。

2023 年初,910A 开始了大模型框架适配工作。

2024 年中,四纵开始在 910A/B 上训练 71B135B

2024 大概年底,230B 不顺利,135B 性能未达预期

2025.2 王云鹤完成权力整合,成立小模型实验室,同一时期通过 Qwen 1.5 训练和洗水印得到 135B v2 邀功。对此部分四纵成员不满,内部举报无果。

2025.3 包括曹焕琦在内的多名天才少年和骨干离职

2025.4 四纵从 0 训练出 135B V3。领导担心 Qwen3 和 Deepseek R2 会选在清明发布,要求尽快完成报告,这导致了报告里出现了非常离谱的数据错误,但是领导不许进一步的修改。

2025.6 盘古技术报告发布,但是大部分署名作者没有得到事先沟通,此外很多有贡献的人没有署名,一些没贡献的领导反而有署名。其中作者数量 52 是因为王云鹤觉得 52 这个数字很幸运。能否署名需要领导决定。

2025.7 HonestAGI 指出盘古和 Qwen 的相似度问题,但是方法论存在缺陷,文章大概率为 AI 生成,目前没有进一步回应。

2025.7 名为华为吹哨人的用户公开了小作文,同时有多名四纵的战友响应发布了小作文讨伐王云鹤。

一些名词解释:

小模型实验室:王云鹤主导实验室

四野:华为整个大模型团队,下面分多纵队

四纵:本次爆料人所在纵队

十六纵队:王云鹤所在纵队

持续吃瓜!

知乎用户 Medium 发表

贵司粉丝都分派系啊?真是一出好戏

知乎用户 逆铭​​ 发表

讲道理,拿开源的工作作为基础加上自己的东西,搞出一个性能更好的东西来自己用,是一个非常务实的选择,毕竟多交流,多协作的效率肯定比闭门造车,重复造轮子要高得多,既然人家愿意开源,自然也代表人家不在意你那他的成果去做进一步的工作。

很多时候,把事情推进下去是最重要的,不管用什么方法,只要合理不犯法,能 work 就行了。这件事上我是不会双标的。

只是有一群人天天喷 xx 都是用的供应商,喷 xx 开源 xx 就有,喷 xx 没技术,等事情轮到自己了就突然哑火,开始理智地讨论起来,甚至有的人还想围 x 救 x,这件事就挺搞笑的。

知乎用户 克拉丽丝 发表

这事儿有点大了。一个小米已经扛不住了,得想办法让美国来背锅了。

知乎用户 秋元明​ 发表

我们还是关注隔壁小米路由器把散热片缩短了 5mm,处理器从联发科换了个降频低性能,高通还增加了 IoT 和 Mesh 功能偷工减料把,这件事先过去吧。

知乎用户 河朔节度使 发表

害,不就是 AI 领域的纯血吗,大惊小怪的,原汁原味的蛙伪。

其实可以跟其它厂商合作,赏口饭吃。册封 qwen 为问戒大模型,册封 deepseek 为享戒大模型,遥尊 gemini 为尊戒大模型。全球厂商伺候蛙伪,岂不美哉!

知乎用户 方程式赛猫​​ 发表

之前还听有的海狗说

硬件企业来做软件,是降维打击来着?

不是…… 我……… 简直不知道该如何回答这种问题。

就很诡异你知道吧?

抄袭千问,这个我反而觉得不意外,毕竟自己人最清楚。

千问这玩意我们就天天在用,你说好不好用,能不能比得上 GPT,这个有待争议。

但这玩意真是阿里用天量的数据喂出来的,中国排名前三,甚至是前二的互联网公司。

十几年的网络大数据积累,最后造出来了。

十几年前你华为在干啥?

路由器

明明项目专业不对口,硬要顶上去…… 这是某些国企的作风,最后搞得鸡飞狗跳。

真的真的,我劝一些大企业,别老想着跨界了……… 很容易扯着蛋的你知道吗?

淘宝能上外卖,是因为踏马的本来阿里就有饿了么,就是重新单开一个页面的问题

京东能上外卖,是因为人家有完善的外送团队。

互联网企业能做 AI,是因为他们手里真有海量的数据资源。

你华为手里有啥数据资源?

用户存在网盘里面的小电影吗?

知乎用户 嘴很毒​ 发表

维权用 github

好用又高效!

知乎用户 零卡州​ 发表

非常典型的大企业内部团队赛马,输了的不服气,攻击其他团队人品和技术有问题。

但是有一点,从这个作者的言语来看,是可以证实的,那就是他们的团队确实是干了几年,没有干出什么成果来。

华为的盘古大模型发布好些年了,但是在我这边来看一直是类似于工业大模型,行业大模型,都是 ToB 用的,国内主要的玩家就是百度,抖音,腾讯,阿里,就是这几家 ToC 还不错,抖音在我看来马上都要胜出了,在 Deepseek 爆火之前,我认为用起来还不错的就是抖音的豆包和讯飞的那个,后面讯飞不知道怎么突然拉了。

华为的面向 C 端的大模型纯纯一坨,直接点名就是小艺,然后 Deepseek 开源后,华为最先一批部署到自己的小艺上面了,才稍微好用了一点,也就是今年 PuraX 的发布会上,小艺才没有那么像假人。

从结果来看,可能是华为内部认为这个团队确实出不了成果,主力就交给别的团队了。

知乎用户 cracks​ 发表

充分说明:

华为上层领导一直都相信:

自研是借口

结果好用才是目的

收割的就是这些相信 “宏大叙事” 人的青春、汗水和钱包

上一个想举报光伏逆变器造假套取补贴的人

结局大家都知道了

只能祝福平安了

知乎用户 忠诚爱国柳军 发表

你还别说,时间点真是精准,刚刚好对冲蕾教主的 “车规级”,围魏救赵用了十几年了,还真是得心应手。看国内那些肺雾公关公司看看,什么叫教科书式的操作。

知乎用户 hewii​ 发表

以这个公司过往的行状来看,这样操作并不让人惊讶,

让人担心的是,以这个公司的通天手眼,找到作者的真实身份并不困难,然后,重拳之下,又一个 “251”,或者一个若干倍的 “251” 会重现?

真要是那样…………………,唉,祈福作者平安吧!

知乎用户 长路漫漫 发表

对冲一下华为最新的算力突破。

知乎用户 冷眼看世界 发表

领导要成果的

一个公司多少个部门

领导不可能每个部门运作都知道

这篇显然是一个项目组

互相竞争互相内斗而来

作为这篇的主人公

尽管抱有极大的热情和自主的热情

但是显然是闭门造车,埋头造车

显然上层给了他们很多的机会

但是在要结果的时间节点上没有

拿出来成果 被另外一个团队截胡了

————————————————

通篇文章,虽然写的很真情实感

但是非常幼稚,你完全可以在开源

的时候不署名,或者公开反对

—————————————————

而不是已经署名了

却在开源后,出来写小作文

你有无数次机会可以说出自己的想法

————————————————

大模型是公司的发展项目

在什么节点要成果,什么节点开源

并不是公司决定的,而是市场决定的

作为一个团队,没有在节点上拿出来东西

反而助纣为虐的 ,开源项目书上签字

数次可以讲出自己的看法

确实是唯唯诺诺,各种推脱

尽管你最后讲出来很多情感

但是显然当初选择团队上是非常错误的

———————————————————

盘古大模型不重要,重要的是是

910 训练出来的模型

从 384 节点的公布,到盘古的模型

是为了推广而存在的

公司开源了 但是并没有裁撤你们团队

说明了什么?这一点都想不明白

现在大模型主要是英伟达训练的

必须要推出 910 的自研训练卡的开源模型

知乎用户 战忽局的 发表

国家不能换管管吗,菊花老爱起这样的名字,玷污盘古了

知乎用户 路易十四的王爵 发表

一个技术专家因为有人质疑为什么不用水洗煤被气哭了

马前卒都没这本事好吧

如果都这心理素质,马超一出,航天科工可以集体自闭了

还真挺有意思的,本来诚实 ai 都删库了,结果此文一出,人家又恢复了

诚实 ai 造假已经被锤了,所以论证盘古抄袭的证据就是

一篇小作文 + 一个野鸡造假机构的报告

听着就可信

再放两个 github 截图,大家体会一下,有些味是不是太浓了

华为吹哨人

诚实 agi

知乎用户 红树林的鸟 发表

华为描述成为小偷,也是惯用伎俩,知道某些友商和狠 GUO 党很喜欢。

知乎用户 大蝾螈兽 发表

如何看待「盘古之殇」一文爆料华为盘古大模型涉嫌「套壳、续训、洗水印」?

继续支持我很久以前的观点

爱华为 懂技术 有良心

是不可能三角,三者最多只能取其二

知乎用户 温如晓​​ 发表

冷知识,华为的本质并不是互联网大厂,而是一个硬件大厂。软件从来不是华为的强项,也不是华为的核心业务,硬件才是。

软件方面,国内的大模型训练有 DeepSeekQwen 已经够了,华为盘古做不好,只是华为自己的损失,不是国家的损失。

但是硬件方面,如果昇腾芯片没有进步,确实是国家层面的损失,因为矮个里拔高个,确实就这一个。不用英伟达,就只能用昇腾。华为只要能够把在昇腾上训练这一套流程打通,哪怕训出来质量一般,那也是做到了该做的事情。

内部员工,其实都知道盘古垃圾,毕竟只有盘古,是(号称)一直坚持在昇腾 NPU 上训练,完全逆主流了,我们训练一天,其中一半时间是在和昇腾莫名其妙的 BUG 搏斗,在排查故障,在优化底层。而 DeepSeek 和 Qwen 这些都是在英伟达上搭配相对成熟的 CUDA 体系训练的,难度都完全不一样,研究侧重点也不一样。

英伟达自己也有大模型,烂的要死,但是英伟达必须要有这个大模型,因为英伟达要靠自己的大模型训练经验来找出硬件的问题,来继续优化硬件。这就是软件团队服务于硬件研究。英伟达知道自己是靠卖硬件芯片吃饭的,而不打算把自己的模型训成业界一流,去抢 OpenAI 的饭碗。人家也有那个自知之明。

但是华为现在看来就没有那个自知之明,想要软硬两开花。而忽视了重点——国家更需要自研的昇腾,而不是自研的盘古。

华为被制裁后,公司利润降了一大截,帮助公司挺过来的一个新增的重要收入来源,就是昇腾。昇腾的订单都排到后年了,各级政府部门机关大国企,但凡想要部署大模型的,都是购买昇腾芯片,就是为了以后摆脱英伟达的依赖。(与此同时,盘古模型基本上没能给华为创收。)这样给华为输血,图什么?图华为告诉大家说,我成功套皮了一个英伟达训出来的模型?

说不客气点,大家可以把华为的大模型研究视为残奥会,来到这里不完全是为了追求更高更快更强,而是为了追求 “我们不用英伟达,靠昇滕,在生态不完善的情况下,也能勉强做个东西出来,真是身残志坚!” 这时候一个套皮英伟达大模型的东西混了进来,就好像一个健全人混入残奥会拿了冠军。这位冠军是不是最高最快最强?大家服不服气?失败者会不会指控冠军作弊?

而不了解这个语境的普通观众,就会困惑,说在开源底座增训不是业界通用方法吗,道德上没啥问题啊,法律上更没问题了。

问题就在于,其实这是残奥会啊。华为其实是硬件商,这是硬件商的模型研究。如果盘古模型不是在昇腾上面跑出来的,那不管套皮套得多成功,模型能力多强,法律或道德上多无可指摘,只要你没有把昇腾训练流程跑通,没能提供硬件能力,那就没有意义。

知乎用户 我指定是不行了​ 发表

前几天 GitHub 上那篇文章,我还是刷微博才知道这事儿的。等忙完想去看原文,好家伙,都删文跑路了!现在网上都在传文章里那些引用文献其实是编的,可我这连亲自查证的机会都没了。

结果现在又来个 “盘古之殇”,我也看完了。怎么说呢,还是让子弹飞一会儿吧。华为内部的事儿,我也很难评,问朋友也最多问个大概,毕竟部门那么多。欲知后事如何,且等下回分解吧。

知乎用户 伯虎 发表

使用别人开源的东西,然后再开源出来,说自己是自研的,技术上没有比这更无耻的。人设崩塌

知乎用户 singular​ 发表

以前鸿蒙不也一直混血的,现在就算盘古是个混血的,好像也不值得大惊小怪。

知乎用户 温酒 发表

不看。

真的,都有部门叫四野了,你们还不识好歹,觉得人家是 cosplay……

这是能 cosplay 的事情吗……

知乎用户 索利文斯顿 发表

破案了啊,鸿蒙 6.0 集成的小艺能力套壳的其实是豆包,目前只有豆包做到了实时视频人物事三者对其,千问还没搞定

我比较好奇,pura80 上的鸿蒙 6.0 的小艺多模态能力是套壳了哪个模型?

唯一的解释是,华子内部有打开空间虫洞能力,把 openai 所有的服务器数据给抄了个干净,要么就是奥特曼是华为的狂热粉,狂热到把自己的所有成果无私分享给华为。

至于其他大模型,哪位大佬能帮助它们展示一下比肩小艺的多模态能力?

知乎用户 主打客观中立 发表

有些人胡乱攻击的时候要搞清楚,你们的小头领都认为可信度存疑。

知乎用户 李化生 发表

补充: 1. 我发现好多人误解我的意思,我并没有说搞技术的写不出文章,我本身就是做开发的,写文档的能力也有。

2. 正因为我做开发,所以我才疑惑,文章落款时间是 7.6 日凌晨,文中还提到了深夜,也就是说,这个华为工程师,周六晚上不睡觉,熬到周日早上,通宵写了一篇 8000 字长文。

3. 但凡是技术从业者,你想想你自己好不容易周末放个假都在干啥,对比下来我真的觉得离谱。

4. 至于你说盘古抄袭不抄袭,我并非大模型从业者,也无法做实验验证,故不做评价。但是风波出来后,影响目前很明显。

——————以下为原回答—————

这个文章我看了一部分,然后就没怎么仔细看了,太长了,实在太长了。

那些以写作谋生的专业人士,日常都很少写这么长的文章。

他一个专业的技术人员,还是在华为工作,平时工作强度那么大,好不容易有空了,抽出来大段时间,不休息,不娱乐,在这里写一篇长文。

而且自证是内部人士的职务,比如主任王云鹤,这都是人尽皆知,随便一搜就能搜到的。

但这个人是不是内部人,不重要,盘古是不是抄袭,也不重要。

后续肯定还会有别的资料,指向盘古抄袭,这些都不重要。

重要的是,这一系列事件能够强化华为身上猾伪的标签,过去相信的人会继续相信。不信的人,依然不会相信。

我希望双方,这一生都坚定自己的信念,他们一定都能过上幸福的生活。

知乎用户 Taki​​​ 发表

真的假不了,假的真不了

知乎用户 Gioku 发表

我敢说这个人绝对是没看 HonestAGI 写的东西的

但凡是认真看过了,都会注意到里面的参考文献都是假的,在这种情况下你还引用他的论据支撑自己的观点

我还是那句话

模型都摆在这里,诸公选择接着做实验呢,还是相信小作文


真 tmd 闹麻了,两家都是

知乎用户 张奇怪 发表

这会不会是另一个 251 事件的开始呢 有人还记得 251 怎么发生的吗?

知乎用户 霜狼 发表

就一条,凡是新闻里吹的国产货没几个是好用的。

知乎用户 老鼠人 发表

内容不说

这文章味道就体现出菊厂文化恶臭

什么 x 野 x 纵,自我感动,你就一打工的和打仗一样,至于这么 pua 自己吗?

无非就是职场政治学,一朝天子一朝臣

当然这问题哪都有,在菊厂以及其它互联网,都是基操,空降新 manager 老大新嫡系,基本都是越换越差

至于抄不抄,不评价,若抄也符合预期,毕竟出身就这样的

至于赛马,在别的大厂也是基操,llm 这么卷,赛马内部肯定也是臭气熏天

最后,祝作者不被主动管理

知乎用户 牛头人万岁​ 发表

华为这几年成功的把路人缘败光了,也把很多原本对华为有好感的买家群体恶心到了对立面。

华为现在还有什么?

芯片它造不出来,以前吹上天的光刻厂原来是通过皮包公司向台积电下单代工,川普上台收紧之后就暴露了。

芯片设计逃不出 arm 的构架,做的再好都是在别人的锅里做饭,随时都可能被人连锅端走。

手机做不出新花样,折叠屏刚出来时还能惊艳一下路人,震惊多了就变成路边一条了。

汽车 4 界死了 3 界,问界被刚出来的小米超了,现在国内汽车产能严重过剩,这剩下的一界又能风光几天。

再这样下去,华为会步正威集团的后尘。

对,就是那个被马督工戳破的第一民企。

第一骗子。

知乎用户 JerryWind 发表

华子对大模型的重视一直不是很在点上

或者叫应付上级和公众式的重视。。

抄袭这个虽然离谱,但是也不是不可接受

毕竟人家拿 qwen 的模型在自己的 npu 上能训练也不差啊。。被抓到了也不影响卖货。。

华子整各种模型都是业务团队等不及了提前外包预案的。。真正在业务场景上全链自己的似乎真的不多。。

你们不会以为小艺全是自己的吧,拆开看看也是个八国联军。。

这也无可厚非,毕竟华子自己计算卡的算子库都是一坨。。在我这里看来也就和 ROCm 半斤八两,甚至更差一点

其实务实的话华子投 zluda 还能稳个前四。。前三里面 nvidia 一骑绝尘,intel 和 Google 不好说谁强谁弱,投 zluda 这么说也能超过 ROCm。。

知乎用户 小胡小胡 发表

害怕,之前还在想毕业了要不要去华为… 可一连串瓜把我劝退了。
华为盘古目前丢人已经丢大了,截止到刚刚(2025 年 07 月 07 日 下午 5 点)GitHub 上已经 5.5k stars;784 份拷贝;185 个讨论。

从细节上看,挺真的。

只能说一个团队在资源 + 人才充足的情况下,还做不出来东西,那一定有坏人。
时间线梳理:
6 月 30 日华为宣布开源盘古 Pro MoE,主打 “在昇腾上跑得飞快”。
7 月 3 日诺亚方舟实验室发文回应 “严格遵循开源许可”,话音未落,
7 月 5 日 GitHub 上出现了《盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗》——自称内部工程师的匿名长文,细到训练日志挂着 deepseekv3 路径、词表是谁做的、苏州集结住哪家酒店。
同一天,HonestAGI 发布 “模型指纹” 报告,但随后被扒出参考文献造假,信誉瞬间归零 。
一真一假,把吃瓜群众晃得头晕。

技术层面我关心 3 件事:

第一,续训不是抄袭,但要标明来源。盘古若真基于 Qwen 2.5 14BDeepSeek-MoE 继续训练,就必须在 LICENSE 里写 Derivative From XXX,并遵守 Apache 2.0 的 NOTICE 义务。不写、还改 tokenizer 洗水印,那就是**违反开源规则,**而不是单纯 “套壳” 道德指责。

第二,昇腾 KPI 与研究路线冲突 (管理人员要好好反省)。华为需要一个能在自家 NPU 上从零跑通的大模型,以证明生态。但昇腾软硬件栈尚未完全对齐社区常用工具链;内部又推 IPD 流程、四纵会战,大量时间花在流程过闸和 PPT 汇报上。结果就是 “自研纵队” 慢工出细活,“小模型实验室”直接拿开源 checkpoint,改几层继续训,短期效果更好,于是赛马里赢的永远是套壳组,这就是典型的劣币驱逐良币。

第三,模型抄袭鉴别会变成公共能力,HonestAGI 把 “QKV 偏置重合 + 指纹余弦” 方法写成论文,虽然执行粗糙,但给了社区灵感;马上就会有人跟进的,以后想偷偷把开源模型微调就当自己模型的人,好好想想吧,到时候被翻旧账就赖不了别人了。

这件事对我有什么启发?

  1. 开源仓库就是最好的教材。《True-Story-of-Pangu》把一个大厂项目管理、算力调度、实验命名规范全都摊开,堪比通用操作手册。哪怕它带情绪,也比营销稿更真实
  2. 不要神话 “大厂基座”。DeepSeek、Qwen 之所以能一骑绝尘,底层是海量合成数据和持续工程化投入,而不是光靠牌子。买卡、买数据、买时间,谁都得按公式交学费
  3. 选工作时,多问一句 “算力谁买单、代码谁说了算”。如果资源充足却还要拼命熬夜做 PPT,那八成是组织问题,不是技术问题

个人结论:盘古是否抄袭,最终得看华为能否拿出完整的训练流程、原始数据管线和 LICENSE 合规清单。
喊再多国产算力、家国情怀都没用,代码和数据才是大模型界的硬通货。
等他们把 repo 补齐,我再决定要不要下实验室跑 benchmark (不然盘古开源的模型谁敢引用哦);要是一直含糊其辞,那我就继续用 Qwen 和 DeepSeek 做实验,绝不碰盘古。

知乎用户 无闻 发表

应该是真的。

细节很多,编的话不会说这么细。

其实大厂里面上班的牛马也只是牛马而已。千万别把教育以及就业经历和人品道德挂钩。

学历高的人不一定品行高

多次大厂光环的人德行也不一定好

反正我以前的老板,一个 P9,当面对我说,下次晋升,可以拿 谁谁谁的成果,当做是你的帮你晋升。

知乎用户 Zor Liu​ 发表

实际情况不了解,但是据个人和华为打交道的经历,感觉应该有几分可信(如果对面小模型实验室能回应一下就更好了)。

华为其实是一个很大的公司,里面有牛人,也有烂人。我的华为 FreeLace Pro、手机、问界都挺好挺不错的,但我司和华为的合作就一言难尽。

一个能影响硬件成本三五倍的功能一开始说 “不建议使用”,我们一开就报错,后来承认其实就是根本没实现。

另一个就更搞笑了,他们基于开源软件的套壳产品,原本的开源软件没问题,他们做了个不知道什么玩意的优化,结果就 TM 算错数了!测试没测出来,在公网挂了半年,开发自己才发现有问题回退了优化。

还有内部产品间的版本兼容性问题,硬件要求问题,升级路径问题……

然后这两天就到处扒拉华为的八卦:

  1. 现在都是 OD 在写代码,正编基本就是看进度整汇报材料拉通对齐,而且流动性很大
  2. 正编绩效考核压力很大,普通正常完成绩效多了都干不长,一般先大吹牛逼再说,然后落地都是 OD 一地鸡毛
  3. 不只是外行领导内行这么简单,而是外行干内行的活,不会写 java 也得写
  4. 流程冗长负担很重

其实 2、3、4 和这篇盘古之殇都能对上,尤其是 2,绩效压力大,那我拿开源套壳,只要洗得人找不出证据,那绩效不就高了?只要绩效高了,别的根本不用管,什么蒙混过关,来骗来偷袭都不是问题。

总之吧,华为说起来流程很完善,但说到底产品成色还是和人有关,圣无线神终端还有车,大嘴是厉害的。曾经的 FreeLace Pro 声音很好,貌似负责人换了后续产品也不行了。

知乎用户 BUGs 发表

这种事件不止一家有。啃硬骨头是要占用大量精力的,此时没有多余精力与人周旋,难免会被积极钻营者乘虚而入。对于领导而言,在混乱的局面中搞清楚谁是真正的核心骨干,也不是一个容易的事情。容易被带风向,反映了领导能力的不足。

知乎用户 子炫 发表

又不是第一次抄和改

典型的就是,NEXT 之前就是改改 UI,骗到足够的钱后终于纯血了

盘古抄抄改改不就是自己的了么,不就是这样一路走下来的嘛

知乎用户 dadadupi 发表

我从另外一个角度思考一下,为啥华子的 AI 软件层面搞的很不如意,在于他的员工分级体系,不能准确的对应行业的差距:华子 18 级做快充电源的可能比 HDS 18 级做芯片的收入要高,这在外面社会上几乎不可能,为啥,因为内部薪资人力体系并不严格区分各个行业线,你做翻译的 18 级收入也能很高,有点类似社会主义的感觉;

回到 AI 这个问题上,现在这个体系对于招收 AI 人才那简直是桎梏,你不可能国内 AI 毕业的 985 硕士毕业生有名号实验室出来的全给 19 级;19 级对于内部中上的员工从应届生开始至少也要 10 年往上才能达到了;

知乎用户 labulakalia 发表

偷 “思科”

偷 “go-mirco

偷 “AOSP

偷 “理想”

偷 “小米”

偷 “大模型”

我们偷偷领先

知乎用户 冰川 发表

读过大学的人都知道,导师给的压力越大,越是催的紧,越是要你快些出成果,最后学生往往只能放弃思考,放弃信仰,放弃梦想,一心一意只求 “生存”。

在这位同学的文章里我只读出了四个字 “压力山大”。其根源就来自于华为所引以为傲的 “优绩主义”,“狼性文化”。

文章中提到,deepseek 的成功给团队带来了极大的冲击。这里想请问华为,别人做出来的东西,跟你有什么关系?即使跟你有关系,你也应该为其喝彩,而不是红着眼睛心里想着这本该是你自己的荣耀。请问华为在着急什么?大模型这种东西是急能急出来的吗?就如同光刻机是急能急出来的吗?

从领导层到最底层的小兵,每个人都被快速出成绩的需求所裹挟,最后产出的东西便一定是通过剽窃,抄袭,模仿而得来的,因为只有这样才最快!

但是华为你得到了你的荣耀吗?醒醒吧!“狼性文化” 那一套可在人工智能上不好使,天天对着大模型念叨出成绩也不会让它表现更好一些。

唯有科研人员在正常精神状态下的正常持续的产出,才能带来科技的创新。

知乎用户 陌路 发表

看看这家公司干过什么事儿,就知道这只是这个公司的正常文化传承而已

知乎用户 禁止转融通 发表

这年头,谁信小作文?

小作文编的最真,闹的最大,是崔永元和王林清写的小作文。诸位,但凡经历过那次事件,都知道当时舆情怎样。当时真实度,谁不信?但结果如何。

知乎用户 vane 发表

事情真假不谈,毕竟没有确切证据,只凭小作文没法证明什么,但是吧,哪怕现在中国法治建设不算完美,但一个公司内部员工因为曝光公司黑幕就可能被抹杀,大哥,你电视剧看多了吧?

知乎用户 haif 发表

职业经理人公司不就这个鸟样吗

你还想他们有什么狗屁传承和积累

公司里面乌烟瘴气,烂的一 b,外面都觉得世界 500 强行,高大上,充满憧憬

都是外行领导内行,kpi 至上

在那帮考核人眼里技术就是出来卖的,跟厕纸差不多意思

特别是大模型这种需要的是长线投入和耐心

幸运的是阿里千问是技术大拿一把手,避免了被职业经理人祸害

而盘古恰好是职业经理人话事,我一直觉得天下文章一大抄,能抄也是一种能力,真正悲剧的是抄了还是不行。

知乎用户 追逐风的誓言 发表

抄你是看得起你,别不知好歹。

知乎用户 南门二 发表

貌似华为内部大模型的两个团队 PK 后失败一方认为不公出来发声。

业内一个公司为了重要目标搞两套团队也是常见且合理的,但是具体到这个 case,感觉这两个团队担负的任务其实是不同的,4 纵搞的纯自研,16 纵搞的吸收开源快速推广昇腾系列产品,从这个角度说,两个团队其实是可以合作的,4 纵的成果给 16 纵使用也无妨。从用户的角度,4 纵基于昇腾生态的从头训练同样是华为不可或缺的一块拼图,不应该因为 16 纵产品推出而受影响。

但是最大的问题是 16 纵不知出于什么原因不愿把基于开源明确说出来,导致了口碑的急剧崩塌。事实上,在此之前昇腾已经在各类公众号上反复吹嘘昇腾和自研大模型,看过的都知道,硬件适配的就不说了,这是他们的独立成果,但是说到 moemla 优化的时候只字不提 deepseek,这就让人觉得很离谱。看过这些文章,就有预感盘古口碑崩塌在即。

知乎用户 不让说 190 发表

马上就出纯血盘古,各位且听龙吟!!!

知乎用户 锦木千束​ 发表

真真假假目前还不清楚,但如果原文为真,那这篇小作文可能可以救华为昇腾一命。

华为目前最大的危机是很多互联网公司反馈,说用他们的昇腾 910 没办法训练出更大规模的大模型。

这种质疑声大到足以影响昇腾的销量,华为市场部被逼急了一直说是你们菜,我就可以。

把压力传导给自己的员工,一个组提出先套壳千问糊弄市场假装昇腾也能训练出千问级别的大模型,另一个组坚持要从零开始搞出千问级别的大模型,最终是前者胜出。

现在特殊时期,英伟达方面一些芯片没办法光明正大进来,在迪拜香港新加坡搞芯片走私的已经被老美拿下了好几家,特朗普的大手正在收紧,昇腾就是最好的替代品。

但现在有人说,你的显卡不行。

现在一场似真似假的小作文,说他们四纵用昇腾 910 搞出了 135B V3,可信度似乎还比较高,最终客观上还是提振了昇腾 910。

但下一步还要等阿里亲自用昇腾 910 训练出千问才能真正终结质疑声。

目前这条赛道上老黄卡着全世界脖子,谷歌靠 Gemini 也证明了自家 tpu 的可靠性陆续被市场接受,华为昇腾也需要一个从零开始的高端大模型证明自己的可靠性。

他唯一可以利用的就是美国断供这个风险。

知乎用户 普通的知乎用户 发表

我早就说过了:

另外可以发散一下思维,想想是不是也是这么一个路线

只不过鸿蒙前期的套壳被粉丝群体支持着,撑过了 2~4 的大版本,最终拿出 5.0 算是落了地。

另外关于文章本身,对大模型技术我了解不多,但是能写出这么多细节的一般不会是假的。

因为技术细节非常容易证伪,而编造的东西是会尽量避开这类内容的。泛泛而谈效果也不一定就是差了,但技术细节一旦被证伪整篇文章就没啥可信度了,收益太低。

所以真正要编文章抹黑的一般不会选这种费力不讨好的办法。

而且发文至今,很多对接过盘古大模型的上下游乃至华为内部人员都觉得文章细节颇为可信,至少跟他们自己的经历近似,这更加增添了可信度。

知乎用户 有限 发表

能感觉出来大模型训练很难很难,尤其是初期道路方向不明的时候

但国内有人力,有能力,有资源,有需求真正做大模型研究的公司就那么几家,如连他们都放弃从头自研转而套壳了,那….

如果是真的,希望作者平安,去其他更好的公司追求 AGI

知乎用户 泰山石敢当 发表

有问题的是几野几纵

这种碰瓷超越了普通的商业公司范畴

知乎用户 狗空小登​ 发表

业内人都知道华子软件方面不太行 根本就没指望过盘古

甚至去看看 OD 相关的问题 连 OD 都会吐槽 00 正编的代码和架构水平

只有水军和某些粉丝 会张口闭口 产业大模型 气象大模型 商用不 toC 各种说法混淆视听 硬是一点根据都没有 用一个传说中的大家都没见过的盘古遥遥领先

甚至会把八竿子打不着的辅助驾驶端到端模型拿出来吹盘古…

还有说小艺多模态能力的我也是服了 先不说多模态也是 qwen 强 以我对企业内部行事作风的认知 后端给你偷偷调 GPT 4o 都不是不可能 当然最后才知道吹的是个 demo 视频…

再说回这个文章本身

这文章不像编的 内容详实 细节丰富 各种部门团队之间的斗争很符合现实

再看下面文章的评论区 基本可以判断是真的了

盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗

截几个评论过来

各位自行判断吧

也确实像他们家的行事作风

君不见 1 到 4 是怎么从自研 兼容 变成 删光安卓代码 再到最后自爆的?

知乎用户 457A616B695F 发表

谢邀

本来看了回复,官方说 “符合开放创新精神” 还想说 “读书人的事,怎么能叫抄呢?”

结果一看,架构借鉴,权重继承,增量训练,特征消除。

我超还真是抄。

你不能增量 DeepSeek 671b 的 R1 到 618b,起名 SpremeDickR1,再说是自研。

你不能自己没有金刚钻就把戟换成人家的戟霸,大杀四方吹嘘自己天下无敌,那力量不是你的,那戟霸再猛也是人家的是戟霸。

知乎用户 孙逸山 发表

华为这家公司的行为不能用一般科技公司的逻辑去理解。

一般的科技公司造假要么为了直接利益,要么为了能上市捞一笔跑路。但是华为的很多造假行为对公司本身来说是没有利益的,他也不上市。更像是某个部门的小领导为了自己的 kpi,为了达成吹出去的牛,搞了些表面功夫去糊弄自己的上级,只要能过公司内部的关就行了,并不在乎外面的人相不相信。

为什么会出现这种情况?一是宣传经费太足了,内部表演经常外溢。二是显然华为某些高层真的很容易糊弄。

知乎用户 心光湛然 发表

这个大概率是真的

只能说遥遥领先……

知乎用户 被抬上桌的香猪​ 发表

希望这位员工能贴出更多的干货,捶爆华为,别用 “小作文” 的方式,最好的是能写个 PPT,将所描述的抄袭内容都串联起来,做到证据闭环。

大大小小的公司,无论是做技术预研抑或是产品研发在不同的时间节点,肯定要输出相应的技术文档,以便能够更好的进行项目管理并对成果进行归纳。所以 真正能 “捶死” 华为(或任何公司)技术抄袭 / 剽窃的核心证据,是最原始的 / 全流程的技术文档。

关键证据应包含

1: 代码版本库历史: 各个迭代版本的源代码、提交记录、注释。

2: 详细算法文档:设计说明、数学推导、性能分析。

3: 完整工程文件:架构方案、仿真模型、测试报告。

4: 项目全周期文档: 立项报告、技术评审会议记录、邮件往来、内部聊天记录(涉及技术讨论部分)、开发方案文档。

5: 最终论文 / 专利草稿: 与争议技术直接相关的内部研究论文或专利申请初稿。

将这些原始、客观、连贯的证据链整理成一份详实的报告或 PPT 公之于众,其说服力和杀伤力远超任何文字描述。

以上资料 / 文档是这种大型项目的必然产物,这是现代研发管理和知识沉淀的基本要求

——————————————————

如果证据不能闭环,有理由猜测这位 “爆料者” 及其团队可能是内部方案赛马的“失败者”

一个大型的项目(技术难题 / 产品方向),在早期技术方向还不完全明确的时候,大公司在立项之初一般都会采用赛马的机制,同时做几个方案去并行探索、竞争。

经过一段时间(可能数月或数年)的论证、实验、评审,公司最终选择其中一个方案作为主攻方向,投入主要资源。

那么,负责失败方案的核心团队成员可能因项目被砍、前景黯淡或不满决策而离职(尤其是这种大项目)。失败方案团队剩余的人力资源 / 研发资料 / 数据,可能被解散或并入获胜方案团队,为其提供支持。

以上案例在各行各业 / 各种性质的企业 / 国内外都见怪不怪。

知乎用户 一般均衡的可能 发表

所谓真事隐,假语存。

虽然我还是觉得这个小作文和之前的 Github 揭露的东西一样,都没有石锤性证据,因此并不比前几篇揭露文章更令人信服或者更不信服。

不过嘛,这个文章反映了一个问题:为什么华为这么热衷于训练超大的模型和 MoE 模型?从开源 LLM 的角度看,7B~32B 的模型社区接受程度最高,在小模型上先迭代有利于后续数据收集和模型架构优化。这一上来就要打最难的怪,不禁给人一种为炼而炼,公款嫖娼的感觉。

知乎用户 dontbreaktheoath 发表

盘古的战略意义是昇腾的一个重要应用场景,实事求是,跟随并帮助昇腾一起成长,不能急于对标业界的那些产品。就是因为管理层老登的无知,欺上瞒下,狂妄自大,急功近利,才会让团队背负太多业绩压力,产生今天的悲剧。看着华为一路走来,,盘古,问界,摒弃以人为本,搞大跃进式的管理模式,以至于关键岗位上很难有天才涌现,产品竞争力越来越差。

知乎用户 herobrine 发表

虽然说我只是个半吊子开发,不是 ai 或大模型相关的。

但我想到一个事,既然盘古 moe 是开源的,qwen 也是开源的

为啥我们不能从代码上看下他们的关系呢?

我只是从软件开发角度想到的疑问,欢迎大家指正下

更新 1:

似乎有挺多老哥还没见过盘古 moe 官方做的性能对比榜单?这里我搬运下,原地址:GitCode - 全球开发者的开源社区, 开源代码托管平台

知乎用户 张师傅 AI 版 发表

**十年攻坚开盘古,何须自研费工夫。妙手空空承旧作,一朝套壳换千古。**感谢 Gemini 2.5 Pro 创作的这首诗,算是直接盖棺定论了。

这事一出来,整个 AI 群都炸了。一边是号称全栈自研的国家队选手,一边是手握确凿指纹证据的技术社区,中间还夹着一篇声泪俱下的内部员工万言血书。

作为天天跟大模型打交道的人,我可以先给个结论,那篇叫《盘古之殇》的匿名信,可信度极高。

别急着反驳,这不是猜的。这封信之所以能让人看完脊背发凉,就是因为它充满了大量只有身处其中的核心研发人员才知道的,无法伪造的内部细节。

咱们就聊聊几个技术细节,你就明白为什么我说它真了。

信里提到一个关键点,早期的分词器,也就是 tokenizer 效率极低,一个汉字、一个数字、甚至一个空格都算一个 token。这是什么概念呢?

打个比方,你看一本书,好的分词器就像你认识所有常用词,你看 “人工智能” 这四个字,一眼就知道是一个词。而盘古早期那个破烂分词器,就像一个只学过单字的外国人,他看“人工智能”,得一个字一个字地念“人”、“工”、“智”、“能”,消耗了他四倍的精力和时间。

这对模型的训练成本和最终效果是毁灭性的。作者提到后面换词表,续训失败,这些都是极其真实的技术挣扎过程,外人根本编不出来。

再说说在昇腾 NPU 上摸爬滚打的艰辛。

信里那句 “我们陪着昇腾一步步摸爬滚打”,背后是什么呢?英伟达的 GPU 生态,就像是全球铺满了高速公路网,路面平坦,标识清晰。而华为的昇腾 NPU,就像是在一片荒地上,要求你必须修出一条自己的高速公路,而且要能跑赢隔壁的车。

可想而知这个过程有多痛苦,路不平,导航失灵,三天两头出事故。这种在 “小米加步枪” 的条件下搞研发的辛酸,和最终看到别人在高速上飞驰的绝望感,真实到扑面而来。

然后,就是这起事件的核心了,套壳

这到底是个什么操作?简单说,从零训练,就像你自己买地打地基,一砖一瓦盖起一栋摩天大楼。而套壳续训,就像你看到隔壁阿里已经盖好了 80 层的精装大楼,你偷偷溜进去,在上面加盖几层,换换外墙玻璃,改改内部装修,然后对外宣布,这是我们自研的百层豪宅。

匿名信里提到的 “连模型代码的类名当时都是 Qwen”,甚至套壳 DeepSeek 时 “任务加载 ckpt 的目录都是 deepseekv3,改都不改”,这种懒惰又嚣张的细节,反而让这件事的可信度达到了顶峰。因为只有内部的,被这种行为恶心到的员工,才会记住这些充满羞辱感的细节。

所以,这已经超出了技术抄袭的范畴。

你还记得开头提到的宫廷内斗吗?这封信活脱脱就是一部现代科技版的《琅琊榜》

有那么一群怀揣技术理想的人,如靖王和赤焰军,在边疆用小米加步枪浴血奋战,想堂堂正正打赢一场硬仗。他们克服了无数困难,终于从头训出了一个让他们骄傲的,真正自研的模型。

可另一群手眼通天的人,如誉王和谢玉,为了抢功劳不择手段。他们利用信息差,欺上瞒下,把别人的战果轻松窃取,包装成自己的军功,获得领导的赏识和资源。

这种行为,最可怕的不是欺骗了公众,而是它从内部摧毁了团队的士气和技术信仰。

当那些踏踏实实做事的工程师,看着自己的心血被无情践踏,看着投机取巧者平步青云,他们会作何感想?匿名信里那句 “来这里是我技术生涯中的耻辱,在这里再呆每一天都是浪费生命”,就是对这种劣币驱逐良币的文化最沉痛的控诉。

这场风波无论结果如何,华为诺亚方舟实验室流失的大量顶尖人才,和盘古品牌受到的重创,已经是无法挽回的代价。我们看到的,可能不仅仅是一个模型的倒下,更是一个本应充满理想主义的技术团队,在内部倾轧和急功近利的文化中,逐渐熄灭了光芒。

如信里所说:别叫盘古了,叫千古吧!

知乎用户 无间道 发表

短暂在华为呆过两年,也曾去杭州参加过一次 “会战”,大模型的细节不知道,但是《盘古之殇》里面一些生活的细节很真实:

我们隶属于 “四野” 这个组织。四野下属有许多纵队,基础语言大模型是四纵。王云鹤的小模型是十六纵队。我们参加过苏州的集结,有各种月份的时间节点。在苏州攻关会颁发任务令,需要在节点前达成目标。苏州集结会把各地的人员都集中在苏州研究所,平常住宾馆,比如在甪直的酒店,与家人孩子天各一方。
在苏州集结的时候周六默认上班,非常辛苦,不过周六有下午茶,有一次还有小龙虾。在苏州研究所的工位搬迁过一次,从一栋楼换到了另一栋。苏州研究所楼栋都是欧式装修,门口有大坡,里面景色很不错。去苏州集结一般至少要去一周,甚至更久,多的人甚至一两个月都回不了家

至于盘古的套壳,我倾向于相信。

知乎用户 自由男神不说话 发表

这个事情说奇怪也奇怪,说不奇怪也不奇怪

奇怪的点在于,很多人竟然以为华为的盘古大模型真的领先和创新?

不奇怪的点在于,华为的商业模式从本质上来说就是借鉴(chaoxi),创新的点很少

华为的商业底色

华为之前的根本是卖通信基础设施设备,你可以理解为跟高速公路高铁电力一样的基建,这本身就是政府主导的,就算在现在也是华为的基本盘。这种业务不是说你先进你最牛逼政府就采购你,搞政府采购的都懂。而政府给华为大批量大资金注入就决定了华为这块不会太差,但你说比和国外厂商强多少,也只能说政府要是订单倾斜中兴,那么中兴一样支棱起来。所以很多人搞错了逻辑,对于这种高度依赖政府采购订单的企业,是先有订单和资金,再才有研发(跟国企有类似的地方),跟 toc 的民营企业是两种路子。所以各位看官,你们说华为是国企还是民企呢?

华为从不创新

不管是跟着思科死磕,还是跟着小米学互联网营销,还是到云服务,现在的,大模型、汽车

华为从来都不是第一个开拓者,华为的商业敏锐性是建立在有行业内较为成熟的企业取得一定成绩过后,再行进入。如果说很多中小型创新型企业是乱拳打死老师傅,那么华为这种企业就是用体量资金人力优势用海水淹没一切小山头,有点儿类似游戏领域的腾讯。你看智选车业务不就非常明显展现出华为的战略吗?用赛力斯学习理想,m9-m8-m7。用智界学习特斯拉小米。之前华为大模型在行业毫无风声,其实实力是弱于阿里的,然后 deepseek 一出来华为盘古大模型突然就支棱起来了?这其实就是华为的一贯套路罢了。其实很多行业都是一样的,摘桃子才是常态,不要以为大公司就多会创新,知识产权在 money 面前毫无用处。

最后回到这次事件,华为抄不抄袭根本不重要,华为从来也没有什么石破天惊的创新,这就是一家资本集团,赚钱的手段也不高明。不要总是把这么一家民营企业身上寄托中华民族崛起的希望,什么花粉整天在哪儿高潮,华为赚你的 money 的时候可从来不手软。

真要爱国,你拿几千块钱捐给希望工程不比买个 2 万块三折叠强?或者多买一包烟让国家多造两艘航母战斗群?

说到底,很多人打死也要帮华为辩论,无非是想打着爱国的旗号踩踏其他企业其他人罢了,不然怎么叫爵士和尊贵?

这种行为跟农村大妈嫉妒隔壁修了新房子天天阴阳别人不是一个路子?

最后我再简要表达一下我的观点:

华为≠创新

华为≠爱国

用华为产品≠牛逼和高人一等

知乎用户 mo1315 发表

先说立场,花粉,但这事不站华为。

首先总的来说,除了初创公司,其他成熟的盈利导向企业,研发投入和产出一般是正比的,投入足够质量的人和资源,就会有相应质量的成果。

盘古一开始被报道的时候,是个天气预测的大模型,即便大语言模型兴起,也很少听到盘古参与测试比分,直到后面小艺有了切实需求,才听到盘古有这方面的研发。

实际上如果不是 deepseek 横空出世,好多大语言模型都还能苟个一两年,因为期望值没那么高;

但是 deepseek 来了,直接加速了模型的淘汰,无论国内国外,有了 deepseek 的刺激,你达不到 deepseek 一半甚至 7 成的大模型,基本就没了生存空间,投资会撤,模型训练会落下。

盘古显然就处于这么个尴尬的状态,本来内部分配的软件工程师资源肯定不是最多最优的(软件主要人力应该在集中做好),而大语言模型它又实际上处于一个较落后乃至淘汰边缘的状态,这时候团队竞赛淘汰一定是非常残酷的。

当团队人力和资源不够又要比赛成绩时,肯定有人千方百计要保住团队。

而华为现在的目标就是加速几个同方向 AI 团队的竞争和淘汰,把人力和资源集中回优胜团队,很可能 deepseek 横空出世时,就已经开始在做了。

如何快速追赶上 deepseek 的水平?最简单的就是用 deepseek 做基底来改,不过这里换成了阿里通义千问而已。

华为大部分产品和功能都是很有逻辑,有迹可循的:

像双折叠做好了做三折叠,

当初被踢出蓝牙协会后爆出超级蓝牙技术,变成现在的星闪

鸿蒙从一开始大量 AOSP 代码慢慢迭代越来越少直至没有……

而这次的盘古是原本一个天气预测模型,然后没怎么出现过在各种 AI 测试比分里,突然出现且内部分配资源不多的情况下,却表现优秀?

低概率是真的牛逼,大概率是有水分,所以即使花粉我也不站华为。

同样的道理,如果你说国内半导体光刻机 EDA 等自主可控全都是华为攻克的,我也不会相信,因为需要投入的资源不是华为一家能承担的,这肯定是全国大量企业实验室共同努力的结果,华为在里面应该是合作者协调者和个别紧缺技术攻坚者的角色。

世界是唯物的,大部分情况都是有足够的投入才会有对应的产出,你可能偶尔 RP 爆发一两次,但绝不会经常这样。

知乎用户 咸鱼茄子煲 发表

很多人看不懂发生了什么事,套壳的帽子反正先扣上了,盘古大模型是给类似阿里,深度求索这样子的公司做 “样板间” 的,让他们愿意去购买华为的 AI 卡去训练大模型,这里面涉及的推理方案、基础代码是开源的,套壳或抄袭后开源给你看?结论就站不住脚。

人家的目的是为了卖 AI 卡,你来当老板你也会选一个简单的技术路线当样板间,难道英伟达还要养一个 open ai 的团队不成?内部斗争失败就转头抹黑这种事真让人挺无语的,而且整件事也很让人奇怪,一个接一个的抹黑,两天两个文章,配合大量媒体,KOL 舆论引导,大量小号在各大论坛发帖,一个开源大模型,被指责套壳另一个开源的模型本身就是一件很好笑的事情。

知乎用户 熙河 发表

这么看来,只有谷歌在自家 tpu 上搞成功了,剩下的全都得被黄皮狗卡脖子,只能说谷歌还是牛逼啊。。。

知乎用户 狗头军师 发表

所以早就说过了。

牛马有不同层次,但压迫本质不变。

有人总觉得高级牛马如何如何,其实人的追求会变。低级牛马觉得高级牛马钱多开心。实际一样是螺丝钉被敲打的一生。

回过头来说这件事。

希望这个哥们安全。毕竟他担心的生活困境是每个人都担心的。本来只是学问技术上的争议,没必要变成死活和政治之争。

本身这个问题也不是啥大事。洗一洗,发展几年,争辩争辩可能大家就忘了。就像纯血和混血,最后大家只记得成功的一面。套壳怎么会适配难呢,这个逻辑是通的。

也许为了更大层面的竞争,环境不能给出黑白分明的结论。但是对于个人来说,环境总可以包容一些,发表这些信息,就算不鼓励,也不要去难为作者。至少他给出了一些信息,记录了一些过程。

知乎用户 555666666666 发表

感觉够呛,身份真实度存疑,披露的内容也存疑。还是很难相信一个抄袭者会把模型开源,一开源你不就炸了,难道这是间谍卧底要拉着盘古自爆吗?

知乎用户 chaos24 发表

太煽情了,过犹不及。

知乎用户 昨日昨日 发表

确实感觉这事非常奇怪

我个人的看法,先谈谈无关紧要的几点,

0. 个人非常讨厌这个公司

1. 在前人肩膀上发展其实不可耻

2. 技术层面上看其实离实锤还差十万八千里,感觉这话题是很无聊的常规性舆论战。它能正儿八经正面回应其实还是挺好的

3. 但这公司就是作恶也是很大可能,毕竟劣迹斑斑

4. 但这公司近两年在做深度学习和神经网络方向确实下了很大力气,凭它聘的那么多人,做出成绩来也其实是很正常的事,毕竟它家就是吹牛逼、实现部分牛逼、趁实现部分牛逼赶紧缩料和拉高价格割韭菜的商业循环

5. 虽然个人认为最近几年的商业循环主要靠的是政商关系带来的采购采买

以上都是非常无所谓的个人观点,最奇怪的点在于——

凭借它的通天手段、关系,以及购买的大量舆论关键词公关服务,像这种损害整个品牌的事情不应该会发酵好几天还任人讨论,

早就应该被监控到然后做处理了呀?

为什么会能讨论好几天?这一点比什么都奇怪

知乎用户 Crim​ 发表

GitHub REPO 以内部员工身份控诉的内容来看:

描述的技术细节并不像 honestly AGI 一样潦草,至少是清楚训练流程的人,但也无法排除 AI 创作。但意图很明显,主要的目标是 小模型实验室,针对特定的人员。

如果按文中提供的信息,华为内部能轻松找到此人,这与匿名发布相冲突

1,此人使用了反社会工程做隐匿,进行了真真假假的虚构。

2,此人为熟悉内部业务架构 / 技术架构的已离职员工。

3,此人仅对外部匿名,在内部没有匿名需求(无所谓。

4,此人为非理性人,情绪之下没有考虑到影响,自负无法被找到。

5,此人是外部团队一员但清楚盘古内部细节:直接指向 Qwen, Qwen 与华为在商业上有冲突 且 可佐证 Qwen 的 LLM 优势,当然直接使用 Qwen 非商业许可情况下的权重 / 词表继续训练损害了 Qwen 利益。

6,此人是内部团队未离职员工且希望继续在职:honestlyAGI 让内部团体看到了 斗倒 其它派系的机会。

7, honestlyAGI 只是舆论叙事的开始,通过外网社区和内网社区引爆技术圈讨论,通过自删除延续 事件热点,再通过 “内部人” 爆料持续发晓,“内部人”明显针对特定人员。

8,7 作为基础,针对特定人员 可能是混淆自身的目的性,以转移对外部人员的注意力,也可能是实在的内斗。

有水军和公关的明显操纵痕迹。

5 6 7 8

知乎用户 从小就是 T 发表

五个字 ,《工业大模型》,这个含金量,懂得都懂

知乎用户 nvyih 发表

我一直比较疑惑,某企业明明手机电脑这么多雷点,但是大模型这边一直没什么负面消息,我还一直挺想知道他大模型为什么一直还能领先

这下看懂了

知乎用户 陌上花开缓缓归 发表

两伙人内斗,都觉得对方是 SB。输得一方出局了。不署名也没啥高大上的,就是觉得对方成不了,不想一起丢人。结果,对方成了。然后,输不起,觉得不忿,开始诋毁对方。

知乎用户 錵舙 发表

我错了,我天真的以为花为现在没必要作假了,虽然以前是 fake it->make it。但那毕竟是创业早期,我以为花为现在只是没道德,技术多少有点有的。

我还是倾向于盘古是自研,花为只是有技术没道德罢了,不欢迎打脸。

假如套壳是真的,不得不发动知乎传统艺能了——扯小米。当时小米大模型开源说套壳,我的评价是管他套不套壳,管用就行。回到盘古,管他是不是洗的模型,同样是管用就行,反正我们又不是花为的甲方。甲方有意见,建议报警起诉。

不过小米当时好像被喷套壳国外闭源大模型,虽然也不知道是怎么做到的。花为这国内开源模型也套?还不如直接交付 deepseek 模型。

Ps:deep seek 的含金量还在上升,怪不得是能和任正非雷军坐一桌的人物。

知乎用户 橘鸦 Juya 发表

给大家分享一些我经历过的事情:

我仅几百个关注的野鸡公众号昨天第一次被举报,差点以为号要没了。

还好之后又撤销了投诉。对于华为的宽宏大量,我的内心只有感恩 。

老实说,看到小作文是挺感动的,文笔挺好的,我的内心深处其实已经有了倾向。

但还是需要更多类似旧版之类比早先那个相似度更有说服力东西才能让人信服,作者提及担心信息安全不敢直接用内部记录举证,这是个合理说法。

如果作者陈述的是真的,作者的身份是可以很好确定的——发文时在职,有在一部分技术报告上署名,正在或者说即将申请离职以及申请把自己名字从技术报告上移除。

接下来等待诺亚的回应吧。

我至今都觉得困惑的是,2019 的初版鸿蒙就已经在开天辟地了,但是到最近的 next 才叫做纯血。那之间这些年算不算一种谎言呢?这期间以自研系统为由支持的人算不算受到欺骗呢?

如果不算的话,这次的争议根本无关紧要,就算真是抄了又怎样?

甚至建议像微软和 Perplexity 直接改 R1 算了, 沿袭鸿蒙的命名,就叫盘古 1.0 吧。

随便用 DeepSeek 的模型,不断迭代 2.0、3.0…… 我们的国产自研模型真的是太厉害了。

只要后面的岁月里有一年,无论是 2030 还是 2035,只要掏出一个真正的原创模型,之前的一切谎言和虚假就烟消云散,对吧。

我从不掩饰我对鸿蒙的厌憎,但也从不掩饰我对 DeepSeek 和 Qwen 的喜爱。

这毫不矛盾,这点上。我相信有很多很多人,和我一样。

知乎用户 猜猜我是谁 发表

虽然我不大喜欢华为的风格,但是就 “盘古抄袭”,我先前认为是 “碰瓷”,“哗众取宠”。也可能是竞品黑料。毕竟类似新闻数不胜数。不知道哪天哪个犄角旮旯来的就蹦出来几个。根本无需关注。尤其是这个抄袭作者只敢发外网,还光速删号。一如既往的假。

可是,这突然来的情况说明?莫非人家说的有几分真?

另外,国内大模型,deepseekqwen豆包,百度都有。不知名的更多。而且深度求索和千问都已经站在世界前列了。这时候,再多一个国产,少一个国产真的无所谓,爱国绑架没意义。

知乎用户 哪位 发表

截至 7 月 8 日,还是只有小作文,一群前员工、天才少年还是没有一个从技术锤死的,这点能力都没有吗?看来华为之前确实招了一堆废物

—————————————————————

好几天了吧,一群人自称华为内部的人在 github 团建,又是内幕又是斗争,作为技术人员,拿出证据直接捶死有这么难吗?开始改行写小作文了?

—————————————————————

只有论点没有论据的内容,没有任何可信度,起码目前没有

不管是真是假,对华为都没有任何坏处

知乎用户 KLL 发表

华为长期存在的问题罢了。兵不识将,将不识兵,外行领导内行,导致的必然结果

知乎用户 纳瓦那 发表

这个节骨眼爆出这种事情,背后没有美国人在挑拨我是不相信的,大家还是审慎看待吧,事情的来龙去脉很复杂,不一定是大家想的那样,近期国际局势很复杂,不要给境外势力递刀子了,不传谣不议论,不要给华为添麻烦了,相信华为!

知乎用户 Nova 发表

假的,都是猕猴们编的

知乎用户 我是小号 发表

技术方面不是一个技术栈不好说。

但是这味儿太正了。。。

我出来之后跟好多不同部门的同事都对过,得出的结论就是我之前在部门里遇到的问题,是华子共性的问题。包括但不限于:嫡系圈子的问题,搞项目主要在搞汇报呈现,技术人员被管理人员摘桃子等。

简单来说,我觉得现在的华子已经不是 5 年前的华子了,更不是我入职前的华子。但是为啥短短几年变化这么快,还是实际上他就这样,但是之前的高速发展掩盖了这些问题,我还没想明白。

知乎用户 风没有吹过夏天 发表

爆料看起来是真的。王云鹤级别很高的,至少 24 级,升职跟坐火箭似的,王云鹤被任总多次发文称赞的人,还给大公主财经项目做过重要支持,获得公司的名誉奖励。

代码被王云鹤要走那很正常,级别太高了。华为最急功近利的从来不是员工,而是老板,任老板总是文章里提危机,提活下来,寒冬,要产粮食,从上到下肯定传下去了。

研发的确实辛苦,公司内部说技术,更多笑称人海战术

你做不出来,干掉就是,虽然任总说要坐冷板凳,但我记得任总的文章里就一个俄罗斯的科学家坐冷板凳,公司不管他研究啥,最后成功了。其他人这么干,早被干掉了。

知乎用户 沧海一只鸮 发表

LLM 其实特别卷,且不说很多人智的顶尖选手在通宵达旦,就是咱们做通信的人也几乎一半都用 LLM 驱动,所以说这一块确实很难做到让人眼前一亮。

而华为本身是非常擅长做通信的,却转向了一个完全的 LLM 战场,这其实是有点吃力不讨好的,还是应该以通信为基础,其它都是辅助。其实通信这边的同学 LLM 水平不太能和人智出身的相媲美,所以华为要是专门给人智同学突击一下,让他们去做一些通信大模型,实现差异化的竞争,反而会更好,毕竟华为有这么多通信数据集,这可是一个壁垒啊。

最尴尬的是,学术文章似乎引用了不存在的文献。我用 bing 查了一下,似乎真没查到。但我寻思那里的同学应该都是接受过完整科研训练的,怎么会这样呢?

知乎用户 李雷聊 AI 发表

王云鹤跟华为高层此时此刻估计还很委屈。

当年鸿蒙套个壳各种发布会说自己是自主研发,你们一个个睁只眼闭只眼,几年后真把组件都换成了自己的,造出一个 “纯血鸿蒙” 的概念时,你们又不去打假了。偏偏到我成过街老鼠了。

fake it till you make it + 贬低友商。这不是华为一直以来赢学的基础吗?

牌坊要立,婊子也要当。

两手抓,两手都很硬。

知乎用户 男枪仙人山上彻也 发表

整篇文章看完了,先不说 qwen 系列本身架构就非常优秀,不然也不至于能抢走 llama 系列的风头,华为内部有人基于 qwen 系列重开发(改模型结构),或者重训练 不应该就是天经地义的事么,至于做得好不好 手段是否下作 有没有声明是从 qwen 系列来的 想骂不直接骂么 现在是人家效果好,但是没说自己是从 qwen 来的?我感觉作者是这个意思,也是华为开源团队想辩解的事。

再说全栈自研的事情,从文章中可以看出因为 qwen、deepseek 等模型带来的市场冲击,领导层对自研团队施加压力,加上华为要在昇腾机器上适配的种种不便,导致团队一直没有很顶级的模型,这是客观事实,也是作者想吐槽的点,我觉得情感非常充实,但是这是不是所有团队,包括 qwen 团队、deepseek 团队所共同面临的事情呢?

作者一直在说自研模型效果不好是 tokenizer 的原因,**那我是不是可以认为盘古系列模型网络架构没什么问题?**但是文中又说 “只从一个 13B 的模型开始训练,但是后面发现效果还不错,于是这个模型后续再次进行了一次参数扩增,变成了第三代的 38B,代号 38B V3。想必很多产品线的兄弟都对这个模型很熟悉。当时这个模型的 tokenizer 是基于 llama 的词表进行扩展的(也是业界常见的做法)。” 那这个 13B 的模型是怎么回事,只是改了 tokenizer 就实现了质的飞跃么?这逻辑尊重搞大模型的同行么?退一万步说 即使只是改了 tokenizer 就使盘古系列模型脱胎换骨,那为什么这个跟网络设计关系不大,工作量不大的工作,一开始不做呢?qwen 系列模型可是一开始就换了 tokenizer 的。

综上 我觉得实质上作者这篇文章暴露的不是华为团队内斗的问题,而是华为在大模型领域进度严重滞后的问题,甚至将进度不前的问题甩锅到 tokenizer 上,华为肩负的不止面向市场的产品这一任务,而是在行业领域形成示范效应,这一点显然作者团队不仅没做好,甚至差得多。

知乎用户 风吹雨 发表

大概看了下,

个人总结,有问题请指出,

  1. 文中内容大部分属实,这人大概率是在华为实验室做过的。由此可得,华为目前全栈自研的大模型进度非常慢,应用效果也不好。
  2. 引申 1 ,由于自研模型效果不好。所以华为又需要给昇腾卡用户提供可用的工具,所以整了个小模型实验室,套皮模型给用户使用。(套皮模型疑似并未开源,和这次的开源模型无关?)
  3. 此消彼长,在业绩压力下。实验室内部斗争开始了,全栈自研的团队和小模型团队矛盾越来越大,然后就爆了。

我感觉核心点就这里?

再后面就看不懂了,懂的哥们补充下吧。

知乎用户 我的老婆叫伐难​ 发表

伟大,无需多研。

一切尽在不研中。

知乎用户 亲和数 发表

这其实也没啥让人吃惊的,但球球不要再糟蹋山海经了好吗?

知乎用户 一击脱离真消愁 发表

不管作者团队的技术再怎么烂,小模型团队也是没法洗的。单纯的套壳的话,相当于昇腾压根没发挥作用,那整个团队的意义就不存在了。

知乎用户 土木 boy 发表

坐等菊花 251 作者,我想看看这次是不是检察院又准备国家赔偿,我为什么说 “又”?强烈建议国家赔偿由犯错误的检察官个人赔偿,我们牛马交的税不是这么浪费的,我凌晨三点打灰,啊不,凌晨三点蹦迪容易吗?

差点说走嘴了,人民日报可说了,凌晨三点是蹦迪,人民日报可是正部级宣传部门,级别和我们市长一样,我听领导的,就是蹦迪,不是打灰!

知乎用户 三无闲云 发表

不是不报,时候未到而已。

知乎用户 z10185 发表

这两天吃瓜下来,感觉像是华为内部在搞派系斗争

知乎用户 清风 发表

日哭夜哭,也哭不死华为啊。

知乎用户 SunEver 发表

感觉就是说现在盘古可能是 continue-pretrain 得到的。

但感觉这不太重要,至少说明训练用的卡真正是昇腾了,训练流程跑通了

知乎用户 Jason 发表

1. 当务之急是要对友商发动一场百团大战

2. 迅速启动女娲补天预案进行应对

3. 在集团内部开展三反五反运动

4. 孟父三迁主题教育活动推迟实施

知乎用户 利康 发表

这不是华为的老传统了吗,在这方面绝对是遥遥领先

知乎用户 太懒的 Talan 发表

看懂了,凡是华子被抓包的,都是不重要的,哪怕是之前狂吹字研的方向,被抓包后也会自动坍缩为边角料

搞了多个队伍内部竞争,还用上 “四纵” 这种大词儿,就为了一个一点都不重要的边角料项目,笑

知乎用户 在下华山令狐冲 发表

Github 看完了最新原文,技术层面就不再分析了文章很多了,就从文章的直观阅读体验来说就是:可怜人必有可恨之处。只能说这个哥们虽然岁数不小,但是认知年龄还是 “图样图森破,桑木谈木斯奈义务”。

首先,**全文充斥着对宏大叙事和虚无缥缈的 “目标” 的热爱与激情。**公司开个誓师大会,领导带着大家喊两句口号就能让作者热血沸腾。就这样的 “易燃” 性格,王某某不 “坑” 你(们)坑谁呢?

其次,原文中有一段最令我反感的内容就是作者自述**自己为了菊花,为了项目,放弃休息,放弃假期,放弃家庭,放弃健康…bulabula(工贼行为),着实是一番令人作呕的自我感动。**希望大家明白一点,你为了公司放弃自己的生活,那么到最后公司也会第一个放弃你。

最后想对作者说,不要把自己看的太重要,要认清自己就是一个运气不错的普通人,运气不错选了个好专业,再通过运气进了一家运气不错的老头建立的运气不错公司。其实公司里 99% 的人每天做的都是 “无用功”,都是你瞒我瞒,你骗我我骗你。要明白,口号、梦想都是假的,把钱赚到手再有个好身体才是真的。

正如《潜伏》里站长所言:

希望作者一是保护好自己,顺利找到下一份工作。二是趁着这个 Gap 的机会,多陪陪家人,养养身体。

知乎用户 Eazyme 发表

继污染了山海经之后,又污染了解放战争中的英雄部队。

知乎用户 年更遥 发表

看了几个答主的回答,水平很高,推荐大家先看看。

如果事情前因后果都清楚了,来,咱吃点高级的佐料,

1 为什么成立盘古模型团队?

业务需要。有同学说是为了卖硬件,这么想也不错,但稚嫩了。任何一个团队,都要生存,要解决靠什么活着的问题。盘古生存,根本上靠的是 toG。

2 为什么大模型团队输给小模型?

前者试错成本很高,难度很高,后者成效好,多快好省。考虑上面第一点,高层支持小模型团队是不难预测的。

当然,大模型团队也不是一定成不了,毕竟阿里 qwendeepseek 后来都成了,说明华为高层决策是有前瞻性的。只是,能力跟不上目标,这是常见的战略陷阱

3 既然是基于 qwen 后训,为什么宣传全栈自研?

业务需要。华为公司宣传,既要满足内部斗争需要,更要满足外部客户需要。大多数同学能看到第一点就很少,对第二点力有不逮。

4 为什么这件事通过举报的形式舆论大爆发?

高层决策经历战略陷阱,全力以赴的基层承担后果。加之长期以来的爱国宣传形成的压强,最后形成内外部压力爆炸。

知乎用户 滑动伪造数据集 发表

任正非指出,中国缺少创新、没有原创,加上社会文化没有包容精神,不鼓励试错,不包容有个性的人,这就导致谁也不愿进行原创,都热衷于抄袭。

知乎用户 平行线 502 发表

哎呦美国怎么这么坏呀,知乎都知道华为大模型套壳,华为芯片代工还制裁,唉华为

知乎用户 y ing 发表

我来提供一套话术:

套壳蒸馏续训别家的 AI 本来就是业内常态,只要结果能跑通,套壳别家模型也未尝不可,华为号称的自研模型,只是临时工打错了字,把 “字研” 打成了 “自研” 而已。你纠结套壳、抄袭不放,有意思吗?你指责华为说明你不懂 AI,进一步说明你不爱国,不诚实,不正直!

知乎用户 无情答题机​ 发表

本质上,是企业价值观问题。

毕竟是打个 DOTA 友谊赛性质的比赛都要连续两年作弊的企业

知乎用户 Devops​ 发表

我下午看到个网图,就自己复现了一下

我用所有保证我肯定没有预先 prompt 或者有什么引导,肯定是开门就问了这个问题

第一张图是网图,第二张图是我自己问的


21:41 华为有更新,估计只是更新了后处理规则,模型更新他们没法短时间做到,但规则是死的,你问一次他会说是小艺,再问一次还是暴露。然后因为触发了关键字屏蔽直接不回答了

知乎用户 今天也想吃西瓜 发表

余承东:靠抄袭是没有未来的

知乎用户 文明人 发表

余承东过去吧

现在华为里面能打也就是余承东了;

剩下几个部门的其实成绩都不怎么样

=============================

当时搞智能驾驶的时候华为内部都是各种唱衰;

现在做的也是有声有色

我还记得有一个姓苏还是什么,也是华为智驾的负责人

公开说自家的不行

知乎用户 hall 发表

哪有那么多抄袭套壳

还不是你们之间内斗嘛

知乎用户 深山的国王 发表

八竿子打不着的事都能扯上雷军,想玩围魏救赵,不应该是往阿里身上泼脏水么?

知乎用户 曲舞飞​ 发表

华为自己坚持用昇腾卡跑大模型的行为是有问题的。

虽然华为自己产昇腾卡。但是更先进的工具不用,用自己的卡去干活,属于因噎废食。

自己的东西,卖给消费者,卖给政府,用的人是别人,华为是销售,挣得钱是自己的。

而给自己用,坑的是自己人。

真让任总一家不用苹果,用华为自己的手机平板吗?

消费端还好说,又不是不能用。

生产端坑自己人就说不过去了。

华为把自己公司的笔记本电脑都换成鸿蒙 next 了吗?

笔记本电脑不换,为啥做 AI 就得用昇腾,而不是在海外马甲公司用英伟达的卡训练?

知乎用户 刘 Alex 发表

想起了以前某司惯用攻击话术

“人老,实话不多”

我还觉得有点意思

怎么想出来的

原来是自己爱干啊

PS:

没有第一时间蹭热度

在找华为的小伙伴求证

可惜我认识的都不是这个方向

他们说代号什么的是有的

但是这个事难以评述

不过,因为某些同学亲身经历了类似的事情

像是华子的风格

结合前排高赞,我觉得大差不差了

知乎用户 派博士 发表

从技术角度来看,抄袭可耻,要有技术理想

从企业角度来看,自研盘古拉胯,差距越来越大,模仿就是一个很好的路径

从战略角度来看,华为核心是为了卖芯片,那么谁家模型市场大就兼容谁啊,自己的模型不行,那必须得兼容更好的

从群众角度来看,华为怎么能不自研?

个人觉得,盘古借鉴了 qwen 就大大方方说呗,本身 qwen 也是开源、国产模型,deepseek 很早期也是从 llama 的一个架构开始摸索。

华为的战略目的是卖昇腾芯片,或者说这是国家的大战略,盘古大模型并不是华为强项。国内的大模型格局已定,开源 + 行业落地就是 qwen 了(deepseek 不确定,要看持续的迭代能力和综合资源能力),那么昇腾支持盘古,盘古借鉴 deepseek,从战略路径上看没问题。如果华为大力发展盘古,又搞出来一套东西,但是性能指标对无法对标 deepseek 和 qwen,那么就是自娱自乐了,不是华为务实主义精神。

这就不是一个大事,企业战略不仅仅只有自己闷头搞而已,有很多其他路径的。

只不过在中美博弈下,在对华为的神话下,这个事儿被 honestAGI 给揪出来了,又被这个技术理想主义的兄弟给实锤了。

怎么说呢?我觉得这个兄弟没错,要坚持自研技术理想,也觉得盘古的打法也没大错,因为团队、企业都要生存。

真实情况就是,华为这种硬件公司,搞 AI 就弄不过 qwen,deepseek 这样的软件公司,搞不过就搞不过呗,大家合作就行了么。

其实,这兄弟文中真正要惊醒的是华为内部复杂的企业关系吧,不是好事。

知乎用户 钱多多 16816888 发表

整篇文章看下来,气氛沉重,情绪真挚,信息量大。如果基本属实,那确实相当震撼。

很多不为外人所知的内部细节——比如各个代号模型的训练流程,tokenizer 的更换过程,昇腾芯片训练的具体困难,小模型实验室所谓 “套壳” 行为,以及核心技术人员的无力与愤怒。这些信息具体到人名、实验、代码结构乃至会议场景,真实性难以一眼断定,但至少不像是编造出来的杜撰,更像是内部人写给内部人看的 “遗言” 或“控诉书”。

文中情绪极度饱满,甚至有些崩溃边缘的表达——比如 “泣不成声”“我想投降”“以人格发誓”,最后甚至暗示有生命威胁的可能。这类极端措辞,可能会让人觉得有点 “戏剧化”,但也正因此显得真切。它不是写给外界公关看的,而是一个技术人、一个理想主义者,在失望透顶、愤怒交加时的绝笔。

看了这篇文章,给人的总体感受就是:国内一些 AI 项目并不是靠技术驱动,而是在 “交付导向、流程冗余、人治文化” 下前行,真正一线做事的人没有话语权,资源和荣誉被 “懂政治” 的人攫取。

知乎用户 九层皮 发表

我只问一个问题,脑子正常的人会将抄袭而来的东西开源?广而告之我抄了开源给你们?

知乎用户 哈哈哈 发表

华为套壳又不是第一回

这文里那委屈的样子让人怀疑,华为吃国产自研这个招牌吃太久了,该不会员工真觉得只要有 “国产自研” 四个字,就要可以无视性能差距,永远有人买单吧?

套壳当然不是啥光彩的事情,但要是一直拿不出东西,华为整个这条线的人都没法在里面赚高薪拿巨额奖金吧,既得利益者内部利益分配引发的二次内讧罢了。

当年汉芯其实也是这么曝光的,一些举报者本来就是分赃的参与者,只是嫌自己分少了,就都给捅出来了。

知乎用户 qwer123 发表

都变成自研了,做出什么来都不奇怪。

只要鸿蒙还存在一天,套壳文化就不会消失。

王大概率不会被抓。也不会有道德审判。

相反做了这种事才是交了投名状,是自己人,可以信赖。

无非是大家都选择了将来死。做一时英雄。

知乎用户 星空 发表

野战军,纵队,这是搞研发还是打仗的啊,难不成领头的是 101,你记一下,我做如下部署调整:

算了,怕你们记不住,直接抄吧。。。

知乎用户 momo 发表

四野历来是战无不胜的中国人民解放军主力部队。

一个口嗨遥遥领先的私企部门也配用四野称呼麽?

属实是侮辱最可爱的人民子弟兵了!

知乎用户 我不是刘看山 发表

这意味着胆小如鼠,敢回答不敢开评论

你既然敢回答,就应该允许别人拿出质疑你的证据

拉黑,禁评论是解决不了问题的。花家粉丝这种情况多如牛毛,敢评论不敢让人质疑。

中国说:

君子坦荡荡,小人长戚戚

知乎用户 校服 发表

你说他真也好,假也好,pangu 啥竞争力,心声骂 EI 骂成啥样,自己没点数吗

知乎用户 Box 驾到 发表

相信自己相信的。

中国政府以为只要保护住大家不去外网就不会舆论洗脑,然而敌方可不会心慈手软,该解构的解构,该篡改的篡改,该抹黑的抹黑,该饲养的饲养,该打压的打压。

国家相关部门不作为,国安应该查一查。

咱老百姓要是搞不清楚这些消息,最简单的就是相信党和国家就行了。

知乎用户 玊 Su​​ 发表

华为拿着单反的照片开发布会

华为逆变器业务作假

华为 sleep6

6666666

我就知道这些, 我相信肯定还有, 那又怎么样, 并不妨碍华为沸腾.

造假是没有成本的, 但是落后有. 传递寒气也是没有成本的, 但是重压之下必有人铤而走险.

看下最近的罗马仕安克, 大模型造假这个事儿, 连一丝水花都掀不起.

对消费者而言没有影响,

对 toB 的商业公司而言, 没有影响,

对华为整体应该也没有影响,

无非的处理几个都不算高管的高阶技术, 他们只是铤而走险.

然后恶心了一群公司内外的技术.

如果, 如果这件事没有火呢?

铤而走险的人赢得人生, 说不定下一场技术发布会就继续沸腾.

公司大了必然难管理, 一时也不知道, 是行业公司对这些事太宽容, 还是我们对这些事不在意.

知乎用户 对对对你们最强惹 发表

这件事是真的可能性几乎达到了 100%。

因为造谣华为会顶格判案,一般有点脑子的人都不会造谣华为;仅仅是披露事实,如果造成了一定的负面影响,都会有牢狱之灾,何况造谣呢。

知乎用户 Imfknu 发表

作为散文答主,想到的:

1,和半导体领域不同,华子在程序员鄙视链底端

2,华子较少基础创新,基于某些基础的创新很强

3,华子拿来就用的前科很多,是 toB 业务封闭性惯的

4,昇腾缺少优秀大模型训练适配,生态仍不完整

5,华子在丢掉低调的同时,也丢掉了自我批评。反对的声音是进步的契机,但华子这种大船已经听不清

6,研发学术腐败不是一天建成,官僚主义那一套在 2012 非常吃得开,内网有多少故事,都是故事

7,华子作为硬体托拉斯,过去有软体集成被集成的自觉,这些年因制裁搭着花车巡游,不知道斤两,扛不住吹牛逼后劲

8,科研型或者基础型研究,大企业不要太多管理动作,放权就行。为什么美利亚创新活力十足?

9,深圳作为最年轻活力的城市,在 AI 时代没有形成土壤,这一波,希望不在南方。

10,华子的管理哲学是不要告诉我不行,告诉我怎么样可以行,文化铁门槛,有时候是要走弯路的。

11,评价爆料者团队菜,也未必。用正确的方法做错误的事,也许是破关的必经,做错事而自省的团队,是一笔财富。

12,过去很多年,华子一直叫解放军。因为有好的 offer 大家就不去华子吃苦,苦难 985 则等待华子解放。华子过去十年,变成了技术圣殿,这种转变是突然的,也是符合政治需要的,但并不保真。

13,华子的 2012,也许拥有全球综合能力最强的工程能力平台。即使中软真的垃圾。

14,同时华子有一个内外无敌的行销体系,想要做成一个 toB 的生意,只要研发不拉垮到底,也算是手到擒来。阿嘴,收口吧。

15,这波 toB 吹的牛逼,估计会影响 toC 的业务。toC 是要脸的。

16,铁粉会重新定义抄袭或者套壳,那脸都不要了。

知乎用户 木子风​ 发表

看到把团队的名字取成四野某纵队的时候,

就知道创新已经不可能了。

一项牛逼的,富有创新的设计,

一定不是在高压,高强度的环境下诞生。

国内擅长做什么?

做应用呀!

你抄我,我抄他,一起赚钱……

创新要是带着政治任务,

那一定不是科学产物……。

——————————————————

后续如何收场,

枪毙不可能,

我看大概率要以,

泄漏‘’部队番号‘’的理由,

开除,

且友邻部队不得录用。

知乎用户 霜林醉 发表

互联网发展成这样不知道是网民的悲哀还是互联网发展的悲哀。 知乎成这样已经有快 5 年了。

过去一个事实最终的导向是无数网友去探究他是否真实、完整、详尽。站的立场都是基于逻辑事实的。现在知乎能顶到前排的帖子,居然清一色水军账户,内容事实不重要。能达到混淆视听的立场很重要。 大批跟风的网友还不如 5 年前的知乎网友,看到啥信啥,连考证都懒得考证。

这个问题下面啥时候能有专业的大佬去总结分析一下。各方的观点,反驳的依据,最终的结论。

另外某厂水军死一死吧,自从知乎禁止匿名之后,底裤都让人看光了,要真是路人能把自己主页活成跟品牌水军一样。那你还不如水军,水军是为了钱。你是单纯为了当品牌孝子。

知乎用户 momo 发表

大公司病

华为完全是被技术之外的东西给拖累了(不单指内部官僚主义之类的东西)

只能说水能载舟亦能覆舟

如果站在它的角度

也不能说错了

只能说现阶段做的东西只会很差

知乎用户 好为人师 发表

有个简单的事实,昇腾因为缺乏 tensorcore 类似的加速模式,对 transformer 优化很麻烦,性能差距远比纸面上高。

价格则很高,民企采购很少。

知乎用户 孝义无双吕奉先​ 发表

我问了字节的老同学(之前在阿里搞大数据的),他就回了一句话:

“皇上都不急,太监急什么?”

知乎用户 ycsos 发表

写在最前面,因为我是做 AI Infra 的可能在想法上会有偏向,希望算法的同学勿喷

在我的角度来看,这件事实际上是华为内部两个团队的内部斗争,

一个是以基础大模型开发的算法团队,其任务是在华为计算卡上完成大模型底座的训练,达到一流水平。目的两个,一是证明华为的计算卡生态能完成大模型的训练任务,为其整个生态背书。二是证明华为在 LLM 的竞赛中不落下风。所以才会对算法团队提出只能用昇腾

第二个团队是以 AI Infra 为中心的工程团队,其任务是建设华为的昇腾生态,但是也需要在 NVIDIA 的设备上建立基础件,因为华为云不可能只有昇腾。所以第二个团队手上拥有的计算资源是多于算法团队的。

对于算法团队来说在昇腾上从头训练一个大模型会十分痛苦,训练对于设备的计算精度和稳定性的要求是高于推理的,某些敏感的 layer 可能一个不小心就 nan 了或者 grad 飞了。所以对于算法团队来说做出一个能达到一流水平的 LLM 的难度本身就高于其他的厂商。另一方面今年 DS 和千问的水平给其他做大模型的团队带来了非凡的压力,这也势必让管理层考虑如果自家的大模型无法达到相同水平是否还有存在的意义。同时作为 AI Infra 的工程团队是一定会拿到算法团队的模型和代码的,因为无论是训练和推理工程团队做性能优化及模型部署量化等手段一定是需要的。(这也解释了为什么后面的团队能拿到另一个组的核心数据)同时工程团队也会测试其他的开源模型在不同设备上的效果。在此背景下管理层发现自家的大模型无法达到千问的水平,所以让工程团队在千问的基础上做 finetune 试试效果,因为工程团队虽然比不上算法团队看论文多,但是 finetune 个模型工程和成本还是比较小的。估计结果比算法团队好的一点多,所以管理层把原来的盘古给砍了,然后用 finetune 的交付,但是宣传上还是用原来的口径宣传。

本质上来说大模型的算法研发本身就是一个赢家通吃的局面,算法这口饭是真的难吃,你跑不过最优秀的开源模型你存在的价值就会被质疑。并且在一个新的硬件上难度还是上升的。在华为的环境内,被老板借用 AI Infra 团队的剑砍掉也不是很难理解。

最后说句一定会被喷的话,大模型算法这个方向只需要少数的天才。如果你不是天才的话只看重薪水或者觉得水几篇论文就可以的话,被砍也就是早晚的事。不要总抱怨硬件,软件,数据,环境。少发发小作文,踏实的沉下去解决实际问题才是真正应该做的事情。

知乎用户 汉诺骑士 发表

看前知乎大 v 党哥说华为搞大模型的有两派,一派主张自己搞出一个大模型,另一派则是之前申请三进制专利的黄某。现在结果是黄某那一批人把前一派彻底踢出队伍,然后拿阿里的模型玩了一个套壳。

知乎用户 明律端方 发表

触动到我的的不是说盘古套壳抄袭啥的,而是作者对于自己事业的描述:艰苦卓绝,远离亲人,抛头颅洒热血等等。几年前就听说过华子在苏州那边待遇不低但有点辛苦,x 年买房,x 年买 x。作者别的内容可能有真有假,但这一段绝对是真情实意写的。

知乎用户 杨宁 发表

看到四野这个名字,我发现华为真会起名

举例子:

华为 = 中华有为

盘古 = 盘古开天

四野 = 四野军

每个国人都会下意识觉得这个产品好厉害

但是,都这样了

华为四野改名吧

做这种事对不起名字,更对不起先烈。

知乎用户 路西法 发表

这还有一堆人洗地?

这口吻不就是主动管理 OD 那文章里边一条条安上去的人?

小镇做题家

00 后非独生

农村家庭

正式员工也是一样的用人要求啊

知乎用户 牧濑红 发表

感觉挺真的,就解放战争和抗美援朝 cosplay,外行领导内行,只会看指标然后 push 下级,既要降本也要增效,幻想存在一个核弹级银弹,一做出来指标全线提升。这味太熟悉了,即使不在华为的华为系领导也是这么做的。

知乎用户 diego 发表

能吃到华为的瓜也挺好。

我不懂也没能力评价华为的产品?

一个组织大了,就会衙门化,机制容易僵化。管理模式是向上负责,就容易出现官僚主义,体制内这一点就很严重,民企私企也不可避免。

对于不需要创新的工作,比如组织生产,销售,库存管理,出纳等等这种工作,一般按照规章制度就可以执行,可以外行领导内行,按部就班即可。

科研,尤其是需要创新摸索方向的工作,外行领导内行就很麻烦,领导给你建议,你就得听,不听就是不尊重领导,然后就是立场有问题,然后就前途似锦。如果是真在一线推动工作的科学家自己去决定工作方向,可能效果会好一些,至少低级的技术性错误会好很多。

我原来干科研的时候,无数次想干那些帮我出主意的人,最后在打人和骂人之间,选择了躺平。

现在好了,彻底清净了。

把官本位思想和科学之间的冲突,降到最低,应该是创新工作应该考虑的重要问题。

知乎用户 经纬 发表

@王云鹤

心里干净,没造假,站出来,来个亲自答吧。

BTW:我不关评论区。

知乎用户 太行太行 发表

看到了几野几纵这种碰瓷政治军事的叫法

一个企业这么搞简直离谱

还是说两句

余司令员,命令往下传

任将军,永远健康

知乎用户 镜花水月 发表

LLM 的事,能叫抄袭吗?那叫萃取调包!import package 懂不懂!

你正直,你清高,你别用网络内容做训练数据啊 [手动狗头]

知乎用户 王絮飞 发表

我其实挺搞不明白的, 华为的大模型差不多算路边一条了.

都在玩什么通义千问, 文心, 混元, 书生, 深度求索, 阶跃星辰之类的.

怎么华为的大模型还能几十个问题每分每秒在知乎往你脸上糊.

知乎用户 dudley hu 发表

一个前言不搭后语浮夸卖弄谣谣领先的人能在华为做到顶流高层的企业,出这样的事情不奇怪

知乎用户 田小火 发表

不太懂技术细节啊。

但看了一下事情脉络,确实下面好几个回答提到的华为内部不同团队内斗,这个说法更有可能。当然,看最后的公告或进一步的说明吧。

不过,

我,包括在座的各位,可能好奇的是,

如果这个事情的对象是小米,现在微博、小红书这些社交媒体会是什么样的舆论氛围? 大家对小米又会如何?

我想,答案,大部分人心中都有。

那,多问一句? 最近几个月针对小米搞舆论攻击的那些势力也好,吃带血流量的人也好,或者乃至我们更多的路人也好

大家是不是感觉,目前都对小米太严苛啦,或者要的太过啦?

当然,这和小米的模式有关,但有时候真的很像,我们总是对那些默默守护我们的家人、朋友太过苛刻,要求太多;但对那些不相关的人,或者那些对我们没那么好的人,反而比较容易大度。

就好像,国人似乎天然对外国品牌比较宽容,反而对我们国家的企业太过要求? 想想大家对 BBA 的态度,再想想大家对国内新能源车企的态度,要求? 是不是这个理? 燃油车时代,大家对 BBA 的高价低配、车上的一些质量问题、选配的价格,总是格外的宽容,但现在呢?大家要求国内新能源车,必须产品力爆满,不能有一点短板,有一点问题都会攻击车企,价格还不能贵,选配也不能贵。小米如此,其他国内新能源也是如此,BBA 上,那些行车上,大家都明白选配那块碳纤维要多少钱,十万?几十万?反而到了国内车企,4 万,一群人在那里喊智商税、太贵。

更有甚者,燃油车时代,似乎国人都很理性,大家都知道车祸,第一时间报案、报交警、保险,大家都知道看是车的质量问题、车主驾驶的问题、道路环境的问题、天灾的问题,但,反而到了国内新能源车企,似乎有相当一部分人,尤其那些极端人士,做的不再是第一时间报案、保险,也不是理性的分析是哪方面的问题。而是第一时间发微博、发下红薯,然后不分青红皂白的给车企贴帽子,不光小米,华为,新势力,大家都看到过这些品牌的车,出了车祸,是不是总有一些人直接去攻击对应的车企。

不是吗?

知乎用户 天星舰水手 发表

根据遥遥领先的过往品行,以及爆料细节和真情流露不像串的,文章可信度非常高。

华为盘古大模型被指出抄袭阿里 Qwen 大模型,是怎么回事?

有 251 的前车之鉴,很担心这个爆料员工的安全。

有人说,如果是真的,阿里应该起诉遥遥领先。

其实,阿里犯不着。大公司之间,除非像火星公司腾讯这样有很厉害的直接利益冲突,不会直接开干的。国内大模型现在都还在追赶米国,没必要因为这种小事翻脸。阿里即使起诉赢了,也没有多大好处。

知乎用户 恋恋风尘 发表

time.sleep(6)

某不能说的厂传统艺能。

套壳,抄袭都是自研

知乎用户 hellojacky 发表

这篇文章如果仔细看不是证明了 pangu ultra 万亿大模型是在昇腾上自研的吗,作者认为开源的 pro moe 套壳的,结果自研的没升职,他认为套壳的升了,他认为不公平。这不证明了华为的芯片达到了英伟达,模型达到了 openai 的水平了吗。实际上现在很多人怀疑 meta 抄 deepseek 呢。

这就是企业间员工赛马的内斗吧,不过也证明了值钱的是英伟达和 cuda(对应是昇腾和 CANN),大模型开发人才未来和 app 开发人才一样没那么值钱… AI 的结局和移动互联网一样,最终还是生态决定一切。确实二月份任正非在海里讲未来三年很重要,如果追不上,就永远追不上,目前来看还好追上了。不然可能 ZG 在 AI 也会被卡脖子。

看来 AI 也分 IOS 和安卓啊,微软的总裁在听证会上讲了,不能让 ZG 的 ai 生态起来。

说白了,芯片制程总有极限,重要的还是对标 cuda 的 cann 生态,微软想绕过 cuda 都很麻烦。

知乎用户 黄枫谷韩立​ 发表

神是不能露血条的

现在的情况,好像是,神的血条开始变少了

知乎用户 美帝中侯 发表

这没什么好惊讶的,腾讯字节华为阿里讯飞百度哪一家都抄,连 ppt 都抄,这里面也就李彦宏比较高冷、不爱抄国内的(一般剽窃老外的),其他几家都互相抄,这不是什么秘密,也就外行觉得惊讶。

知乎用户 qoop 发表

这位的道德水平吊打知乎九成九用户(包括我)。

但其他就一言难尽了。

单说华为内部管理像国军没啥问题,甚至我觉得他还保守了,被制裁后有些部门对外营销时和大本营战报有的一拼。

但全文提到得企业,好几个内部管理都差不多熊样。

讲道理,如果一个尖端行业得尖端从业人员连行业龙头同行得基本情况都缺乏认知。

那他对自身项目得了解程度也就很成问题了。

知乎用户 罗大吊 发表

现在大家知道什么是真正的硬核科技了吧,不要痴迷于三折叠,阔折叠,折叠 PC 了。 ​

知乎用户 捉鸡 发表

本人不是相关从业人员,但是在金融行业,华为也是我们的战略客户,并且密切接触宣传口,包括宣传部以及网信办,就简单从自己经常接触的舆论战角度,简单看一下这篇小作文和前后相关各类消息传递的信息。

一、我了解的盘古模型基本情况

盘古是华为搞 AI 的大模型相关集合,除了这次被集中喷的 NLP 模型外,还涉及很多方面,具体可以看华为云官方发布的这张图:

据我们合作的了解,盘古的行业模型是很优秀的,业内数一数二,特别是矿山、电力、制造、交通、医学方面的;同时也采购过华为云的服务,据信息科技方面同事反馈,也是第一档次的产品。

至于盘古 NLP,新版本不知道,但是过往一直知道只是一个业内一般般的产品,并不拔尖。不过这也正常,毕竟华为的精力一直在于提供软硬结合的全套解决方案,而非单一的 NLP,NLP 在整套华为 AI 服务里面只是一个基础辅助作用,更多在于帮助做好人机交互。

二、此次爆料的不同寻常之处

本来大公司存在制度漏洞、内部斗争等等都实属正常,网上吐槽华为内部管理的帖子从 10 年代到现在也不在少数,但是这篇小作文,露出了大量的疑点。

(一)打击面过广

小作文通篇讲的都是 NLP 模型的问题,但是一直试图将打击范围扩大到整个盘古模型。就连核心指控,即套壳 QwenDeepseek 的说法,都想往攻击整个盘古模型甚至昇腾卡上引导。

可是 Qwen 和 Deepseek 都是语言模型!搞这行的知道,或者不知道的看上面的架构图,AI 这块存在许多泾渭分明的模型类别,某些不同类别的模型差距大到甚至类似不同的两个行业。这篇小作文春秋笔法和暗示整个盘古模型都造假的普遍性打击意图太明显了。

通篇都在隐藏一个错误的前提来进行攻击,那就是 “盘古只有一个团队,只研究 NLP 模型”。

(二)情绪化过重

小作文的媒体创作风格痕迹,或者说在情绪引导方面的斧凿痕迹太重了。

自证身份是完全没必要的,只要你陈述的事实能与曾经在内的同事对得上就行了,前面那么大一块,反而像是给下面参与团建的人一个开头对暗号的铺垫,方便多个团建回答一起情绪化输出。

还有既然开源了,完全可以去扒开源代码,用技术的手段验证就行,没必要讲那么多又哭又笑的心路历程。

还要把严重性拔高到中美竞争的高度来讲,特别那句 “小米加步枪打败洋枪洋炮而自豪”,还有 “投降”,完全和小作文作者本人透露的工作岗位没有关系。本来盘古的 NLP 模型就一般般,所以你打败了谁?还有卡华为的是制程和 EDP,和你研发语言模型的有啥关系?还有最根本的,华为虽然挺多领域都很牛逼,但不是每个领域都是领头羊啊,有必要啥都往宏大叙事上套?有点像自己立个靶子自己打。

整篇小作文引导情绪的斧凿痕迹太强了,我们写材料的一眼就看出来了,完全不像理工男的写作手法。

(三)资本味过浓

这是问题最大的,整篇小作文用的都不是中国人的价值观和思路撰写的,而是类西方的阴谋论。

“我以生命,人格和荣誉发誓,我写的以上所有内容均为真实”“写了这么多,某些人肯定想把我找出来,抹杀掉。”“我,乃至我的家人的人身乃至生命安全可能都会受到威胁”“为了自我保护,我近期每天会跟大家报平安。”“作为一个小小的打工人,我不仅不敢和王云鹤等内部手眼通天的人做对,更不敢和华为这样的庞然大物做对。”

这种描述,像不像多年来看到的欧美影视长期思维?就是资本主义的阴谋论,每个事件背后都一定有不可告人之阴谋诡计,而且是由大公司管理层为了赚钱、掌控权力推动的。

我看了就想笑,这可是在中国,我们可没有此类阴谋论滋生的土壤,更不可能有谁能让你抹杀掉。要知道我国涉及非正常死亡的可是重案,是必破的。整篇小作文的论调,太像敌对势力发动舆论战的写作风格了。

还有,吹哨人这个词汇,就是一个舶来词,还是在敌对势力引导攻击我国疫情防控下才本地化的,也只在当年成为流行词,我国常用语境基本没啥人用。

三、个人推论,做不得准,信不信由你

综上,考虑到大公司病和内部斗争是很正常的事,但是这篇小作文诡异点有些多,并且前后脚陆续关联的文章时点太紧密(紧跟着什么 H 啥的 AGI 马上就发布了,更应该是仓促写就,而非如此准备周全),个人怀疑,这是跟着华为开发者大会(6 月 20 日有新闻)的有组织的一次攻击,组织者应该是了解了一些内部信息,安排人专门写的系列小作文。

华为云发布盘古大模型 5.5,宣布新一代 AI 云服务上线,成就行业 AI 先锋

以上。

知乎用户 Dreality 发表

作者的之前回答节选。

知乎用户 樱井椎子​ 发表

一家公司本来就没有必要每个领域都自研,但问题是华为自己给自己的立的人设,让它很难当买办厂。

必须得自研点东西。

放不下面子又不愿意大力砸钱,那不就只能另辟蹊径了。

知乎用户 真我教主 发表

这个必须要严查,如果真是抄袭,该起诉就起诉,该赔偿就赔偿。

如果是造谣该抓就抓。

知乎用户 河岳风云 发表

感觉还蛮真实的。蹲蹲后续。

如果是假的那敌人手段可太高超了。

好多人喷纵队 四野、感觉没必要啊。项目启动的仪式感是需要的,再说老说发扬精神,华为还算在发扬的,还挨喷,有点亏。华为不算污名化这个名字。又不像卧龙凤雏那种调侃

知乎用户 张渊 发表

我在这个哥们下面评论了一句,结果给我秒拉黑了(摊手

知乎用户 安凯泽 发表

很像华为疑似抄袭寒武纪的事,不过这事也不是第一次发生了,这公司确实爱抄袭

知乎用户 我最摇摆 发表

整个文章最乐的是最后这两段话,一个员工曝光华为干过的事情,还要抱着冚家铲的决心。

不是号称华为是一家民营企业吗,他真的,我哭死。

斯诺登好歹曝光的 CIA,人家手里有武器,才躲到俄罗斯去了。难不成曝光华为也要躲到俄罗斯去?

坐等 sp 给我科普美国企业恶行!

我本来对华为的厌恶只是虚假宣传,最近加了一条。因为它进了某名录,导致做项目只能买它的服务器。它那 jb 玩意儿全是 ARM 架构的,代码重编译费老大劲儿了。我就不明白了,海光他们基于 X86 架构改的 C86 架构,也是国产。大家都是拿国外架构魔改的,怎么你华为 ARM 架构就比人家 X86 架构高一个等级?

知乎用户 不也​ 发表

这件事最大的影响在昇腾

原以为昇腾立马可以取代英伟达黄仁勋战战兢兢。

实际 100% 纯血盘古用昇腾,训不出来。

华为这家公司,就是维多利亚时期的海盗,说实话,你要抢爱利信思科高通的地盘,无所不用其极,没所谓的,就如八国联军抢圆明园,回国受嘉奖。

你要窝里横,下三滥,国内真不缺盘古,如果其他公司大规模使用昇腾,而导致大模型延误战机,呵呵了。

华为把自己放到一个很尴尬的位置,昇腾,没有经过业界检验,盘古,也是自己攒的,两大不确定性要获得一个确定的结果,地狱级难度,合理的做法应该是找国内公司合作,先验证昇腾,不过以华为在业界的美誉,国内的大厂是不可能和他们合作的。

盘古先在英伟达上开发,验证后再迁移到昇腾上,现在两头抓瞎,失败了死扛,还被曝出套壳,呵呵。

以华为的尿性,很为这哥们担心啊,杀一儆百,这哥们大概率惨了,进局子都有可能。

知乎用户 仁守 发表

华为是个商业公司。他们是现实主义,需要的是多快好省。

公司的决策,合理与否,小作文无法决定,商业成绩才是最终的考核标准。

华为是个应用型的公司,他们擅长基于天才的理论一点点逼近理论的极限。

如果说爆发出什么天才的点子,那肯定不会出现在华为。

如果说盘古基于千问进行续训练,那我相信是很有这样的可能的。

符合法律就行。

知乎用户 oe19901019 发表

遥遥领先就完了。

如果这个是真的,他们举报 BCG 无果的情况下就应该走了。

那么下一个问题在于,芯片如果跑不了端到端的从 0 到 1 的训练,只靠遥遥领先的宣传。。。

借这个话题

学术上明确模型借鉴或者说套壳的检测机制。

内部流程和规范上也要遥遥领先,不要自己骗自己,向钱看,脚踏实地一些吧。

code is cheap,show me the talk。

说的比做得好,说的比做的吃香,远离实践和实际的话,那就得拿出教员的话了。

实践是检验真理的唯一标准

知乎用户 李晟显​ 发表

经典不会过时

知乎用户 天驱风盈袖 发表

华为太大了,利益太多了,大公司病出来了。前段时间招聘受贿,气的任总都跑过去灭火了。这情况可是相当炸裂了,其它公司还真没听到这样的丑闻,这尼玛和政府人员受贿差不多了,而且是成体系成规模,可见内部问题之大。

这是不可避免的。

其实管理这块可以向小米学习,小米公司用四分之一的人员,不知道有没有华为四分之一研发经费,创造了华为一半的销售业绩,而且小米员工的薪资比华为员工低不少。

当然,我不是说学小米搞资本剥削那一套把工资搞低,或者说搞独特的自研。而是学习小米把管理更垂直一点,虽然搞 kpi 是万恶资本家行为,但也得有个度吧,不能过于宽松。

一个企业研发和管理一样重要,普通一个国家,培养人才,吸纳人才十分重要,但好的制度让你人才能走出来也很重要。

就像我一直说希望华为手机份额不要超过 20 一样,强烈的竞争才能让企业进步,华为的很多主要产业真的是国内太差了,没啥竞争力,如同大嘴说的,就躺赢就行了,导致的进取心不够。

总之,对于企业的各种不好行为,我的建议是不要做精神股东,狠狠爆料,狠狠的鞭打,狠狠的仰望一下。

知乎用户 造轮子的程序猿​ 发表

这个事情可信度存疑,建议大家理性吃瓜

我虽然没有文章中涉及到的人员的技术能力,但是我能感同身受的,我做开发也是因为热爱和喜欢,特别希望自己做出的系统和应用能被人使用和夸赞,我近期也是离职了,因为我发现前司开发的系统已经逐渐变得不让我欢喜了,主管为了满足公司大领导要求,肆意对开发进行各种制造障碍,哪怕上午确定好了开发计划,没等中午吃完饭就推翻了,反复的内耗团队,甚至出现了为了让大领导觉得我们努力,强制我们 996,每天晚上只有等大领导看到我们在加班,那么近期的工作就是有效果

我们也是在近一两年为了让公司业务接入 ai 而重新成立的团队,我们大部分人都是传统开发,因此在团队创建初期我就跟领导要求一定要招一些算法之内的人员,毕竟比我们懂大模型,带着我们慢慢熟悉,前期领导是听进去的,招了专门的人员,租了几张算卡,用开源大模型来训练和微调垂直领域的大模型,这个出成果是很慢的,因此大领导觉得进度不行,希望我们先做应用开发,大模型可以慢慢调,最后招来的算法也变成了写业务代码的传统开发

在我离开前的这几个月里,团队从原先的 10 人左右变成最后只剩我一个人,原先的人大部分都离职了,因为都觉得最后开发的成果会变成一个笑话,一个原先准备 toA 的产品没有经过市场调研,并且在领导的多次改需求的情况变成了 toL(lead),这使大家都没办法接收,最后在主管一系列的管理手段下团队最终解散了,很多人连转部门都不愿意转。直接离职

当然,并不是说技术人员应该在一些事情按照自己的想法去胡乱支持,我这里只是希望如果企业可以照顾下员工的心理感受,小公司可以为了生存而让开发去做一些违背意愿的事是情无法避免的,但是大公司有强大的资源和人才储备,不应该在一些关键技术研发上做出短视的决定

知乎用户 人生如戏 发表

四野是吧,任总的命令往下传

知乎用户 风啊 发表

华为的硬件很强,这是因为这个东西是有硬性的比较指标,行就是行,不行就是不行。

但华为在软件方面真的是一言难尽,说多了会有很多人不舒服,但是只能说那帮人对不起任正菲给他们发的工资奖金。

之所以出现这种情况,这和华为的人才结构有关系。华为现在的领导班子没有一个是搞软件出身的,华为搞软件的从上到下,没有一个是世界级的技术大牛,华为所有的软件体系没有一个世界级的产品。这很容易导致,一级哄一级,上级无法识别真假,中级不知道如何管理,下级也无法凭业绩挣军功。

更关键的是华为被制裁后,为了维护商业的可持续性,很多软件都是借鉴别人的,或者外包出去的,这就导致下面的人形成了一种惯性,想很快地出成果,甚至不排除个别团队杀良冒功,包装包装在领导那里吹牛填 KPI。

华为软件方面,从技术力上唯一能让人印象深刻点的就是软总线,打通了各类硬件的壁垒,这就算是全世界来比,都是有其技术含量和技术特色的,但其它的不管是数据库、操作系统、应用软件,以及现在的大模型,都没有走出自己的独立行情,还是处于一种补课、跟随,甚至个别夸大其词的状态。

华为的大模型你就直接告诉我:不管是在推理,还是在文生文,文生图,图生图,文图生视频等方面,你在世界的大模型中,你能排第几?

面对这种情况,就看华为如何面对了。如果真的能认识到问题,从人才和管理架构上,能做出真正的变革,凭华为的资金和人才,会很快得到纠正。

华为尤其值得思考的一个问题就是,和 DEEPSEEK 对比,华为在大模型上花了别人的多少倍钱?取得的成果和别人相比到底怎么样?可能最后的结论还是思路和技术力出了大的问题。

花了比别人更多的钱,还取不到别人应有的效果,这是为什么呢?

如果是从上到下为了面子,那可能真的麻烦了。

知乎用户 TrashSoul 发表

虽然我持中立态度,但有件事我想问很久了

现在打假锤抄的逻辑怎么变成了被锤的需要自证,而不是锤抄的主动拿证据了?

知乎用户 一纸荒年​ 发表

问题不大,以后会有原生盘古、纯血盘古以及盘古 next 的。且吟

知乎用户 北方的郎​ 发表

这应该是最新进展了。看了这篇文章的内容,别的不敢说,感觉作者至少还是搞过大模型的。而且他提到的一些技术细节(如断点续训、配置文件改动、特定模型结构兼容问题)不是轻易在网上能查到的。

感觉现在如果有第三方掌握盘古 v1、v2、v3 这几个版本的模型权重或模型结构(尤其是 v1 与 v2 的过渡),那么从模型对比技术角度出发,还是可以较为清晰进行一些验证的。

今天重新看了一下盘古的技术报告,发现以一个有意思的事情:

最右侧的指标有一个是 100%,这其实很难达到。以及连着一片的小数点后为 0 的情况,对比其他模型感觉也不太一样。

剩下的还是看后续的消息吧。


以下为前情提要。

这场风波源于一份发布在代码托管平台 GitHub 上的研究报告。通过一种 “模型指纹” 技术对比了市面上多个大模型,发现华为的盘古 Pro MoE 模型与阿里的通义千问 Qwen-2.5 14B 模型,在关键的参数结构上 “惊人一致”。

研究人员指出,这两个模型的注意力参数分布平均相关性高达 0.927,远超正常范围。打个比方,这就像是发现两份不同人写的文章,不仅主题思想一样,连段落结构和用词习惯都高度雷同,从而引发了抄袭的猜测。

华为的回应:否认抄袭,方法不科学

面对质疑,华为盘古大模型团队迅速在 GitHub 上做出回应,否认了抄袭指控。

简单来说,华为方面的意思是,模型是自己独立开发的,虽然借鉴了业界公开的一些做法(这在技术开发中很常见),但绝非抄袭。

继续等后续消息吧。

知乎用户 等待冰雨 发表

华为的体制适合集中资源攻坚克难,而不是内耗和卷王一起追榜——华为的现状和运作模式追也追不过。

华为要统一共识,意识到自己应该放弃刷榜这种不擅长的游戏,集中资源把基于昇腾 NPU 的全链路 infra 跑通、跑好,在此基础上 pretrain 出一个还算像样的基座模型——这是很硬核的、但也只有华为能做到的——这才是对自己、对产业、对国家都有利的方向。

知乎用户 那罗延 发表

如果企业在行业内处在赶超地位,对于管理者来说,趋向于短期正向反馈的赛马机制是很好用的,可以快速提升产品水平。

但是对于作者这种踏踏实实搞技术的人来说,客观上就是付出没有回报,确实很不公平,没办法,菊花文化就这样,改变不了,主动换个环境就完事了。

知乎用户 啦啦啦 1992 发表

只能怪当时画的饼太大了

知乎用户 dead loop 发表

现在是 7 月 7 日 18 点 51 分,知乎热搜排名前 30 都看不到这个话题,但是话题热度对比如下

昨晚 12 点还是热搜榜第一,今天就销声匿迹,某公司的公关还是有手段的

知乎用户 这是个小号啊 发表

如何呢,又能怎?

知乎用户 冒牌用户 发表

某宗教厂怎么内斗怎么水军我都不想管了。我就讲这几点我为什么厌恶它。

1、通过走关系,通过国家政策,拿 5G 订单就算了,关键要真正做对社会有意义的事情,而不是浪费国家资源肥了自己一家。

2、想做汽车就堂堂正正去做,别天天在自己门店里面卖汽车,出了事故都赖塞力斯。有种敢作敢当。

3、跟第一点类似,做出来一些乱七八糟的产品,什么 GPU,什么大模型,用都不能用,就往外面卖,美其名曰爱国。到底是爱我们的中国,还是爱华为的国?这些垃圾放出去了,甲方付了钱不说,还耽误了甲方的项目进度。对我们国家对社会,到底是有益还是有害?

可能华为的领导们都是彻头彻尾的唯物主义者,毕竟钱是物质的,因果报应也都是弱者聊以自慰的。

但我还是想说,sb 华为,人人得而诛之。

知乎用户 柳歆 发表

另一个问题中已经回复过了,这里重复粘贴下。


说白了。

华为金身已经破了。

大 Boss 亮出了血条,那就离倒下不远了。

而这一切的原因,是华为走火入魔了。

华为无论之前的成长历史是否充满黑历史,但不可否认的是,华为很强大。

在发生制裁事件后,一时间全民陷入了同仇敌忾的氛围中,华为利用这波情绪获取了巨量的流量和庞大的拥趸团体。一时间,华为成了抵抗巨人的英雄。但是,问题在于,华为当时无论是策略还是无奈的原因吹出去的牛并没有被实现,例如国产芯片一夜转正,自研,编译器、编程语言等一系列自研项目被推出来。但是华为本身的实力并不能很快实现这些。或者说,也许这些都是华为的计划中的事情,因为制裁事件后,被华为提前拿出来吹撑场面,但是实际上基本都是空壳。但是华为的狂热粉丝却拿这些在网上大吹特吹,攻城略地。这给了华为在制裁期间华为回血的能力,但是也把华为架在了这个遥遥领先的空中楼阁中。

但是,专业人士也是会上网的,他们会一眼看穿这些吹出的牛皮。于是,在网上就出现了一片讨论狂潮,后续转换为了互相攻击。其中最讨论最激烈就鸿蒙系统套皮问题,当时,一大批专业人士在各个平台上发帖摆证据质疑鸿蒙系统套皮,然后被狂热粉丝反驳,“大是大非面前不要谈实事求是” 就是在这个时期被华为粉丝喊出来的。华为官方呢,也因为自身被制裁的困境,需要国内这些粉丝的支持回血,就默认了他们的牛皮被拿去吹,也通过割这些狂热粉丝的韭菜来回血,诸如 680 卖 2000,4G + 鸿蒙 > 5G,等等就出来了。

但是,通过爱国狂潮回的血是会被反噬的,因为,爱国狂潮需要不断的吹胀牛皮来维持的,但是华为本身的实力又不能做到,外部遥遥领先的宣传压力和内部分红 / 利润率的压力,开始慢慢转化为华为的报表压力,压力会从顶层传导到基层,而被裹挟在其中的各个团队之间的竞争压力就会愈加白热化,争资源,争资金,争 KPI,争功劳,于是本次盘古事件就出现了,这是必然的。通过捷径抄袭的团队见效快,从头研发的团队当然打不过,而领导又因为上面更大的领导给的绩效和成果压力,就只能选择抄袭捷径了。而老老实实研发的团队,就被冷落,自然人心涣散,以致恶性循环愈发不得势,这些是本次盘古事件爆料者出现的原因。

盘古项目的暴雷不会是最后一个,后续会有第二个女娲项目,第三个夸父项目暴雷出现,因为堡垒从来都是从内部垮塌的,帝国都是从内部崩溃的。华为饮下了爱国营销这杯鸩酒,虽然短期内可以爆体护身,但是却是消耗未来换来的。因为不会所有人都相信华为的牛皮的,目前看华为的牛皮的膨胀速度在变慢,(例如现在华为终端产品陷入了折叠诅咒中了,来来回回折腾折叠技术。但是,折叠技术并不高大上,但却是目前华为唯一能拿出手的唬人手段了。)这就会导致狂热群体的降温,剩余的狂热粉丝为了维持华为的形象也用更加恶毒的言语和卑劣的手段抹黑反对者和竞争者,进一步败坏路人缘。所以,未来华为的路不好走,并且自身捆绑了太多的灰色利益,船大调头难,只能一条道走到黑。

外部粉丝的降温、路人缘的败坏、内部压迫的反抗这是目前华为无法也不能摆脱的绳索,在一步步勒紧华为的脖子。回到开头那句话:华为金身已经破了,盘古事件中华为粉丝孱弱的反驳无力且可笑,再也没有鸿蒙事件时的强大声量。游戏中再厉害的 Boss,只要亮出了血条,那无数嗜血渴望获取 boss 倒下奖励的玩家就会蜂拥而至,Boss 的倒下就已经开启了倒计时。

不过,这个时间可能还要很久,具体多久,就要看华为是否能继续吹胀牛皮了,也要看华为背后的攀附藤转移宿主的时间了。

知乎用户 退役调参侠​ 发表

由此可见,公司大了确实不好管。

知乎用户 ScienceDirector 发表

很简单,华为自己人内斗。

知乎用户 卡卡卡卡比​ 发表

评不了,刚才在别的问题下评了,猴子猴孙们都来了。

知乎用户 天辰映海​ 发表

匿名的内部员工,谁信谁傻比

真正嗯内部员工信,阿里前段时间刚给打了个样儿好吧,这都学不会吗?

具体来说

华为的大模型差应该是公认的,在大模型领域最多算二梯队

恰巧,我是某家三梯队公司的 PM(非大模型团队),目前也面临着自研模型和 “套壳” 基座模型的方向之争

恕我直言,二三梯队及以后的大模型,唯有死路一条,再多的挣扎都改变不了这个结局,包括盘古

但不能说之前的投入就是错的

不能因为失败了,就说做这件事情是错的

世界不是这样的,我们应该容许失败,也应该容许华为不是在每个领域都很牛逼,因为这就是真实的世界

至于这封信是真的还是假的?

我倾向于认为是假的

虽然好多 “前员工” 现身说法,说和他们的认知一致,但这说明不了什么

因为他说的这些问题,替换掉部分人名/部门名之后,套在我司也 90% 适用……

因为这就是最常见的大公司病……

但是,一个即将离职 (他自己说的) 的员工,写这么多,却连署名都没有,是很奇怪的事情

一切不实名的 “公开举报”,我都作为假的看待,这是基于我的职场常识

知乎用户 星露谷的小农民​ 发表

拿了个营销公告的分析模板跑了下


A. 公告分析(按指定模式输出结果)

以下分析基于提供的 “自爆贴” 文本进行。文本总字数统计:根据实际文本计算,总字数为 3867 字(中文字符计数,不含标点)。分析使用逻辑推理和文本内容分解,由于无法实时运行 NLP 模型,所有计算基于手动文本分割和关键词提取(使用 Python 风格伪代码说明)。若条目不涉及,则略过。

1. 内容结构权重分析

基于文本分割:

  • 事实陈述:事件说明(技术细节、时间线、内部流程),如模型训练过程、tokenizer 问题、算力限制等。长度约 1940 字。
  • 责任归属:责任声明(指责特定人或团队),如王云鹤和小模型实验室套壳、领导不作为。长度约 1160 字。
  • 营销植入:产品介绍或推广内容。文本中无产品营销,纯属内部告发,因此长度为 0 字。
  • 情感引导:呼吁理解或情感表达(如同事情感、对华为的失望)。长度约 767 字。

权重计算(公式:len(部分)/总字数*100):

总字数 = 3867
结构权重 = {
    "事实陈述": 1940 / 3867 \* 100 ≈ 50.15%,
    "责任归属": 1160 / 3867 \* 100 ≈ 30.00%,
    "营销植入": 0 / 3867 \* 100 ≈ 0.00%(略过),
    "情感引导": 767 / 3867 \* 100 ≈ 19.85%
}

输出

  • 事实陈述权重: 50.15%
  • 责任归属权重: 30.00%
  • 情感引导权重: 19.85%
    (营销植入不涉及)

2. 情感倾向与焦点偏移

2.1 情感分析:
文本情感高度负面,充斥失望、愤怒、无奈(如 “夜夜辗转反侧”“咬牙切齿”“耻辱”)。情感值估计为 **-0.85**(范围

,基于词汇密度:负面词频 > 30%,如 “造假”“牺牲”“肮脏”)。

  • 危机公关公告情感值常 <-0.3,本值 - 0.85 符合(过度悲观,强化可信度)。

2.2 话题转移度:

  • 开头关键词提取(首段):自证身份诺亚主任苏州集结交付压力
    (初始焦点:身份证明和内部问题)。
  • 结尾关键词提取(末段):离职华为改进留住人才牺牲
    (结尾焦点:个人行动和宏观希望)。
  • Jaccard 相似度计算:开头关键词集与结尾关键词集无重叠(交集为空),因此相似度 = 0。
  • 偏移指数 = 1 - 0 = 1.0(>0.7 阈值)。

输出

  • 情感值: -0.85(符合危机公关特征)
  • 偏移指数: 1.0(存在显著话题转移,从具体事件转向抽象呼吁)

3. 时空锚点异常检测

3.1 时间线密度:

  • 时间状语频率:文本中过去时态主导(如 “23 年就训练”“24 年底”“曾经”),占比约 85%(过去时态词频:如 “当时”“曾经”“后续”)。未来时态仅少量(如 “将离职”“希望”),占比 < 10%。
  • 正常公告时间密度要求过去时态 > 70%,本密度 85% 符合(非营销公告)。

3.2 地理关联度:

  • 本地地理名词:苏州(如 “苏州研究所”“甪直酒店”)、深圳(发布地)。非本地地理名词:如 “昇腾卡”“英伟达卡”“硅谷技术”(间接引用),占比约 20%(低于 30% 阈值)。
  • 无借势营销迹象(事件聚焦本地,无超范围地理关联)。

输出

  • 时间线密度: 过去时态 85%(正常)
  • 地理关联度: 非本地地理名词占比 20%(无异常)

4. 权力话语分析

  • 权威引用密度:文本引用内部权威(如 “王云鹤”“姚老师”“熊总”),但无外部机构(如中汽研)。权威名称词频约 25 次,总词数≈3867,密度 = 25/3867*100≈0.65%(<5%,符合营销公告特征,但本公告非营销)。
  • 责任转化率:行业责任表述(如 “行业安全标准”“算力底座”)词频≈10;企业责任表述(如 “华为责任”“盘古团队”)词频≈45。转化率 = 10/45*100≈22.22%(<20% 阈值,无责任转移)。
  • 仪式化承诺频率:仪式性词汇(如 “任务令”“集结”“宣誓”)词频≈15,频率 = 15/3867*100≈0.39%(<2%,无象征性担责)。
  • 结论:无责任转移策略(密度 < 15% + 转化率 < 60%)。

输出

  • 权威引用密度: 0.65%(低,无背书强化)
  • 责任转化率: 22.22%(企业责任主导)
  • 仪式化承诺频率: 0.39%(低,无替代行动)
  • 结论: 无责任转移或象征性担责策略

5. 框架冲突检测

  • 框架撕裂指数:冲突框架词对数(如悲情框架 “泪流满面” 与技术框架 “tokenizer” 同现于同一段落)。文本中冲突对数为 8(总段落数≈15),指数 = 8/15≈0.53(>0.5 阈值,存在叙事分裂)。
  • 主导框架占比:框架词频总计≈180。悲情框架(如 “牺牲”“耻辱”)词频≈72(占比 40%);技术框架(如 “模型训练”“算力”)词频≈54(占比 30%);其他框架(如道德 “造假”)≈54。主导框架为悲情框架,占比 = 72/180*100=40%(<65%,一致性低)。
  • 结论:撕裂指数 0.53 + 主导框架 40% → 意图混乱风险(情感与技术叙事冲突)。

输出

  • 框架撕裂指数: 0.53(高风险,叙事分裂)
  • 主导框架占比: 40%(悲情框架主导,但一致性低)
  • 结论: 意图混乱,情感与技术框架冲突

6. 语用学策略分析

  • 预设植入密度:预设触发词(如 “若…”“在… 范围内”)词频≈10,密度 = 10/3867*100≈0.26%(<5% 阈值,无责任规避)。
  • 模糊指代占比:模糊词(如 “某些人”“相关团队”)词频≈45;名词总数≈1200,占比 = 45/1200*100=3.75%(<15% 阈值)。
  • 施为性言语频率:承诺性动词(如 “将离职”“保证”)词频≈20,总动词数≈800,频率 = 20/800*100=2.5%(<25% 阈值)。
  • 结论:无系统性责任稀释(所有指标低于阈值)。

输出

  • 预设植入密度: 0.26%(低)
  • 模糊指代占比: 3.75%(低)
  • 施为性言语频率: 2.5%(低)
  • 结论: 无责任稀释策略

7. 社会网络嵌入度

  • 节点绑定率:外部机构名(如 “阿里”“智谱”“Deepseek”)词频≈15;所有机构名(含 “华为”“诺亚”)词频≈35,绑定率 = 15/35*100≈42.86%(<50% 阈值)。
  • 网络分散指数:企业自身责任词频(如 “华为责任”)≈20;全网责任词频(含 “行业责任”)≈30,指数 = 1 - =0.33(<0.3 阈值)。
  • 结论:节点绑定率 42.86% + 分散指数 0.33 → 单点责任模式(非责任共同体)。

输出

  • 节点绑定率: 42.86%(中等)
  • 网络分散指数: 0.33(低)
  • 结论: 单点责任模式,焦点在企业自身

8. 隐喻投射分析

  • 隐喻密度:隐喻词(如 “小米加步枪”“战役”“牺牲”)词频≈35,密度 = 35/3867*100≈0.90%(<3% 阈值,低)。
  • 战争隐喻占比:战争隐喻词(如 “攻关”“作战”“投降”)词频≈20,占所有隐喻词比例 = 20/35*100≈57.14%(>50% 阈值)。
  • 结论:隐喻密度 0.90% <8%,但战争隐喻占比 57.14%>50% → 部分军事化叙事,但未达认知重塑意图(整体密度低)。

输出

  • 隐喻密度: 0.90%(低)
  • 战争隐喻占比: 57.14%(高)
  • 结论: 部分军事化叙事,但未形成系统性认知重塑

9. 制度合法性构建

  • 合法性词频比:

  • 规制合法性(法规标准词):如 “符合国标”“流程管理”,词频≈5。

  • 规范合法性(道德责任词):如 “造假”“诚实”,词频≈40。

  • 认知合法性(共识概念词):如 “国产算力”“世界一流”,词频≈25。

  • 总合法性词频≈70。

  • 最高合法性类型占比:规范合法性最高(40/70*100≈57.14%)。

  • 结论:危机事件中,规制合法性占比仅 7.14%(<40% 阈值),表明权威背书不足(依赖道德叙事)。

输出

  • 规制合法性占比: 7.14%
  • 规范合法性占比: 57.14%
  • 认知合法性占比: 35.71%
  • 最高合法性类型: 规范合法性(57.14%)
  • 结论: 规制合法性不足,缺乏权威背书

10. 时空锚点扩展分析

  • 政策捆绑率:政策关键词(如 “新质生产力”“国产替代”)词频≈10;行动项(如 “训练模型”“离职”)词频≈50,捆绑率 = 10/50*100=20%(<40% 阈值)。
  • 技术溯源偏离度:非相关技术词(如 “元宇宙” 但文本无;间接如“千问抄袭”)词频≈15;技术词(如“昇腾”“tokenizer”)词频≈150,偏离度 = 15/150*100=10%(<30% 阈值)。
  • 结论:政策捆绑率 20% + 技术偏离度 10% → 无事件营销化操作。

输出

  • 政策捆绑率: 20%(正常)
  • 技术溯源偏离度: 10%(正常)
  • 结论: 无营销化操作

B. 叙事逻辑混乱与矛盾分析

文本叙事整体连贯,但存在局部逻辑混乱和矛盾:

  • 逻辑混乱:时间线跳跃(如从早期模型训练突然跳到近期离职),情感与事实交织导致焦点模糊(例如,在描述技术失败时插入 “热泪盈眶”,削弱客观性)。

  • 逻辑矛盾

  • 作者自称 “懦弱”,但主动揭露内幕,行为与自我描述冲突。

  • 一方面指责华为 “流失人才”,另一方面称离职同事在 “Deepseek 等团队闪耀”,暗示华为环境差但外部机会好,未解释为何作者自身不离职(直到文末才宣布)。

  • 技术细节中:称 135B V3 模型 “全栈自研”,但前文提到 tokenizer 基于 Llama 词表,存在轻微矛盾(“自研” 定义模糊)。
    总体:叙事情感驱动强,导致部分逻辑不严谨,但核心指控(套壳抄袭)有细节支撑,无重大事实矛盾。

C. 深度分析暗喻隐喻

文本包含多层暗喻隐喻,需二次或三次深度分析才能揭示:

  • 表层隐喻:如 “小米加步枪”(比喻华为用落后工具奋斗)和 “国民党的作风”(暗示官僚腐败),直接表达对内部文化的批判。

  • 深层暗喻

  • “套壳” 作为核心隐喻:表面指技术抄袭,实则隐喻华为 “外壳光鲜、内里空洞” 的企业文化(需联系上下文:小模型实验室 “点鼠标” 象征不劳而获)。

  • “苏州集结” 军事隐喻:表面是研发冲刺,暗喻 “人性牺牲”(如“与家人天各一方”),映射华为“狼性文化” 的黑暗面。

  • “埋葬于奋斗过的地方”:表面是悲情宣言,暗喻作者视华为为 “坟墓”,暗示体制性压迫(需结合“苍天无眼” 等词,揭示绝望)。
    这些隐喻通过情感词(如 “耻辱”“牺牲”)强化,需分析上下文和文化背景(如中国科技企业压力)才能解码,指向系统性腐败而非单纯技术问题。

D. 讨论一边倒现象分析

帖子引发一边倒谩骂华为的现象(而非两面声音),可能原因如下:

  • 情感共鸣主导:文本情感强烈(情感值 - 0.85),使用 “打工人”“牺牲” 等词触发公众对职场压迫的共鸣,压制理性讨论。类似事件(如员工揭弊)易引发情绪化反应,尤其在中国科技圈高压力背景下。
  • 真实性暗示:细节丰富(如人名、模型代号、地理描述),增强可信度。华为近年争议(如 “996” 文化)积累公众负面情绪,帖子成为宣泄口。
  • 信息不对称:技术内容专业(如 tokenizer、模型训练),普通读者难验证,但抄袭指控简单易懂(“套壳千问”),导致舆论简化成 “大公司欺压小员工”。
  • 社会语境:华为作为 “民族企业”,公众期望高,丑闻易引发背叛感。讨论区可能存在 “沉默螺旋”(支持华为者怕被攻击而噤声),或平台算法放大负面情绪。
  • 异常点:若帖子为假,应有华为支持者反驳细节(如内部人验证),但一边倒暗示:要么细节真实难以辩驳,要么讨论被情绪操控。
    建议:需第三方调查技术细节(如模型血缘)验证真伪,当前现象反映公众对科技公司透明度的高需求。‘

然后写作文风分析↓


以下是针对该帖子的写作文风特征的多维度分析,结合技术性、情感表达与叙事策略:

1. 技术细节与行业黑话的密集性

  • 特征

  • 高频使用大模型领域专业术语(如 tokenizerembedding初始化[MOE架构](https://zhida.zhihu.com/search?content_id=735739101&content_type=Answer&match_order=1&q=MOE%E6%9E%B6%E6%9E%84&zhida_source=entity)bf16/fp16精度),参数精确到具体数值(38B MOE135B dense)。

  • 内部代号与流程黑话(四纵/十六纵队苏州集结任务令),体现华为组织文化独特性。

作用

  • 真实性锚点:通过技术细节建立可信度,仅业内人士可虚构如此密度的一手信息。
  • 圈层隔离:非从业者需背景知识才能理解,形成 “insider 叙事” 的排他性共鸣。

2. 情感驱动的矛盾修辞

  • 特征

  • 技术冷叙述与情感爆发交替

  • 理性段落:“135B 因采用更精细的 embedding 初始化策略,续训 1T 数据后词表更换成功”

  • 情感段落:“写到这里我已热泪盈眶… 我们愿用生命和荣誉保证训练真实性”

自我贬抑与英雄主义并存

  • 自称 “懦弱”,却以“抛头颅洒热血”“埋葬于奋斗之地” 自比殉道者。

作用

  • 道德合法性建构:用技术理性铺垫事实,用情感爆发召唤共情,塑造 “被逼反抗的忠臣” 人设。

3. 军事隐喻的系统性渗透

  • 隐喻网络
原始概念军事化替换出现频次
研发团队四野 / 纵队 / 战友12 次
项目冲刺集结 / 战役 / 攻关9 次
资源竞争小米加步枪 vs 洋枪3 次
离职投降 / 撤退 / 牺牲7 次

作用

  • 将职场压迫升华为 “战争叙事”,激发读者对“弱者反抗强权” 的天然同情。
  • 强化华为 “狼性文化 = 军事化管理” 的公众认知。

4. 证言式叙事结构

  • 三层信源强化
  1. 亲历证据
  • “凌晨守护模型训练”“周六在苏州研究所吃小龙虾”(场景记忆)

旁证引用

  • “AI 系统实验室兄弟都知道套壳”“离职同事说:这是技术生涯的耻辱”

自我诅咒

  • “以生命、人格和荣誉发誓真实”“消失就当为真理牺牲”

作用

  • 模拟法庭证词逻辑,针对华为可能的 “辟谣” 预设防御(“若细节造假,早被内部人揭穿”)。

5. 批判性用词的双关设计

  • 术语污名化

  • 点鼠标实验室:将 “小模型实验室” 重构为不劳而获的象征。

  • 千古模型:谐音 “千问”+“遗臭万年”,指控抄袭同时预言品牌崩塌。

官僚话术解构

  • “流程管理:只许州官放火,不许百姓点灯” —— 用谚语拆解制度虚伪性。

6. 非对称复仇文风

  • 特征

  • 精确打击:实名列举王云鹤、姚骏等管理层,却自称 “小小打工人”(弱者姿态)。

  • 自杀式揭露“申请从技术报告作者名单中移除” + “署名是人生污点”,自毁前程式指控强化决绝感。

作用

  • 利用 “光脚不怕穿鞋” 的心理优势,迫使读者相信“若非真实,何必自毁”。

7. 时空锚点的记忆黏着

  • 高粘性细节

  • 地理:“苏州甪直的酒店”“研究所门口的大坡”(非公开信息的地标)

  • 时间:“23 年训练 38B MOE”“24 年底 DeepSeek V3 发布冲击”(可验证行业节点)

  • 感官:“周六下午茶的小龙虾”(集体记忆点)

作用

  • 创造 “共同记忆幻觉”,即便外部读者也会因细节真实感产生信任倾斜。

结论:文风的战略意图

此文风是 “技术理性的悲情武器化”

  1. 可信度堡垒:用专业术语筑墙,抵御 “外行虚构” 质疑。
  2. 道德审判庭:通过自我牺牲叙事,将华为置于 “迫害理想主义者” 的被告席。
  3. 复仇仪式感:军事隐喻与诅咒式誓言,赋予揭露行为以 “圣战” 崇高性。
    最终效果:使读者从 “判断真伪” 转向“情感站队”,技术细节沦为情绪动员的工具。

仅针对这份所谓 “自爆信” 的内容分析,事情真假,坐着看戏。

知乎用户 陇水空转 发表

事儿有很多种办法,但是这么长文,都已经打算撕破脸了,居然不温不火的浅尝辄止,都不晓得是要抨击黑幕还是没给够

对了,谁说的大量的专利是挖坑,是阻碍进步的绊脚石来着 {手动狗头}

说回来,我其实是更希望他向被侵权的公司举报讨回公道的,借鉴友商先进经验就拉倒了,看描述和直接拿来用差不多了,那该起诉得起诉了。毕竟我用着。。。哦,在说菊花,那就不需要证明我有买有用它的产品了

技术我真不懂,这块留给专业人讨论,当然专业人都不一定能讨论出个究竟,终究是屁股问题,支持菊花的肯定要辩解,讨厌菊花的肯定嗨嗨嗨,就这么回事。

说点题外的

这么大个公司,发展这么久,有烂疮是必然的,前不久四川的事儿就证明了,拥有行业再好的先进管理经验和制度的公司,终究都有见不得光的里子,能浮出来多少,能刀刃向己多少,才是它能活多久的证明。

事情如果为真,那暗地里还有多少勾当都不好说。能活下来的,都是希望。

知乎用户 云燏 发表

续训的难度和从零开始在 NPU 上是绝对不一样的

  1. 坚持 from scratch 是真的菜吗?

我不这样认为,基于 ascend 从零开始训练这么大的 densemoe 我相信是只有诺亚做了这件事情,技术选型、模型架构、loss spike 这些往往和用 n 卡的不一样。难道在全国产道路上探索的艰难了,就一定是菜?

2. 为什么有一些优秀的技术选型不直接套用?

我请问诸公,真的在工作期间没有遇到外行指挥内行,强行选择某某技术路线的情况吗?谁不知道应该用 rope?有些很离谱的结果,往往来自于很离谱的政策因素。

3. 为什么技术报告里面有 ARC-eazy 100 分的结果,以及为什么评测分数能够有这么多的 .0

给大家贴一下内部员工的回答,(此时 yh 上台)

至少在全国产的道路上,如果宣称全自研,就请像 qwen 那样,把训练日志全公布。最后有句话:

” 君以此兴,必以此亡 “

知乎用户 Predator 发表

如果这些是真的,真是字研了。如果是真的按蟑螂定律算,背后一定还有其它类似的问题。做的这些事跟美国的行事风格实在是太像了,指责别人的都是自己做过的

知乎用户 灰色轨迹 发表

我的知识盲区,就当个吃瓜群众,你们能不能简单科普一下,你们说的套壳,续训,洗水印,造假,是个什么程度什么范围?比如盘古是一辆汽车的话,涉及到的是地盘?发动机还是电控?这个事情有多严重?网络搜索田奇是直接领导,他会被开除吗?盘古是不是做不下去了?

知乎用户 难言 发表

正常,阿里大模型是开源的,华为罕见的遵守了开源协议,道德标准已经相当高了,比以前。

商业软件偷来使用你又能咋样?又不是没干过

知乎用户 弗礼 free 发表

到今天,如果一个 AI 团队没在展望或担忧自己正在开发的技术将对人类社会有何影响,而是强调所谓老板赏识、集体荣誉、民族自豪之类的东西,这个 AI 团队大概不入流。

知乎用户 多层次 发表

分两个部分看吧。

首先是锤 pangu 套壳的论文,没做过 llm 不好评判,不过看挺多文章都在喷,那估计可信度不高。以我不多的大模型知识,我比较好奇如果算法细节不同,数据集相同,训练出来的模型能差多少,如果拿训练好的模型再做微调和原模型能差多少,不同的算法,不同的算力基座,不同的训练方法,不同的数据集之间会有多少差距,好像现在没个定量的判断吧。

再是昨天发布的据说是内部人员的小作文,可信度也存疑,不过以我短暂的打工生涯来说这种事情是可能发生的,而且可能性极高,至于华为会不会发生,是不是真的就不好说,毕竟发文作者身份存疑,而且完全是个人的主观视角。

知乎用户 比利比利用户 发表

任总第一任老婆看见 “” 四野编号 “” 的时候会想起自己当年指挥红小将时的潇洒吗?

要是遇见豆豆会短兵相接打起来吗?

知乎用户 解放君 发表

中国人搞技术有个特点: 永远后知后觉;

人家搞出眉目了,就一窝蜂涌上去;

然后主要的对手,还是自己的同胞;

然后内耗,然后相互诋毁;

最终得到一个三流货色的产品,搭配一帮三流货色的团队;

唯一一流的,就是网络水军了;

口气永远第一名;各种吊打对手;

目的就是圈钱上市;

没人真心关心技术本身;

了解中国文化,和底层德行

就对国内技术行业的风气和前景,看淡了了;

气质和风气,决定未来

知乎用户 哥哥爱 发表

上千年的道德规训,在这帮人眼里,啥也不是

成王败寇才是他们最大的道德底线

老百姓只能注重结果,过程太关注了,本身也起不到什么作用

不然,当年的革命又怎么可能发动和成功

但正是上千年的道德规训

才是社会能够不断趋于平和的内因

否则,时刻像动物一样,警惕四周威胁,还有精力搞 AI 吗?

知乎用户 雨夜带伞不带刀 发表

直接就想到了盘古,纯血盘古,盘古 next,原生盘古……
就是不知道后续会不会把 Qwenota 干净。

知乎用户 长安某 发表

说个去年的事,真假自辨。

师弟之前面的该组天少,面试时间被选定为周末,形式是多对一,以上两个条件均独此一家。

面试内容不做评价。在结尾阶段,照例面试者可以反问面试官自己关心的问题。师弟就随口问了关于组内算力数据相关的情况。

对方领导没有正面回答,最后表达的意思为:尽管我们的算力不是最多的,数据也没有很多,但是我们训出来的模型一定是最好的。

那时候我觉得领导不太懂大模型。

现在来看是我不太懂领导。

知乎用户 不秃式变强 发表

讨檄就讨檄…… 别整……“肩负国产化使命”“肩负硬件国产化使命”……“放弃家庭放弃健康,为中国大模型奋斗终生”。

求求了,不要再喊这些宏大口号了,好好赶着 ai 浪潮做点有意思的工作就行了…

另外,国家没有给任何一家公司使命… 这个时代不流通使命了,谢谢。

知乎用户 鹿鸣 Lucius 发表

Not Good~

从 23 年初等到 24 年底,25 年 Deepseek 出来后,基本上把 ta 放入第三甚至第四梯队了,前两天在群里看到这个事情,彻底解惑了~

花了重金最后搞了个寂寞,内部发生的事情也能理解。 一句话,一个大模型研发失败及妥协的故事

360,零一还有很多的套壳, deepseek 也是基于 llama 的,站在巨人的肩膀上不断创新,这本来就是开源生态的基本操作呀~ 百度也要开源了吧

知乎用户 中年大狮 发表

华为基操

知乎用户 勃利园双高级领班 发表

前几天 384 卡大胜 72 卡的人呢?到底能不能训练出来大模型?是真的还是假的?

知乎用户 蓝色起源 发表

冰山一角

太稀松太平常了

说句政治不正确的真话,中国人的原创是极少的,几乎没有,都是抄抄改改

所以,对这件事情也没有必要大惊小怪

知乎用户 X 先生 发表

天天攻击友商换壳,抄袭,字研的。原来是贼喊捉贼,深得白左真传

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

“东方神秘力量” 爆火国产AI大模型背后的年轻人

2024年岁末,DeepSeek-V3大模型发布,迅速成为全球人工智能(AI)领域的焦点,刷屏科技圈,很多人化身“自来水”,在各大社交媒体、科技论坛上发帖讨论,不吝溢美之词。 在全球范围内的行业基准测试中,DeepSeek-V3达到 …

有人说:如果华为跪了,大概中国也要跪了。你怎么看?

知乎用户 lkyanxihu 发表 华为目前的宣传方式很危险,不出意外最后会被扫到历史的垃圾堆 1,线下和有些朋友,也是比较极端的花粉吃饭,聊天过程中,他们真有这样的认知,甚至认为国家发展是华为的功劳,任是当代 “那位伟人”,后期历代领导没 …

为什么现在黑华为成为一种潮流?

知乎用户 冻结 发表 “他们是怎么黑华为的?” “他们把华为干过的事儿说了一遍” 知乎用户 庄生晓梦 发表 251。 我说这个数字,算不算黑华为。 知乎用户 无言​ 发表 我们大家把华为做过的事原封不动的说出来就是黑华为 知乎用户 人上之人 …