如何看待百度搜索出的中国人大网与实际网页不符?

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 王子君 发表

谢邀。

日泥马见鬼了。

我正常从中国人大网进去,PC 端左下角就有法律草案征求意见,点进去是这样:

PC 端

移动端,看来人大网没做移动端优化

然后我试着用百度和谷歌搜 “法律草案征求意见”,选这个关键词是因为很多群里都建议搜这个来进人大网。

百度的

谷歌的

点击去是这个:

PC 端

移动端

征求意见的法律草案呢?我那么大的草案去哪了?

暂时先看作技术问题。官网上有微信号和客户端,我已经提反馈了。

希望有前端工程师来拯救一下我这个文科生,分析分析问题出在哪。

万一真能这么操作…

马哥我错了,马哥你听我解释。

以后马哥你要走东我绝不走西,你要日 P 眼子我绝不日 B。

一切以马哥马眼是瞻!

知乎用户 游客 发表

首先这个网站设计的不够合理,19 年的征求意见是一个网页(http://www.npc.gov.cn/zgrdw/npc/flcazqyj/node_8176.htm),20 年的又写了一个新网页来列出新的法案:http://www.npc.gov.cn/flcaw/

主要问题还是 百度排名上 19 年那个不知道为啥排前头了,这种问题值得百度出来走两步,解释一下。

知乎用户 JohnSmith 发表

热度全面下降,知乎 b 站微博,唯一有点热搜的,是我看的虎扑。。。

知乎用户 给少歌打 call 发表

二级域名是一样的。

都是 http://npc.gov.cn

网页毫无疑问还是人大的网页。

不是 tx 做出来的假网页。

所以应该是买了百度搜索置顶吧。

知乎用户 勃兰登堡 发表

从人大网首页点击法律草案打开的是 http://www.npc.gov.cn/flcaw/,这个页面是正常的

百度搜索法律草案征求意见打开的是 http://www.npc.gov.cn/zgrdw/npc/flcazqyj/node_8176.htm,这个页面显示暂无

第二个网页,已经结束的征求意见一栏最后更新时间是 19 年 5 月 25 日结束的《证券法》,初步推测是在这之后网站调整了,征求意见迁移到了新的地址 http://www.npc.gov.cn/flcaw/,网页名称从 “法律草案征求意见_中国人大网” 改成了 “法律草案”,然后你去搜索“法律草案征求意见” 自然会出现老旧的页面。我常用的 bing 比百度好一点,新的页面排在了第二

至于右侧显示正确的时间,一行代码的事,很多已经废弃的老旧网页也会显示当前的时间

知乎用户 Chard Silver​ 发表

明显就是一个关键词搜索到两个不同的 URL。然后不同的 URL 根据各种排名策略排一个先后顺序。

1,百度不可能蠢到动国家的网站,动机上,即没利益也没政治需要。

2,所有互联网大厂都有专门的部门和国家合作,不可能站出来忤逆国家。

3,在没有动机的前提下,不可能费力不讨好的去给国家的政府网站专门写出什么逻辑。

所以,单纯是百度这个逻辑存在某种层面上的你无法理解的现象。可以大概猜测的是,这个逻辑背后大概率和各种第三方搞 seo 破坏搜索结果有关。可能针对 seo 的某些反作弊策略恰巧中了这里的逻辑。

最后,

笑看一群人想要扣百度一个 “资本干涉国政” 的帽子。

当年文革时期的大字报大概应该就是这群人写得最欢吧。


满屏的外行震惊体,我再说个吧。你们所谓的 “错误的页面” 和所谓的 “正确的页面” 都是同样的二级域名。这个二级域名谁也没法弄走(除非劫持,我还真不信百度 / 腾讯 / 任何一个中国的企业,有胆子这样劫持政府网站)

所以这两个域名都是国家的政府网站,只是因为可能是需求问题,开发人员问题… 等等复杂的问题。导致新旧两个页面看上去相似。但是这些对于百度来说就是数据 -> 页面 ->URL

你们掺杂的那些主观色彩,在百度眼里就是两个先后两份同样的关键词的 URL。其中一份 URL 因为历史悠久或者其他我们不知道的百度搜索策略。导致排名在前面。

外行们,醒醒吧,别想着搞个大新闻让百度怎样怎样了。你们这样乱扣帽子,不比你们喷的百度强多少。知道程序员们看这些言论多搞笑么……

知乎用户 ghsgz 发表

斗争前必须搞清事实, 这是前提.

法律草案征求意见_中国人大网法律草案 的网站域名看起来完全一样, 如果是第三方伪造的, 那么就有两种基本情况:

  1. 第三方在自己的服务器上做的钓鱼网站
  2. 第三方人员黑了人大网的服务器, 篡改了 node_8176.htm 这个文件的内容, 然后和百度搜索合谋

钓鱼网站一般也就 copy 一下目标网页的模样, 更进一步的就是利用相似字符申请 “看起来一模一样” 的网站域名, 欺骗用户的眼睛. 比如下面这个图片:

图片中 https://www.apple.com 中的 a 是西尔里文小写字母а - 西里尔文小写字母 A (U+0430), 而正常的通过一般输入方式输入的 apple 中的字母 a, 其实是拉丁字母小写 a a - 拉丁文小写字母 A (U+0061), 有兴趣的可以再看看这篇文章: 嘶吼 RoarTalk:如何使用 Unicode 域名进行网络钓鱼攻击?

要判断后者这样的网站, 复制网址里的三级域名部分, 转 unicode, 查询一下对应字符的 unicode 字符码是否一样就知道了.

复制了两个网页的域名部分, 转 unicode 对比, 一毛一样, 不可能是钓鱼网站 “碰瓷” 官网.

对于情况 2, 真的有人为了这个豆腐渣网页, 去黑掉政府网站的服务器吗?

知乎用户 石器 发表

我觉得这波可能真不是百度的锅

知乎用户 百年小小妖 发表

百度搜索的结果是以百度蜘蛛抓取的数据显示为准

并不是说百度做什么篡改! 其实弄清楚百度蜘蛛的运作原理就会清楚。

蜘蛛能抓取的主要就是文字类的内容并建议索引库,当用户搜索时,从库里去调集出来!

并根据收录时的整体情况做数据排名,所以有时当你搜索不同的关键词,会就看到搜索结果页的展示和排名都是不一样的。

而且不同地区的用户搜索结果也会有不同。这个就是排名的一些基本原理。

如果有的内容是以图片显示的,是不利于蜘蛛抓取的

而且一般政府、教育类的网站内容也不太注重收录和抓取的考量。

知乎用户 pain lewis 发表

刚好我是当事人,当时我处理这个的时候是从某信部举报过来的。当时举报人说搜索出来的是虚假镜像网站,第一个网页没有征询意见入口,百度涉嫌干涉国家法律草案的意见征询。

说实话,你借百度一百个胆子,他也不敢做干预国家立法的事。

看实际情况:

http://www.npc.gov.cn/flcaw/

http://www.npc.gov.cn/zgrdw/npc/flcazqyj/node_8176.htm

这两条链接都是中国人大网的,但是一个是 2019 年的,一个是 2020 年的。都是正规网页,不是虚假镜像网站,这一点没问题。

为啥 2019 年的会排在 2020 年前面?

这就得说 rank 排名了。总的来说影响因素有四个 “关键词匹配程度”“站点评级”“用户点击量”“时效性”。这两个网站都精确匹配到了关键词,而且都是中国人大网,这两点两个网页都一样。问题就出在“用户点击量” 和“时效性”上,2019 年的网页,历史累计点击量肯定比 2020 年的多,排名肯定靠前。但时效性上 2020 年的网页要更优先。但是 “用户点击量” 的权重比时效性的权重更高。综上,2019 年的网页排在了 2020 年前面。

为了避免一些不明事理的小白找麻烦,我们干脆就把 2019 年的网页屏蔽了。

回过头来,这个问题出在哪?

一个法律草案征求意见网页,为啥 2019 年和 2020 年的要做成两个页面?为啥不直接从 2019 年的页面继续更新,把 2019 年改成 2020 年难道比重做一个网页更难?

还是中国人大网 SEO 做得不好。

自从 2018 年 9 月 6 日, 国务院办公厅下发了《关于加强_政府网站域名_管理的通知》后,很多政府网站都改了域名,这些网站都很新,没有点击量,导致出现了搜索结果排名低的问题。当时我们花了大力气给各级政府网站做重保。

搜索结果排名这问题,真的需要网站自己去优化,而不是出了问题就无脑黑。

知乎用户 swteairP 发表

这是谷歌的搜索结果。

个人感觉是技术角度的问题,暂时先别整那么多阴谋论吧

知乎用户 Logic-530 发表

不多说,我试过 搜狗 360 Bing Google Duckduckgo 都搜不出今年的。

和很多其他政府机构的网站一样,人大网搜索引擎优化不行。

问题不是很准确,不是与实际网站不符,是第一个搜索结果为过时页面。

知乎用户 Sargent 发表

这个是从首页点进去的:

从首页点进去

这个是从百度搜索点进去的:

百度搜索点进去

可以看到从首页点进去的页面有五条正在进行的征求意见,而百度搜索出来的页面是没有正在进行的征求意见的。

看他们的链接:

首页点进去的域名是:http://www.npc.gov.cn/flcaw/

百度搜索出来的是:http://www.npc.gov.cn/npc/c8176/flcazqyj_zw.shtml

可以看到他们域名是相同的,这就排除了百度造假的可能。

点开已结束的征求意见更多选项:

首页点进去

百度搜索

链接:

首页:http://www.npc.gov.cn/flcaw/more.html

百度搜索:http://www.npc.gov.cn/npc/c8195/flcazqyj_zqlist.shtml

可以看到百度搜索点进去的页面更多那里时间已经错了,两版页面排版样式也是不同的,还有显示的内容也是不同的,百度点进去的那个页面内容滞后了很多,他们应该是用了不同的数据库。

从链接架构上看,首页点进去的两条链接架构也更合理一点。

所以这应该是网站改版的时候出现的问题,首页点进去的是新页面,搜索引擎收录的是旧页面。

有很多线索支持我的这个结论,比如两个更多页面里,切换页码的时候首页点进去的页面已经可以用 ajax 直接更新页面了(不用刷新页面,用了 jquery),而百度点进去那个页面还在用老旧的访问第 N 页链接的方式更新内容(要刷新页面,没用 jquery),这也说名了首页点进去的那个页面是更新的。还有新页面用了框架,旧页面还是服务器渲染。

知乎用户 子远以思家 发表

这个事情不可不察啊,伸手政治?这个就 hmmmmm。。。了

难道已经完成渗透了?

知乎用户 匿名用户 发表

从百度搜索『法律草案征求意见』进去的网址是 http://www.npc.gov.cn/zgrdw/npc/flcazqyj/node_8176.htm

而从官网进入的网址是
http://www.npc.gov.cn/flcaw/

明显是同一个网站的不同网页而已。

只是为什么这么做,这是一个天大的问题。

知乎用户 Archean 发表

刚看了下,是同一个网站上的两个极其相似的不同页面。

至于为什么这个词条的链接这么诡异……

咱也不知道咱也不敢乱说。

顺带一说,谷歌搜索结果是这样的:

知乎用户 匿名用户 发表

或许只是技术问题?(拼命安慰自己)

知乎用户 匿名用户 发表

想多了!这不是什么资本家的阴谋,我用 google 也试了一下,存在同样的问题,谷歌总不能也被收买了吧?被迫害妄想症要不得!

进去后发现,征求意见草案同样是没有,

而且,我还看了一下,那个显示意见征求的网页地址是:http://www.npc.gov.cn/flcaw/

不显示征求意见的网页地址是:http://www.npc.gov.cn/zgrdw/npc/flcazqyj/node_8176.htm

看上去是同一个网页,但是从不同的入口进入,地址却不一样,哪位大佬可以解释一下?

知乎用户 唔可奉告 发表

是因为最近在征求著作权法案草案吗?(疑问)

起点阅文新合同事件引流

[如何看待起点中文网(阅文集团)的签约合同是 “霸王条款”?​www.zhihu.com

](https://www.zhihu.com/question/336770463)

著作权法案正在征求意见,

位置在中国人大官网,法律草案征求意见,正在征求意见,著作权 (草案)

没有要求必须实名,大家可以放心

征求意见截止日期是 2020 年 6 月 13 号

知乎用户 恒木 369 发表

所以我们可以把这件事截图反应给政府吗?

知乎用户 苹果和谷歌 发表

必应

第一个打开

第二个打开

百度

第一个打开

第二个打开

谷歌

第一个

大家都一样,但我比较好奇这俩网站分别是怎么回事

知乎用户 王建雄 发表

试看今日之域中,…

知乎用户 匿名用户 发表

哈哈哈

我前几天进中国教育网,我看到界面背景、设计什么的都差不多,就点进去了。结果仔细观察不对,一来进入咨询界面,请问你有什么要咨询的吗?输入你的密码等等。

我真是 x 了狗

实在太具迷惑性了

有意思的是前几天整改,我点击网址会有更换浏览器的绿色广告通知,这几天又变回原样来。不停振动,你的浏览器有危险,快点下载,退都退不出去,像中病毒的页面一样

知乎用户 关山行 发表

吃瓜群众:怎么又是你?

某度:改了算我输!

… …

知乎用户 火山湖 发表

百度 360 前十没有正确的网页,后来百度加了一个无摘要的置顶,google 搜索结果前四是 2019,第五是 2020,bing 第一个是 2019,第二是 2020,,,,有谁能解释一波吗

知乎用户 匿名用户 发表

某爱国智慧手机: 学到了,还能这么玩。

知乎用户 匿名用户 发表

说明百度对自然搜索排名已经魔改的面目全非了,法律相关的草案不应该按最新的排在最前面吗?

害,还说自己是 BAT 三家技术最牛逼的,算法这个样子,还是自己最得意的搜索引擎领域,唉~

没落了,没落了!

知乎用户 王律师 发表

哪一年,我上午买车了,下午就有卖保险的打电话;前二年买房了,装潢公司电话一直骚扰到装潢开始;买了股票,有人就和你想聊股票。不知道他们用的什么超级搜索引擎,能够做到精准搜索。昨天,本人为了在文章中引用准确,在已知国标名称和代号的前提下,去搜索一个预拌混凝土的国标,费尽周折,在官网上没有找到。百度搜索出来与实际不符,大概不是搜索引擎的错,也许是其他原因。

知乎用户 慕一凡 发表

从前有个人非常相信百度上的信息, 他的名字叫魏泽西, 他的名言: 内事不决问张昭, 外事不决问周郎, 内外不决问度娘. 结果他活到了 22 岁!

知乎用户 Owen​ 发表

也许百度收录的网页是静态的,更新不及时。

知乎用户 独孤喜平 发表

百度应该不敢伪装政府的网页吧,何况域名都是一样的。

应该是存在新旧两个页面各自一个 URL。而旧网页不维护了,运维没有及时地重定向罢了。

知乎用户 cold26sp 发表

还能看到的快截屏保存 ,已经开始删问题和答案了

知乎用户 刘旸 发表

19 年的历史热度当然比 20 年的高。所以在前面不是很正常的吗?

知乎用户 wolloh 发表

别尬黑。

最大的锅是网站设计不合理。

你可以去搜一搜谷歌必应搜狗雅虎等等,第一条结果都是这个旧站。(本信息获取于 2020.5.5,不保证之后会变更)

知乎用户 匿名用户 发表

腾讯搞的事情百度来背锅…… 结果服务器 IP 还是阿里的…

知乎用户 汤圆 发表

一方面,网站设计是有些问题的,详见 “游客” 的回答

另一方面,大家可以发现,正确的那个页面,在网站导航中的标题是 “法律草案征求列表”(部分命中搜索词):

不正确的那个页面,在网站导航中的标题是 “法律草案征求意见”(完全命中搜索词):

这个导航标题是否会影响 seo,权重多大,我不清楚,不过我搜索的时候,两个结果是紧挨着,一个第一,一个第二,我倾向于是无意的结果。

知乎用户 匿名用户 发表

那个啥

被绑架了,眨眨眼

我们一定回来救你啊!

知乎用户 yoshi hiro 发表

这次纯粹就是百度不行,加上网站管理员做得不好,百度谷歌法律草案征求意见是出不来现在的网页,但是谷歌法律草案直接就可以出来,百度同样不行。

知乎用户 顾易 发表

厉害了,我的资本的大佬

知乎用户 为什么不能有特殊字符 发表

。。。无法无天了。。。资本还能锁死关回笼子里吗

知乎用户 托天牛魔王 发表

我妈问我为啥跪着看手机……

这两架马车有点厉害呀,前有人民富豪,后有阻碍立筏

惹不起,溜了溜了

知乎用户 GALAXY 发表

你说什么?说我搞假网站?

那好,我直接不给你看!

知乎用户 永乐 发表

厉害了!匪夷所思的事情越来越多了!

让子弹飞一会!

知乎用户 KalamityStorm 发表

先说现阶段的结论:

关于这件事情是阴谋论的…… 你开心就好。

这件事目前可以基本确定为百度排序算法网站运维共同背锅。

具体分析回去写

知乎用户 不识字的书虫 发表

搜索结果的页面,和直接访问的不是同一个页面。

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

为什么很多人都认为百度搜索不好用?

知乎用户 排骨 发表 这几天没看这个问题,没想到有这么多人回复。 我补充一下,这是我在 google 下搜索早稻田大学的截图。 中文系统里,搜索出来第一个是官网。第二个是中文维基百科的介绍,第三是百度百科介绍,第四是知乎的问题。边上是早稻田 …