【清 真 攻 击】华为搜索爬虫高频抓取网站内容,犹如DDOS

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

消息源:墙内:https://www.landiannews.com/archives/73796.html
墙外:https://www.hypernode.com/blog/performance/huawei-aspiegelbot-is-increasingly-impacting-european-online-stores

这个新爬虫为名为AspiegelBot主要模拟安卓机进行抓爬 , UA标识符里也没有标注爬虫所属公司对应的介绍界面。
经过搜索发现这个爬虫属于华为旗下的Aspiegel公司 , 该公司位于爱尔兰负责华为移动服务国际版的运营。

高频抓爬如小型DDoS攻击:
正常情况下搜索引擎爬虫会根据网站的负载情况动态调整抓爬频率,防止因抓爬频率过高影响被抓取网站的访问。
爬虫抓取内容时与正常用户访问网站类似,因此当抓爬频率过高时会消耗网站大量服务器资源影响正常用户访问。
华为的搜索引擎爬虫就存在高频抓爬问题,即爬虫无视服务器负载情况疯狂抓取和重复抓取大量内容消耗服务器。
这种抓爬情况的结果就是被抓爬的网站服务器资源被消耗过大影响正常服务,甚至还会出现网站服务中断等情况。
个别时候华为搜索引擎爬虫的超高频抓取甚至如小型 DDoS攻击,遭到抓爬的网站瞬间瘫痪只能购买更多服务器。
例如最近Hypernode,华为爬虫访问频次增加达 460%,迫于无奈该网站只能通过多种措施屏蔽华为的访问。
https://images.weserv.nl/?url=https://i.imgur.com/xJpo4Up.png
华为爬虫并没有遵守Robots.txt,甚至都不会访问网站设置的Robots.txt文件。

If you have any experiences you would like to share about Huawei’s AspiegelBot, please get in contact with hypernode. (For example, we heard some rumours about the bot not listening to the robot.txt file.) We would love to gather more information! support@hypernode.com

品葱用户 灰色幽灵 评论于 2020-05-11

估计华为的流氓爬虫会无视robot.txt暴力乱爬,难道华为准备搞一个内部搜索引擎吗?

品葱用户 Juria 评论于 2020-05-12

华为给👴爬(双关)

品葱用户 华国锋 评论于 2020-05-11

无视robot和DDOS不是一回事,服务器过载造成服务down了,并不代表是拒绝服务攻击。

华为当然不是什么好鸟不过外行乱用IT词汇也挺傻逼的。另外,就算华为用wget —recursive抓整个网站,进行大数据分析,也算不上非法行为,甚至连不道德都算不上,网络的本质就是这样的。获取信息没有不当之说,只有不当使用信息。

品葱用户 **恶习像弹簧

华国锋** 评论于 2020-05-12

[

无视robot和DDOS不是一回事,服务器过载造成服务down了,并不代表是拒绝服务攻击。华为当然不…

](https://pincong.rocks/article/item_id-374280#https://pincong.rocks/article/item_id-374280#")
忘了补充菊花的确不会访问robot.txt,然后ddos在本文是形容词,指ao大多爬虫流量犹如ddos

品葱用户 **华国锋

恶习像弹簧** 评论于 2020-05-12

[

忘了补充菊花的确不会访问robot.txt,然后ddos在本文是形容词,指ao大多爬虫流量犹如ddo…

](https://pincong.rocks/article/item_id-374283#https://pincong.rocks/article/item_id-374283#")

我明白你的意思,但是DDOS本身的两层意思,就是用拒绝访问,用有限的TCP封包消耗服务器资源;加上僵尸网络组织分布式攻击,在单一事件内扩大攻击频率,同时让对方防spam机制失效。

抓内容首先就是合法的HTTP请求,其次爬虫的每一个实例应该也都是基于同一个IP的,不然要编写分布式抓取的代码需要大量工作,远不如利用WGET之类的现成工具就好。

所以我觉得比喻不伦不类。华为本身就在试图建立可以比肩Google service的所谓华为服务,也在搞大数据,抓网页不算什么大新闻。用这种新闻也无法在德国法国之类的国家给华为造成致命打击,没啥用。

品葱用户 **恶习像弹簧

华国锋** 评论于 2020-05-12

[

我明白你的意思,但是DDOS本身的两层意思,就是用拒绝访问,用有限的TCP封包消耗服务器资源;加上僵…

](https://pincong.rocks/article/item_id-374291#https://pincong.rocks/article/item_id-374291#")
嗯。。。但一般人了解的多的大量访问服务器的名词就是ddos,简单易懂
爬虫更像dos,但dos一词还有dos系统的意思,不大懂的会有点歧义吧
再说我也找不到通俗简单+完美形容的词……

品葱用户 **华国锋

恶习像弹簧** 评论于 2020-05-12

[

嗯。。。但一般人了解的多的大量访问服务器的名词就是ddos,简单易懂爬虫更像dos,但dos一词还有…

](https://pincong.rocks/article/item_id-374294#https://pincong.rocks/article/item_id-374294#")

这文章是你写的?如果是我的话,会说华为爬虫使用业界公认不道德的方式,高频抓取网站内容,造成小型网站宕机,引起网络安全公司警惕,并采取类似对付DDOS的方法,识别华为的抓取模式并禁止其访问。(我不知道具体情况,相关描述有可能有错,但大概思路如此。)

品葱用户 **恶习像弹簧

华国锋** 评论于 2020-05-12

[

这文章是你写的?如果是我的话,会说华为爬虫使用业界公认不道德的方式,高频抓取网站内容,造成小型网站宕…

](https://pincong.rocks/article/item_id-374304#https://pincong.rocks/article/item_id-374304#")
不是,你看上面都标出处了

品葱用户 HatredKiller 评论于 2020-05-11

华为嘛 这么缺德很正常

品葱用户 四邑漁農牧工商總會 评论于 2020-05-11

支為和支興

品葱用户 fvxcrfer 评论于 2020-05-11

华为是在偷取数据,采用爬虫的方式,存入数据库后做数据分析,目的就是监控!
任正非当年就是葱香港走私二手、三手的洋垃圾爱立信程控交换机积累的第一桶金。
他操的女人的爹牛逼,于是抄板爱立信的设备,才发展起来。
投标时,修改设备,设备网线都把了,前台还能显示一切性能都OK。
当初给他走私设备的几个人,他倒是撇的干干净净。
现在他儿子任平在香港指挥,女儿孟晚舟改头换面出去跑业务。
华为在欧洲经营那么多年,很多骨干节点都是狗正非供货的,做实时数据分析
导致tor用的时候,一定不要tor的三个节点都在欧洲,蜜罐太多了
不知道欧洲那些政客是怎么想的,脑子进水了吗?东郭先生这么多年?!他们不看安徒生童话?

品葱用户 fvxcrfer 评论于 2020-05-12

https://consumer.huawei.com/cn/privacy/privacy-policy/

您需要注册华为帐号才能享受某些功能或者服务。当您注册华为帐号,或登录华为帐号在线购物、下载软件、购买服务时,我们会要求您提供相应的个人信息,例如您的姓名、邮件地址、手机号码、订单信息、收货地址、付款方式等。

华为的某些产品可让您与他人通信并共享信息,当您使用华为产品与家人和朋友分享内容时,您可能需要创建公开显示的华为帐号个人资料,包括昵称、头像等。华为可能会收集您提供的与前述人士有关的信息,如姓名、电子邮件地址以及电话号码等。华为将采取合理且必要的措施保障前述通信的安全。

为满足部分司法管辖区对帐号实名制、游戏防沉迷系统或互联网支付的要求,华为可能会要求您提供由政府发放的身份证明或能表明您身份的相关卡证信息。

2. 华为在您使用服务过程中获取的信息

华为会收集您的设备信息,以及您和您的设备如何与华为产品与服务交互的信息,此类信息包括:

(1)设备及应用信息。如设备名称、设备识别符、设备激活时间、硬件型号、操作系统版本、应用程序版本、软件识别码、设备及应用设置(如地区/语言/时区/字体)等。

(2)移动网络信息。如公共陆地移动网络提供商 ID(PLMN)、地理位置(设备定位所在区域信号发射塔识别信息)、Internet 协议(IP)地址。

(3)日志信息。当您使用华为的服务或者查看由华为提供的内容时,华为会自动收集某些信息并存储在日志中,如服务的访问时间、访问次数、访问 IP、事件信息(如错误、崩溃、重启、升级)等。

(4)位置信息。在访问某些基于位置的服务时(例如执行搜索、使用导航软件或查看某个位置的天气),华为会收集、使用并处理您设备的模糊位置或准确位置,这些位置信息通过 GPS、WLAN 和服务提供商的网络 ID 获取。华为会询问您要为哪些应用程序启用基于位置的服务。您可在设备的设置菜单中选择关闭设备上的相应权限,拒绝共享您的位置信息。

(5)您存储在华为服务器的内容。如您上传到云空间的内容会存储在华为服务器,以实现您快速访问和同一内容在不同设备间的共享。华为不会查看您存储在华为服务器的内容。

希望大家不要购买狗正非的产品,本质就是个小偷

品葱用户 Nova 评论于 2020-05-12

赶绩效暴力抓取,华为很急,欧洲份额在掉

品葱用户 **华国锋

恶习像弹簧** 评论于 2020-05-12

[

不是,你看上面都标出处了

](https://pincong.rocks/article/item_id-374327#https://pincong.rocks/article/item_id-374327#")

那就好,我还怕是作者自曝

品葱用户 **yajusenpi

Juria** 评论于 2020-05-11

[

华为给👴爬(双关)

](https://pincong.rocks/article/item_id-374275#https://pincong.rocks/article/item_id-374275#")

品葱用户 **Ilovethisgame

fvxcrfer** 评论于 2020-05-18

[

华为是在偷取数据,采用爬虫的方式,存入数据库后做数据分析,目的就是监控!任正非当年就是葱香港走私二手…

](https://pincong.rocks/article/item_id-374338#https://pincong.rocks/article/item_id-374338#")
tor不是两个节点吗 就是桥接器 节点1 节点2 品葱这样子

点击品葱原文参与讨论

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

转载5G科普,打脸吹捧华为5G的五毛

Gabriel Gao 华为是一个很能宣传(忽悠)的公司,多次自夸5G技术全球领先。2018年12月25日,华为董事长梁华宣称:华为5G技术成熟度,至少领先行业其它公司12~18个月。华为官网自称“华为在5G解决方案领域保持绝对领先的优 …

分裂网:数字铁幕 – Nei.st

美国抵制华为,将连带削弱 5G 的变革潜力 这些年来,科技业者高谈阔论物联网 (IOT) 的光明未来:随着无所不在的感应器和网络普及,一般工厂将变成智慧工厂;自动车将上路;手机网速会快到可以瞬间下载完整部电影。 低价感应器与超快网络是加速物 …

抵制华为,从葱友开始

华为是一家邪恶的企业,理由不多说了。 我们应该做的,是抵制华为,并且应该发动身边的一切亲朋好友抵制华为。 抵制华为,并非一定要让你买苹果,或者三星,毕竟很多人也不具备那样的经济条件,或者,也没有翻墙的需要。 但我们可以劝说他们购买小 …

假装不歪嘴 | 牛皮总会被戳破,包子早晚会露馅

前苏联时期有个段子,说苏联政府开会商讨两个问题,一个是修建百层大厦,另一个是竣工后的庆祝仪式。 但鉴于目前没有工程师也没有建筑材料,于是大会决定,直接研讨第二个问题。 中国有很多每年耗费几十上百亿的科研经费的机构和企业,其本质就是胡同口白铁 …