更多旅游科技资讯>>>
×

网络流量突然激增,为什么订单量没增加?

环球旅讯 2019-11-22 15:13

互联网的流量有30%~70%是由各类爬虫产生的。

手敲键盘,沉默不语。寂静的空气中,只有键盘声不绝于耳。他们的面目模糊不清,眼中却反射着屏幕亮眼的光芒。这是黑客,一群“蒙面”的技术高手,游走在网络的灰暗地带,动动手指,顷刻间便攻破无数机密。

欢迎来到黑客世界!想要成为黑客或者与之匹敌的对手,先从了解他们的“暗语”和积累财富的手段开始:

  • 拖库:现在被用来指网站遭到入侵后,黑客窃取数据库的行为。
  • 撞库:使用大量的某一个网站的账号密码,去另一个网站尝试登陆。
  • 洗库:黑客入侵网站在取得大量的用户数据之后,通过一系列的技术手段和黑色产业链将有价值的用户数据变现。
  • 社工库:黑客将获取的各种数据库关联起来,对用户进行全方位画像。

而这些“库”再联合撞库就可以形成一个黑色产业链:黑客入侵A网站后对网站拖库,拿到的数据可以存到自己的社工库里,也可以直接洗库变现。拿到的这部分数据再去B网站尝试登陆,而这就可以称之为是撞库。撞库后的数据可以继续存入社工库,或是洗库变现,以此循环......

01.“好”爬虫与“坏”爬虫 

撞库,仅是黑客利用爬虫程序发起的攻击方式之一。他们还能利用爬虫程序不断抓取旅行网站的航班票价和时刻表,以及酒店和景区门票价格,给网站带来不必要的网络压力和流量开销;还有可能造成商业机密外泄,导致竞争对手跟进,最终拉低业绩。

2017年某天,日本航空发现,公司网站查询余票和票价的访问量突然激增,让预定系统不堪重负,但机票的销量并未显著增加。经仔细调查发现,这并非因为旅客“只看不买”,而是遭遇了大量爬虫程序的抓取——当时,他们预定系统处理的流量有86%是爬虫产生的。

除此之外,黑客还可以利用爬虫程序跟踪促销频繁、高需求或限量供应商品的销售——例如活动门票等,然后在灰色市场转售库存。这将导致糟糕的客户体验、品牌受损和无效的营销投入。更严重的是,当爬虫程序暴力破解多个礼品卡和PIN码成功后,企业将可能会因欺诈性购买和客户赔偿而遭受损失。

并非所有的爬虫程序都具有攻击性。比如授权票务跟踪器和搜索引擎,只是企业需要管理的良性爬虫程序。从定义上来说,网络爬虫是一种从互联网抓取数据信息的自动化程序。如果将互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛(程序),沿着网络抓取自己的猎物。

“恶意爬虫程序”给企业带来了沉重的负担。据 Akamai 的统计,2017年互联网全网流量有30%-70%是由各类爬虫产生的,恶意爬虫产生的流量占据总流量的21.8%。其中,航空公司、金融服务机构以及医疗健康机构等行业是恶意爬虫的重灾区。

02.如何应对“恶意爬虫程序”?

“魔高一尺,道高一丈”,旅游企业该如何应对黑客利用爬虫程序带来的干扰?

一般而言,应对“恶意爬虫程序”要经历以下3个阶段:第一,判断它到底是不是爬虫;第二,对其所属种类进行分析,看看它到底是“好爬虫”还是“坏爬虫”;第三,在区分好坏后,决定采取哪些步骤。大部分企业对于爬虫程序攻击感到无可奈何的原因是,他们无法将真实用户、“好爬虫”、“坏爬虫”有效区分开来。

不过,在实际操作层面,很多企业都采取了一定的措施来防止恶意爬虫程序的攻击:有的选择让商品价格对爬虫程序不可见;有的会将文字内容制作成图片来防止爬取;更为常见的就是要通过验证码,要求用户证明自己是人类。于是网上就出现了下面令人“瞠目结舌”的一幕。

但即使如此,也很难完全阻止恶意爬虫程序的攻击。现在的爬虫程序非常先进、智能,它们会根据情况进行演变、进化,待其返回之后能够更好地躲避检测。因此更有效的方式是设法“愚弄”爬虫,让操作者认为自己获得了有价值的数据。

“想用爬虫窃取我的价格和库存信息?那我就给你‘量身定制’的假数据”。

当然还有其他一系列能够用于不同爬虫程序类型的举措,比如监控/告警、阻止访问、静默阻止、以及访问延迟等。点击此处即刻报名,旅讯沙龙,获取“反爬虫”攻略)

03.从网站建设开始防御

一个完整的爬虫程序一般会包含如下三个模块:网络请求模块、爬取流程控制模块、内容分析提取模块。其工作流程基本如下:从一个或若干初始网页的URL(即:网页地址栏中的一串字符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

因此网站的构建方式将对安全解决方案的有效性起着关键的作用,一个可成功抵御撞库攻击的理想网站建设步骤如下:

了解企业网站

现代网站架构复杂、属性众多,可能包含成千上万的 Web 页面,并支持多种不同类型的客户端和流量。了解企业的网站架构以及客户端如何从不同的页面导航到网站的登录端点,对成功防御撞库攻击以及企业所面临的风险等级至关重要。

要识别网站上的每一个端点。端点是指客户端可以访问的独立 URL(即网络地址),抵御撞库攻击需要识别并保护用于验证用户凭据的交易URL。许多组织运营的网站具有多个容易受到撞库攻击的端点。例如:

  • 消费者、小型企业和雇主服务,它们登录的端口不同,具有不同的登录端点;
  • 每个业务线可能具有单独的账户注册端点;
  • 企业中只有少数 IT 或业务线工作人员知道的次要端点等。

确定需要保护的内容

计划实施任何爬虫程序管理的第一步是清点每一项需要保护的内容。但鉴于现代网站的规模和复杂性,这项工作困难重重:对于要保护的内容,大家通常想到的是页面,并不一定是端点;单个登录端点通常由多个页面使用;负责维护端点的团队通常不是负责创建指向它的页面的团队。

为多种类型的客户端设计保护架构

网站可能会与多种类型的客户端互动。不同类型的网站消费者具有不同的需求。确定不同类型的消费者的需求,然后分别创建能够提供恰当数据访问权限级别和功能的不同端点——这将能够提供优于任何爬虫程序管理解决方案的安全优势。 

随着移动互联时代的到来,数据呈规模爆炸性增长,网络安全问题刻不容缓。忽视安全将让企业蒙受巨大的财产损失,甚至影响品牌声誉。2019年7月,英国航空公司因违反GDPR相关规定,被开出1.83亿英镑的天价罚单。同期收到罚单的还有万豪国际,罚款金额达9920万英镑,占万豪国际2018全年营业额的3%。

12月11日上海世茂皇家艾美酒店环球旅讯携手Akamai举办旅讯沙龙,以“网络安全攻守道”为主题,从旅游企业的业务层面,由浅入深为你解读:爬虫到底是什么?你的数据是如何被剽窃的?Web和移动端性能与业务的关联场景在哪里?并且还将交流探讨旅游企业跨境业务中常见的网络安全问题与解决方案。

点击此处即刻报名,了解活动详情请点击这里

© 以商业目的使用环球旅讯拥有版权的内容,请遵循环球旅讯 版权声明 获得授权。非商业目的使用,请遵循 CC BY-NC 4.0

评论

暂无评论

全部回复

发表你的观点

网络流量突然激增,为什么订单量没增加?

发表你的观点
发表你的观点 . . .
0
0

微信识别二维码参与话题讨论

保存二维码