教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

网络爬虫是什么(爬虫怎么学)

  网络爬虫是什么(爬虫怎么学)爬虫的起源
  爬虫的起源可以追溯到万维网(互联网)诞生之初,一开始互联网还没有搜索。在搜索引擎没有被开发之前,互联网只是文件传输协议(FTP)站点的集合,用户可以在这些站点中导航以找到特定的共享文件。
  为了查找和组合互联网上可用的分布式数据,人们创建了一个自动化程序,称为网络爬虫/机器人,可以抓取互联网上的所有网页,然后将所有页面上的内容复制到数据库中制作索引。
  爬虫的发展
  随着互联网的发展,网络上的资源变得日益丰富但却驳杂不堪,信息的获取成本变得更高了。
  相应地,也日渐发展出更加智能,且适用性更强的爬虫软件。
  它们类似于蜘蛛通过辐射出去的蛛网来获取信息,继而从中捕获到它想要的猎物,所以爬虫也被称为网页蜘蛛,当然相较蛛网而言,爬虫软件更具主动性。另外,爬虫还有一些不常用的名字,像蚂蚁/模拟程序/蠕虫。
  爬虫的工作流程大致如下:
  通常,爬取网页数据时,只需要2个步骤:
  打开网页→将具体的数据从网页中复制并导出到表格或资源库中。
  简单来说就是,抓取和复制。爬虫的君子协议
  搜索引擎的爬虫是善意的,可以检索你的一切信息,并提供给其他用户访问,为此它们还专门定义了robots.txt文件,作为君子协议。
  Robots协议(爬虫协议)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。
  以淘宝网的robots.txt为例,
  以 Allow 项的值开头的 URL 是允许 robot 访问的。例如,Allow:/article 允许百度爬虫引擎访问 /article.htm、/article/http://12345.com 等。
  以 Disallow 项为开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/ 不允许百度爬虫引擎访问 /product/http://12345.com 等。
  最后一行,Disallow:/ 禁止百度爬虫访问除了 Allow 规定页面外的其他所有页面。
  所以你是不能从百度上搜索到淘宝内部的产品信息的。
  君子协议虽好,然而事情很快就被一些人破坏了,于是就有了反爬虫。爬虫与反爬虫
  爬虫与反爬虫是"矛"与"盾"的攻守关系,有了爬虫自然也就有了反爬虫。
  一些企业为了保证服务器的正常运转,降低服务器的运转压力与成本,不得不使出各种各样的手段来阻止爬虫工程师毫无节制地向服务器索取资源,这种行为我们称之为反爬虫。
  在爬虫与反爬虫的较量上,一些反爬手段常常会让人津津乐道,比如,文本混淆反爬虫、动态渲染反爬虫、信息校验反爬虫、代码混淆反爬虫……等等。
  反爬虫技术是如何对爬虫进行防御的,其实现原理是什么?以下就以信息校验反爬为例,请《鹿鼎记》的韦香主给大家做一下演示。
  假设天地会赤火堂香主派人从京城前往扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图:
  这件事的核心是「帮派成员-甲将重要密函交给帮派成员-乙」。假设甲、乙双方互不相识亦从未有过会面,那「帮派成员-甲」如何判断密函交给了「帮派成员-乙」,而不是给错人——给了其他「帮派成员-丁」呢?
  在历史实践中肯定吃过这样的亏,遂天地会采用了接头暗号这种方式来确保甲、乙双方是同一帮派成员,这才有了:
  地镇高岗,一派溪山千古秀;
  门朝大海,三河合水万年流。
  暗号只有帮派成员才知道,且不可外泄。甲、乙双方见面时由「帮派成员-甲」说出「地镇高岗,一派溪山千古秀」,「帮派成员-乙」听到后必须接下一句「门朝大海,三河合水万年流」。如果「帮派成员-乙」不知道下一句是什么,或者胡说一气,那么「帮派成员-甲」就可以判定他不是接头人,而是冒充的。
  同样的,「帮派成员-乙」要听到帮派成员-甲说出「地镇高岗,一派溪山千古秀」。否则「帮派成员-甲」就是冒充的,很有可能会将假的密函交给青木堂韦小宝。
  天地会接头人互相传递消息(密函)很像是我们在开发 WEB 应用时的 Client 和 Server,抽象地看起来像这样:
  那么问题来了,Client 和 Server 之间需不需要天地会这样的暗号呢?
  答案是需要!
  Client 就像「帮派成员-甲」,Server 就像「帮派成员-乙」,而他们的密函很有可能会被其他「帮派成员-丁」拿走或伪造。既然天地会有接头暗号,那么 Client 和 Server 之间用什么来保障传递消息是第一手发出,而不是被拦截伪造的呢?
  没错,签名验证!
  签名验证是目前 IT 技术领域应用广泛的 API 接口数据保护方式之一,它能够有效防止消息接收端将被篡改或伪造的消息当作正常消息处理。
  要注意的是,它的作用是防止消息接收端将被篡改或伪造的消息当作正常消息处理,而不是防止消息接受端接收假消息,事实上接口在收到消息的那一刻无法判断消息的真假。这一点非常重要,千万不要混淆了。
  假设 Client 要将「下个月 5 号刺杀鳌拜」这封重要密函交给 Server,抽象图如下:
  这时候如果发生冒充事件,会带来什么影响:
  其他「帮派成员-丁」从 Client 那里获得消息后进行了伪造,将刺杀鳌拜的时间从 5 号改为 6号,导致 Server 收到的刺杀时间是 6 号。这么一来,里应外合刺杀鳌拜的事就会变成一方延迟动手,这次谋划已久的刺杀行动大概率会失败,而且会造成不小的损失。
  我们使用签名验证来改善这个消息传递和验证的事。这里可以简单将签名验证理解为在原消息的基础上进行一定规则的运算和加密,最终将加密结果放到消息中一并发送,消息接收者拿到消息后按照相同的规则进行运算和加密,将自己运算得到的加密值和传递过来的加密值进行比对,如果两值相同则代表消息没有被拦截伪造,反之可以判定消息被拦截伪造。
  签名验证被广泛应用,例如下载操作系统镜像文件时官方网站会提供文件的 MD5 值、阿里巴巴/腾讯/华为等企业对外开放的接口中鉴权部分的 sign 值等。
  以上反爬方法选自《Python3 反爬虫原理与绕过实战》
  《Python 3 反爬虫原理与绕过实战》 韦世东 著
  这本书是爬虫领域第一本专门介绍反爬虫的书,被誉为爬虫工程师不可错过的"武功秘籍",腾讯、马蜂窝工程师倾力推荐。
  知其然,知其所以然,文武兼备,本书从攻防两个角度进行解读,描述了爬虫技术与反爬虫技术的对抗过程,并详细介绍了这其中的原理和具体实现方法。
  从本书中你将了解到以上文中提到的签名验证以及文本混淆、动态渲染、加密解密、代码混淆和行为验证码等反爬虫技术的成因和绕过方法。
  爬虫技术是一把双刃剑,希望大家可以将学到的技术用于防护,提高应用防护等级,以剑养剑,攻守兼备才能够在技术的江湖上任逍遥~写在最后
  爬虫本身并未违反法律。但程序运行过程中可能对他人经营网站造成破坏,爬取的数据有可能涉及隐私或机密,数据本身也可能产生法律纠纷。

哺乳期能喝茶吗(哺乳期可以喝枸杞茶吗)哺乳期能喝茶吗(哺乳期可以喝枸杞茶吗)1702031416爱青芽生小孩之前,欣欣妈妈非常喜欢喝茶,生小孩后自己的体重胖了许多,网上查了一下,喝茶是可以减肥的,所以想喝些普洱茶或者花小制作怎么做(矿泉水瓶手工简易好看)小制作怎么做(矿泉水瓶手工简易好看)两个纸杯就能做个台灯形状的手工,适合小学生哦一次性纸杯制作教程制作过程1。把两个纸杯进行修剪,一个剪一半,另一个剪剩下一个底,剩下个底部啊2。纸绣球花怎么养(绣球花怎么养家庭养法)绣球花怎么养(绣球花怎么养家庭养法)本期重点都说绣球花好看不好养,其实做到这几点,养好并不难如果要问我哪一种花卉最神奇,毫无疑问,我的回答是绣球花。对于养花新手来说,可能会有些不解绣球花有毒吗(家里为什么不能养绣球花)绣球花有毒吗(家里为什么不能养绣球花)很多人都会在家里养一些花,用来美化居室,点缀生活,美丽的花儿,大家都喜欢,但需要注意的是,有很多美丽的花,虽然观赏价值很高,但汁液都是含有毒素仙人球花(仙人球花怎么吃和做)仙人球花(仙人球花怎么吃和做)202107312135养花大全以前我们常说,多肉开花很危险,因为它太小,开花会消耗很多营养,耗完多肉就毁了。但偏偏有一种多肉,以开花为美,1年能开2怎么做贺卡图片(贺卡怎么做简单又漂亮)怎么做贺卡图片(贺卡怎么做简单又漂亮)过年发祝福,教你自制贺卡,手机摄影修图几步搞定把拍到的照片,做成带有春节气息的贺年卡,用手机摄影修图软件,就可以搞定。又很多软件可以制作。先给制作圣诞贺卡(儿童贺卡怎么做)制作圣诞贺卡(儿童贺卡怎么做)关注儿童艺术科技启蒙,关注我,HandyKid。我们会介绍孩子喜欢的趣味科学小实验手工创意等,和你一起给孩子更优质的家庭教育!圣诞节就要来了,小朋友们exe格式转换(exe怎么转换成mp4格式)exe格式转换(exe怎么转换成mp4格式)如何将Python脚本转换为。exe文件?每个python开发人员在想与外部共享他们开发的python应用程序时都会问这个问题。在此博客怎样办理二胎准生证(农村二胎准生证在哪里办)怎样办理二胎准生证(农村二胎准生证在哪里办)前言办理准生证一般要求提供男女两边的户口簿原件和复印件,夫妻两边各自的身份证和结婚证原件,这些是非常重要的事,然后收取各种申请表,进行填科普下数学最难的领域是哪个及数学的分类有哪些关于到现在数学最难的领域是哪个及数学的分类有哪些这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道数学最难的领域是哪个及数学科普下数学最难的领域是哪个数学的分类有哪些关于到现在数学最难的领域是哪个数学的分类有哪些这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道数学最难的领域是哪个数学的分类有哪
科普下文化在综合国力竞争中的地位和作用关于到现在文化在综合国力竞争中的地位和作用这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道文化在综合国力竞争中的地位和作用科普下教育在文化生活中的作用及教育的主要功能关于到现在教育在文化生活中的作用及教育的主要功能这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道教育在文化生活中的作用及教科普下科学素质的基础与重要组成部分关于到现在科学素质的基础与重要组成部分这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道科学素质的基础与重要组成部分,小编也科普下文化在综合国力竞争中的地位和作用关于到现在文化在综合国力竞争中的地位和作用这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道文化在综合国力竞争中的地位和作用小编也科普下教育在文化生活中的作用教育的主要功能关于到现在教育在文化生活中的作用教育的主要功能这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道教育在文化生活中的作用教育的主要功纳米技术的应用有哪些(纳米技术在日常生活中的应用)纳米技术的应用有哪些(纳米技术在日常生活中的应用)纳米技术在治理有害气体方面污水处理方面。汽车等领域都有着很重要的应用1治理有害气体工业生产中使用的汽油柴油以及作为汽车燃料的汽油柴生物冰袋(生物冰袋怎么重复使用)生物冰袋(生物冰袋怎么重复使用)买黄油送买淡奶油也送买芝士也送这些冰袋该拿它们怎么办?前几天,一个关于冰袋的热搜话题,引起了小编的注意。随着生鲜网购的增加,保鲜冰袋越来越常出现在快珊瑚是生物吗(珊瑚是非生物还是生物)珊瑚是生物吗(珊瑚是非生物还是生物)海洋是生命的摇篮,它孕育着许许多多的生命,而珊瑚,则是海洋中的一种奇特生物。在浩瀚的海洋中,珊瑚扮演着重要的角色。珊瑚虫虽小,却与其他生物一起,上海春秋航空电话(上海春秋航空招聘官网)上海春秋航空电话(上海春秋航空招聘官网)光明网201903271905退改签手续费搞不明白?收好这些航空公司服务热线中国国航95583东方航空95530南方航空95539海南航空9客房服务员英文(酒店客房服务员的招聘要求)客房服务员英文(酒店客房服务员的招聘要求)里面的称为餐厅,酒店外的可以叫饭馆或者餐馆都可以BampB家庭式酒店Boutiquehotel精品酒店Resort度假村Kingsize特怎样做好销售(如何做好营销工作)怎样做好销售(如何做好营销工作)我是银兰,销售技巧话术案例分享。欢迎关注头条号。8条销售秘诀1乔吉拉德对咱们销售中肯地指出如果你想要把东西卖给某人,你就应该尽自己的力量去收集他与你