教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

网络爬虫是什么(爬虫怎么学)

  网络爬虫是什么(爬虫怎么学)爬虫的起源
  爬虫的起源可以追溯到万维网(互联网)诞生之初,一开始互联网还没有搜索。在搜索引擎没有被开发之前,互联网只是文件传输协议(FTP)站点的集合,用户可以在这些站点中导航以找到特定的共享文件。
  为了查找和组合互联网上可用的分布式数据,人们创建了一个自动化程序,称为网络爬虫/机器人,可以抓取互联网上的所有网页,然后将所有页面上的内容复制到数据库中制作索引。
  爬虫的发展
  随着互联网的发展,网络上的资源变得日益丰富但却驳杂不堪,信息的获取成本变得更高了。
  相应地,也日渐发展出更加智能,且适用性更强的爬虫软件。
  它们类似于蜘蛛通过辐射出去的蛛网来获取信息,继而从中捕获到它想要的猎物,所以爬虫也被称为网页蜘蛛,当然相较蛛网而言,爬虫软件更具主动性。另外,爬虫还有一些不常用的名字,像蚂蚁/模拟程序/蠕虫。
  爬虫的工作流程大致如下:
  通常,爬取网页数据时,只需要2个步骤:
  打开网页→将具体的数据从网页中复制并导出到表格或资源库中。
  简单来说就是,抓取和复制。爬虫的君子协议
  搜索引擎的爬虫是善意的,可以检索你的一切信息,并提供给其他用户访问,为此它们还专门定义了robots.txt文件,作为君子协议。
  Robots协议(爬虫协议)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。
  以淘宝网的robots.txt为例,
  以 Allow 项的值开头的 URL 是允许 robot 访问的。例如,Allow:/article 允许百度爬虫引擎访问 /article.htm、/article/http://12345.com 等。
  以 Disallow 项为开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/ 不允许百度爬虫引擎访问 /product/http://12345.com 等。
  最后一行,Disallow:/ 禁止百度爬虫访问除了 Allow 规定页面外的其他所有页面。
  所以你是不能从百度上搜索到淘宝内部的产品信息的。
  君子协议虽好,然而事情很快就被一些人破坏了,于是就有了反爬虫。爬虫与反爬虫
  爬虫与反爬虫是"矛"与"盾"的攻守关系,有了爬虫自然也就有了反爬虫。
  一些企业为了保证服务器的正常运转,降低服务器的运转压力与成本,不得不使出各种各样的手段来阻止爬虫工程师毫无节制地向服务器索取资源,这种行为我们称之为反爬虫。
  在爬虫与反爬虫的较量上,一些反爬手段常常会让人津津乐道,比如,文本混淆反爬虫、动态渲染反爬虫、信息校验反爬虫、代码混淆反爬虫……等等。
  反爬虫技术是如何对爬虫进行防御的,其实现原理是什么?以下就以信息校验反爬为例,请《鹿鼎记》的韦香主给大家做一下演示。
  假设天地会赤火堂香主派人从京城前往扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图:
  这件事的核心是「帮派成员-甲将重要密函交给帮派成员-乙」。假设甲、乙双方互不相识亦从未有过会面,那「帮派成员-甲」如何判断密函交给了「帮派成员-乙」,而不是给错人——给了其他「帮派成员-丁」呢?
  在历史实践中肯定吃过这样的亏,遂天地会采用了接头暗号这种方式来确保甲、乙双方是同一帮派成员,这才有了:
  地镇高岗,一派溪山千古秀;
  门朝大海,三河合水万年流。
  暗号只有帮派成员才知道,且不可外泄。甲、乙双方见面时由「帮派成员-甲」说出「地镇高岗,一派溪山千古秀」,「帮派成员-乙」听到后必须接下一句「门朝大海,三河合水万年流」。如果「帮派成员-乙」不知道下一句是什么,或者胡说一气,那么「帮派成员-甲」就可以判定他不是接头人,而是冒充的。
  同样的,「帮派成员-乙」要听到帮派成员-甲说出「地镇高岗,一派溪山千古秀」。否则「帮派成员-甲」就是冒充的,很有可能会将假的密函交给青木堂韦小宝。
  天地会接头人互相传递消息(密函)很像是我们在开发 WEB 应用时的 Client 和 Server,抽象地看起来像这样:
  那么问题来了,Client 和 Server 之间需不需要天地会这样的暗号呢?
  答案是需要!
  Client 就像「帮派成员-甲」,Server 就像「帮派成员-乙」,而他们的密函很有可能会被其他「帮派成员-丁」拿走或伪造。既然天地会有接头暗号,那么 Client 和 Server 之间用什么来保障传递消息是第一手发出,而不是被拦截伪造的呢?
  没错,签名验证!
  签名验证是目前 IT 技术领域应用广泛的 API 接口数据保护方式之一,它能够有效防止消息接收端将被篡改或伪造的消息当作正常消息处理。
  要注意的是,它的作用是防止消息接收端将被篡改或伪造的消息当作正常消息处理,而不是防止消息接受端接收假消息,事实上接口在收到消息的那一刻无法判断消息的真假。这一点非常重要,千万不要混淆了。
  假设 Client 要将「下个月 5 号刺杀鳌拜」这封重要密函交给 Server,抽象图如下:
  这时候如果发生冒充事件,会带来什么影响:
  其他「帮派成员-丁」从 Client 那里获得消息后进行了伪造,将刺杀鳌拜的时间从 5 号改为 6号,导致 Server 收到的刺杀时间是 6 号。这么一来,里应外合刺杀鳌拜的事就会变成一方延迟动手,这次谋划已久的刺杀行动大概率会失败,而且会造成不小的损失。
  我们使用签名验证来改善这个消息传递和验证的事。这里可以简单将签名验证理解为在原消息的基础上进行一定规则的运算和加密,最终将加密结果放到消息中一并发送,消息接收者拿到消息后按照相同的规则进行运算和加密,将自己运算得到的加密值和传递过来的加密值进行比对,如果两值相同则代表消息没有被拦截伪造,反之可以判定消息被拦截伪造。
  签名验证被广泛应用,例如下载操作系统镜像文件时官方网站会提供文件的 MD5 值、阿里巴巴/腾讯/华为等企业对外开放的接口中鉴权部分的 sign 值等。
  以上反爬方法选自《Python3 反爬虫原理与绕过实战》
  《Python 3 反爬虫原理与绕过实战》 韦世东 著
  这本书是爬虫领域第一本专门介绍反爬虫的书,被誉为爬虫工程师不可错过的"武功秘籍",腾讯、马蜂窝工程师倾力推荐。
  知其然,知其所以然,文武兼备,本书从攻防两个角度进行解读,描述了爬虫技术与反爬虫技术的对抗过程,并详细介绍了这其中的原理和具体实现方法。
  从本书中你将了解到以上文中提到的签名验证以及文本混淆、动态渲染、加密解密、代码混淆和行为验证码等反爬虫技术的成因和绕过方法。
  爬虫技术是一把双刃剑,希望大家可以将学到的技术用于防护,提高应用防护等级,以剑养剑,攻守兼备才能够在技术的江湖上任逍遥~写在最后
  爬虫本身并未违反法律。但程序运行过程中可能对他人经营网站造成破坏,爬取的数据有可能涉及隐私或机密,数据本身也可能产生法律纠纷。

郑凯演过的电视剧(郑恺最近拍的电视剧叫什么)郑凯演过的电视剧(郑恺最近拍的电视剧叫什么)又是一年毕业季。对很多人来说,毕业就意味着找工作,找工作就意味着,你要不断地学习如何升职加薪走上人生巅峰?你除了学习各种职场课程,还有一任盈盈死了吗(任盈盈怎么死的呢)任盈盈死了吗(任盈盈怎么死的呢)1996年由吕颂贤主演的笑傲江湖被称为经典之作,这一版也是很多金庸迷心中最为经典的一版,虽然当时拍摄条件简陋,但是还是非常贴合原著,就连金庸都给予了任盈盈死了吗(任盈盈怎么死的呢)任盈盈死了吗(任盈盈怎么死的呢)1996年由吕颂贤主演的笑傲江湖被称为经典之作,这一版也是很多金庸迷心中最为经典的一版,虽然当时拍摄条件简陋,但是还是非常贴合原著,就连金庸都给予了旗木卡卡西死了吗(卡卡西死了又复活是哪一集)旗木卡卡西死了吗(卡卡西死了又复活是哪一集)者里面一直有着很奇怪的战力划分。同样是上忍的,他们有的人强如火影,而有的脆弱得不堪一击。甚至乎,有的连下忍都能完成的任务,在上忍面前却如满园春色关不住一枝红杏出墙来的意思(映日荷花别样红的别样是什么意思)满园春色关不住一枝红杏出墙来的意思(映日荷花别样红的别样是什么意思)202003201741诗词曲精品库在写春天的诗词名句中,一定不会少了杏花。比如,陆游有那句著名的小楼一夜听春雨芙蓉花有几种(芙蓉花的五大色系)芙蓉花有几种(芙蓉花的五大色系)芙蓉花花开的时候极美,也是秋季欣赏的主要花卉之一。芙蓉花不仅有净化空气还能食用,用来泡茶,烧菜都是非常好的材料。芙蓉花的根系健壮,对于固土护坡有着一蔡依林的减肥方法(明星减肥瘦身方法推荐)蔡依林的减肥方法(明星减肥瘦身方法推荐)从婴儿肥到纸片人蔡依林的每一次蜕变都让我们惊叹Jolin表示自己一直有在运动保持,并且准备将自身经验与大家分享,因为身材自出道后变化巨大,坊办公室减肥瘦身方法(适合长期坐办公室的减肥方法)办公室减肥瘦身方法(适合长期坐办公室的减肥方法)在减肥动作中,有的动作可以在办公室做,有的动作可以在健身房做,而不管是什么动作都是有很好的减肥效果,那办公室减肥动作都是什么动作,当怎么样快速瘦身(减肥瘦身方法)减肥时,很多胖友都希望自己快点变瘦,恨不得一夜暴瘦。这样的想法固然夸张,但减肥还是有技巧可言的。为此,减妞专门总结了6条超实用的减肥方法,跟着做,效果显著。1将聚餐作为特殊事件每天玉龙雪山海拔多高(玉龙雪山最高多少米)玉龙雪山海拔多高(玉龙雪山最高多少米)风景秀丽的云南一直是旅游资源丰富的大省,在很多人眼中像是天堂一样美丽,这里不仅有如山高水美的西双版纳和风光绚丽的香格里拉,而且还有浪漫之都丽江玉龙雪山攻略(玉龙雪山几月份去最好)玉龙雪山攻略(玉龙雪山几月份去最好)大家好,我是江西定制旅行院长,很高兴在这里跟大家分享关于云南玉龙雪山的旅行攻略,希望这一篇文章能对你的云南玉龙雪山之行有所帮助。个人玉龙雪山花费
个体工商户税务登记(个体户营业执照税务登记)个体工商户税务登记(个体户营业执照税务登记)日网友煊烜问政在萨尔图行政大厅办理完工商执照后,让我去税务所办理信息确认。我在超市门口租了5平米左右的地方卖烤鸡。我要准备什么材料?大庆个体工商户注册名称(个人如何注册个体工商户)个体工商户注册名称(个人如何注册个体工商户)如今各地区的企业建立变得越来越多,也正是因此对于成立企业的相关规定和要求你们都要多加了解。那么下面我们就来为您解读一下个体工商户起名要求英国音标(英语44个音标最新版)英国音标(英语44个音标最新版)平放后缩,舌尖离开下齿,佘后抬起,开口度比大。发音时,舌头后缩,舌头后部抬得略高,双唇也收的更圆更小,向前突出。148个英语音标元音部分20个1。单胡萝卜炒肉的做法(红烧胡萝卜肉的做法)胡萝卜炒肉的做法(红烧胡萝卜肉的做法)ByAngelababy用料胡萝卜半个香菇5朵猪肉一小块小青菜少量葱适量姜适量食用油适量盐适量做法步骤1葱,姜,备好,胡萝卜去皮洗干净,切片如糖醋茄子的做法(糖醋茄子怎么做才好吃)糖醋茄子的做法(糖醋茄子怎么做才好吃)大家好,我是第一美食阿飞,每天都有几道美食分享给你,关注带你领略四海八荒的舌尖美味。今天和大家分享一道家常版糖醋茄子,茄子先经过腌制杀出里面的萝卜干怎么腌好吃又脆(晒干的萝卜干腌制方法)萝卜干怎么腌好吃又脆(晒干的萝卜干腌制方法)萝卜在我国民间素有小人参的美称,它含有丰富的碳水化合物和多种维生素,其中维生素的含量是梨的810倍。萝卜我们平时除了煮萝卜汤,还有炸萝卜大肠水疗(肠道水疗一次多少钱)大肠水疗(肠道水疗一次多少钱)本网讯(殷晓草)7月1日下午,消费日报江西记者站专题部副主任杨艳红等一行人来到南昌丰益肛肠专科医院为其颁发2021年度诚信共建单位牌匾和证书。授牌仪式面膜一周做几次(一个星期几次面膜合适)面膜一周做几次(一个星期几次面膜合适)我经常都在敷面膜,但是皮肤还是不好,敷面膜是不是没用啊?很多女生估计都有过这样的疑问,但我们的皮肤是受很多因素影响的,不仅仅是敷面膜,长期坚持河南联通查话费(联通查话费怎么查询余额)河南联通查话费(联通查话费怎么查询余额)1分钟教你查话费201906261929周三三看世界5G都来了,你还没学会查话费吗?不会查话费的你?真的不担心被运营商小坑一把么?嘿嘿,让聪小学生读书卡怎么做(读书卡怎么做?)小学生读书卡怎么做(读书卡怎么做?)九江新闻网讯(郭艳)为了激发学生读科普书的兴趣,营造爱读书读好书善读书的书香校园氛围,外国语实验小学中高年级开展了科普好书推荐卡制作比赛。同学们读书郎点读机f30(点读机有必要买吗)读书郎点读机f30(点读机有必要买吗)导语时下,在线教育风头正盛。越来越多的玩家进入到了这个赛道,而除了创业团队教培机构,还有一些与众不同的玩家也看上了这块市场。1998年,秦曙光