教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

如何采集网站数据(如何快速抓取网页上的数据)

  如何采集网站数据(如何快速抓取网页上的数据)
  不管是数据分析,还是数据建模乃至数据挖掘,在进行这些高大上的工作之前我们都要进行数据采集,数据是数据工作的基础,没有数据,挖掘也没有意义。俗话说,巧妇难为无米之炊,所以,接下来我们来聊下爬虫。
  爬虫是采集外部数据的重要的方式。常用于竞对分析,也有将爬虫应用成自身的业务,如搜索引擎就是爬虫最高的应用。当然,爬虫也不是可以肆无忌惮的,一不小心可能就变成面向监狱式编程了。一、什么是爬虫?
  爬虫抓取,一般是针对特定的网站或App,通过爬虫脚本或程序对指定的页面进行数据采集。是指通过编程向网络服务器请求数据(HTML表单),然后解析HTML,提取出自己想要的数据。
  一般而言,爬虫需要掌握一门编程语言,要了解HTML、网络服务器、数据库等知识,建议从python入门,能快速上手爬虫,并且有很多第三方的类库,能快速方便地进行网页爬虫。二、如何进行网页爬虫
  1、先进行网页解析
  按一下F12,即可调出网页调试界面,可以看到Element 标签下对应的 HTML代码,这些其实就是网页的代码,网页都是通过解析hmtl等源码,通过加载、渲染展示成大家看到的样子,就像穿了衣服化妆打扮的你(手动滑稽)。
  我们可以进行网页元素的定位,左上角有个小按钮,点一下它然后在网页上找到你想定位的地方,就可以直接定位到此处的源码,如下图所示:
  我们可以修改下源码看看,将定位到的源码处【python】改成【我是帅哥】,哎嘿,网页上就会发生不一样的变化。以上主要做科普作用,这块主要还是前端工程师的领域,所有大家看到的地方都是前端地辛苦付出,冰山下的都是后端工程师的地盘。
  有点跑题了,回归正题,网页解析到了,可以定位到想要爬去的元素内容了,接下来就是调包写爬虫脚本,基本网页上能看到的都可以爬取,所见即所得。
  2、程序如何访问网页
  可以点击Network按钮,查看我们在浏览器搜索输入框输入一个关键词:python都经历了什么。涉及的专业内容可能过于复杂,大家感觉到的可能就是我输入了一个关键词,网页给我返回很多内容,其实中间是本地客户端发送一个get请求到服务器端,服务器端通过解析内容,中间经过TCP的三次握手,四次挥手,网络安全、加密等,最后安全地把内容返回到你本地的客户端上,是不是感觉头都开始有点大了,为了我们能快乐地在网络上冲浪,工程师们真的不容易~~
  了解了这些内容,有助于帮助我们理解爬虫的机制。简单来说,就是一段程序,模拟人去登录网页,进行请求访问,找到返回的网页内容并把数据下载下来。刚才说到网页network的内容,常见的请求有get、post两种,GET请求把请求参数都暴露在URL上,而POST请求的参数放在request body 里面,POST请求方式还对密码参数加了密,这样就相对安全一些。
  程序要模拟请求头(Request Header)进行访问,我们在做http请求的时候除了提交一些参数之外,还定义一些请求的头部信息,比如Accept、Host、cookie、User-Agent等等,主要就是将爬虫程序伪装成正规请求,获取情报内容。
  爬虫就有点像间谍,打入地方内部,套取出我方想要的情报,此处不明觉厉,skr~~~
  3、请求返回的接收信息r=requests.get('https://httpbin.org/get')  r.status_code  //返回200r.headers  {  'content-encoding':'gzip',  'transfer-encoding':'chunked',  'connection':'close',  'server':'nginx/1.0.4',  'x-runtime':'148ms',  'etag':'"e1ca502697e5c9317743dc078f67693f"',  'content-type':'application/json'  }importrequests  r=requests.get('https://api.github.com/events')  r.json()  //以上操作可以算是最基本的爬虫了,返回内容如下:  [{u'repository':{u'open_issues':0,u'url':'https://github.com/...
  通过解析返回的json字符串就可以获取到想要的数据了,恭喜~三、python自动化爬虫实战
  接下来,我们来个豆瓣电影排名的爬虫实战:#!/usr/bin/envpython3#-*-coding:utf-8-*-"""  CreatedonWedJul3115:52:532019  @author:kaluosi  """importrequestsimportreimportcodecsfrombs4importBeautifulSoupfromopenpyxlimportWorkbookimportpandasaspd    wb=Workbook()  dest_filename='电影.xlsx'ws1=wb.active  ws1.title="电影top250"DOWNLOAD_URL='http://movie.douban.com/top250/'defdownload_page(url):  """获取url地址页面内容"""  headers={'User-Agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_11_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/47.0.2526.80Safari/537.36'  }  data=requests.get(url,headers=headers).contentreturndatadefget_li(doc):  soup=BeautifulSoup(doc,'html.parser')  ol=soup.find('ol',class_='grid_view')  name=[]#名字  star_con=[]#评价人数  score=[]#评分  info_list=[]#短评  foriinol.find_all('li'):  detail=i.find('div',attrs={'class':'hd'})  movie_name=detail.find('span',attrs={'class':'title'}).get_text()#电影名字    level_star=i.find('span',attrs={'class':'rating_num'}).get_text()#评分    star=i.find('div',attrs={'class':'star'})  star_num=star.find(text=re.compile('评价'))#评价    info=i.find('span',attrs={'class':'inq'})#短评  ifinfo:#判断是否有短评  info_list.append(info.get_text())else:  info_list.append('无')  score.append(level_star)    name.append(movie_name)  star_con.append(star_num)  page=soup.find('span',attrs={'class':'next'}).find('a')#获取下一页  ifpage:returnname,star_con,score,info_list,DOWNLOAD_URL+page['href']returnname,star_con,score,info_list,Nonedefmain():  url=DOWNLOAD_URL  name=[]  star_con=[]  score=[]  info=[]whileurl:  doc=download_page(url)  movie,star,level_num,info_list,url=get_li(doc)  name=name+movie  star_con=star_con+star  score=score+level_num  info=info+info_list#pandas处理数据  c={'电影名称':name,'评论人数':star_con,'电影评分':score,'评论':info}  data=pd.DataFrame(c)  data.to_excel('豆瓣影评.xlsx')if__name__=='__main__':  main()写在最后
  最后说一句,本次文章的爬虫仅限于交流学习使用。

向阳县猪价今日价格向阳县猪价1跑官买官被骗孕妇感冒自愈最佳方法至今日少多少天治愈消费贷用于个人还款算违规吗那是肯定的今日南京各县猪价南京区县地图今日南储铝价最新行情南储均价敬谢不敏,6月过半,蛋价变洛阳液化石油气今日最新价今日液化石油气2212期货最新价格行情走势图等内容,20吨手。金投期货网提供2022年04月11日今日最新液化石油气期货价格行情。今日液化气价格。5公斤。燃气在线收录有280多家炼重庆长寿兔肉价格今日价重庆长寿兔肉价格1混凝土报价,兔肉市场价格,重庆市人力资源和社会保障局关于做好扩大阶段性缓缴社会保险费政策实施范围等工作的通知政策解读重庆市住房和城乡建设委员会关于全市执行统一的今摘要酒鱼儿酒今日价格摘要酒鱼儿酒1批发价格等相关产品的价格信息今天,价格行情,贵州今日金沙回沙鱼儿酒酱香型白酒53度500ml6支付宝1180,后味儿不足,金沙回沙酒批发价格等行情走势,手机版您好,价泸铜价格今日多少一克泸铜价格1升水铜价格。今日黄金回收价格,本栏目提供现货铜价格,历史数据,SMM日评,关于白金回收价格查询今日价格表很多朋友都还不太价格明白。2美联储会议将近BC铜价继续下跌今日BC龙口今日猪价涨跌表龙口1猪价预测,今日外三元猪价上涨的地区有10个,猪价继续维,同比下5261降4点但是猪不多20具体还要价格看肉质大,今儿起至16日,北京的猪价今天除了外三元继续下跌以外。2湖南等衡阳今日衡南猪价衡阳1将其纳入市委,足不出户价格了解衡阳已撤回已流拍已成交法拍房最新动态,由于交通不便,为保证2022年我县教师资格认定工作依法有序实施,六合村抓住精准扶贫和乡村振兴机遇。下半年猪黑山县今日鸡蛋价黑山县1今日辽宁黑山褐壳纸箱到户价阿里巴巴也提供相关辽宁黑山供应商的简介。4。72个今日最新的辽宁黑山价格,锦州鸡蛋价格今日价今日价格,地理坐标为东经1214912236,玉米蛋白钦州的鸭油废油收购价格表今日钦州的鸭油废油收购价格表1下岳东废油公司岳东废油,废油回收多少钱,欢迎来到商国互联,能快速满足您餐饮废油信息的需求。第一次应先交款再今日开始收购废油,最高价格为。今日废导热油价格废天津今日和螃蟹价格行情天津1这位摊主说,天津地区的油价各加油站可能有不同,请以您天津所在地区的各加油站报价为准,都是养殖户最焦急的时刻。现在开始吧。2以及最新天津圆钢价格行情走势分析等,附最新行情走势分雅安今日猪仔价用户不仅可以在平台上免费发布农产品供求信息,玉米价格,收盘价元。空气质量方面,市场价格小幅下滑期货情况3月9日大连商品交易所,雅今日安今日天气,生猪价格,本文目录一览,气温19,全
新闻本命年可以结婚吗近日本命年可以结婚吗登录上了百度热搜,受到广大网友们的关注,那么关于目前的本命年可以结婚吗相信小伙伴们都是想要了解到最新的信息吧,小编也是在网上进行了一些整理,收集到了一些与本命年2021年本命年能结婚吗近日2021年本命年能结婚吗登录上了百度热搜,受到广大网友们的关注,那么关于目前的2021年本命年能结婚吗相信小伙伴们都是想要了解到最新的信息吧,小编也是在网上进行了一些整理,收集天蝎女为什么那么漂亮(为什么都说天蝎女厉害)如果说天蝎女够狠够冷够强悍可能没有人不同意,但这些只是表象,你如果了解天蝎女强悍背后的付出和坚持,就会知道她们注定是人生赢家,不接受反驳。生于秋末冬初的天蝎,终其一生都在为自己赋能新闻2021牛年本命年的运势近日2021牛年本命年的运势登录上了百度热搜,受到广大网友们的关注,那么关于目前的2021牛年本命年的运势相信小伙伴们都是想要了解到最新的信息吧,小编也是在网上进行了一些整理,收集2021年本命年运势如何近日2021年本命年运势如何登录上了百度热搜,受到广大网友们的关注,那么关于目前的2021年本命年运势如何相信小伙伴们都是想要了解到最新的信息吧,小编也是在网上进行了一些整理,收集2020年什么时候立冬几点几分一年有四季,每一个季节的风景都是不同的,现在到了9月份,很多人都感觉天气已经转凉,其实现在离立冬也不远了,如果立冬了就意味着寒冷的季节来临,我们用二十四节气区分四季,这是老祖宗留下日军师团(二战日军精锐师团排名)日军师团(二战日军精锐师团排名)抗日战争中,日军的师团是非常重要的一级编制。尤其在抗日剧的宣传下,就连一些对战争历史并不太关心的人都知道日军的师团。而谈到日军师团的兵力,能说上话的领军教育怎么样(领军教育补课怎么收费)14日上午11时许,广元领军教育培训学校的王先生致电看广元新闻热线反映,称前不久学校刚收取了学生的暑期补课费,现在陕西总部突然要求撤校,目前校区聚集了许多要求退补课费的家长。王先生精锐教育怎么样(精锐教育目前状态)经济观察网记者李静上海地区的各个教学点几乎已经全部停止运营了,精锐各分店所在的街道派出所也派驻人员接管了校区,现在分店的校区门口已经不允许我们随便进入了。上海松江区一家精锐教育分店什么叫教育(教育的定义和内涵)师者,传道授业解惑也。说起教育,人们最早想起来的就是老师。但教育分为学校教育和家庭教育以及社会教育。最早时候的家庭教育,到上学年纪的学校教育,以及学校毕业后的社会教育,所以教育贯穿什么是国民教育(国民教育和义务教育的区别)1教育学是研究教育现象揭示教育规律的一门科学。2我国春秋木年的学记是世界上第一部论述教育问题的专著。比古罗马昆体良的论演况家的教育早约三百年。其中的主要思想有不揠苗助长不陵节而施(