python完成网络爬虫的办法:一、应用request库中的get办法,申请url的网页内容;二、【find()】以及【find_all()】办法能够遍历这个html文件,提取指定信息。
python完成网络爬虫的办法:
第一步:爬取
应用request库中的get办法,申请url的网页内容
编写代码
[root@localhost demo]# touch demo.py [root@localhost demo]# vim demo.py
#web爬虫学习 -- 剖析 #猎取页面信息 #输出:url #解决:request库函数猎取页面信息,并将网页内容转换成为人能看懂的编码格局 #输入:爬取到的内容 import requests def getHTMLText(url): try: r = requests.get( url, timeout=30 ) r.raise_for_status() #假如状态码没有是200,孕育发生异样 r.encoding = 'utf-8' #字符编码格局改为 utf-8 return r.text except: #异样解决 return " error " url = "http://www.百度.com" print( getHTMLText(url) )
[root@localhost demo]# python3 demo.py
第二步:剖析
应用bs4库中BeautifulSoup类,天生一个工具。find()以及find_all()办法能够遍历这个html文件,提取指定信息。
编写代码
[root@localhost demo]# touch demo1.py [root@localhost demo]# vim demo1.py #web爬虫学习 -- 剖析 #猎取页面信息 #输出:url #解决:request库猎取页面信息,并从爬取到的内容中提取要害信息 #输入:打印输入提取到的要害信息 import requests from bs4 import BeautifulSoup import re def getHTMLText(url): try: r = requests.get( url, timeout=30 ) r.raise_for_status() #假如状态码没有是200,孕育发生异样 r.encoding = 'utf-8' #字符编码格局改为 utf-8 return r.text except: #异样解决 return " error " def findHTMLText(text): soup = BeautifulSoup( text, "html.parser" ) #前往BeautifulSoup工具 return soup.find_all(string=re.compile( 'baidu' )) #连系正则表白式,完成字符串片断婚配 url = "http://www.百度.com" text = getHTMLText(url) #猎取html文本内容 res = findHTMLText(text) #婚配后果 print(res) #打印输入
[root@localhost demo]# python3 demo1.py
相干收费学习保举:python视频教程
以上就是python若何完成网络爬虫的具体内容,更多请存眷资源魔其它相干文章!
标签: Python python教程 python编程 python使用问题 网络爬虫
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
抱歉,评论功能暂时关闭!