廖雪峰python商业爬虫

教程詳情

文件下載	文件名稱：廖雪峰商業爬蟲	文件大小：36.2GB
	下載聲明：本站文件大多來自于網絡，僅供學習和研究使用，不得用于商業用途，如有版權問題，請聯系博豬！
	下載地址：下載教程

1.http:(1)當⽤戶在地址輸⼊了⽹址發送⽹絡請求的過程是什麽
(2)http的請求⽅式
get請求
(1)⽐較便捷
缺點:不安全:明⽂
參數的⻓度有限制
post請求
(1)⽐較安全
(2)數據整體沒有限制
(3)上傳⽂件
put(不完全的)
delete(删除⼀些信息)
head(請求頭)
發送⽹絡請求(需要帶⼀定的數據給服務器不帶數據也可以)
請求頭⾥⾯requestheader
返回數據:response
(1)Accept:⽂本的格式
(2)Accept-Encoding:編碼格式
(3)Connection:⻓鏈接短鏈接
(4)Cookie:驗證⽤的
(5)Host:域名
(6)Referer:标志從哪個⻚⾯跳轉過來的
(7)User-Agent:浏覽器和⽤戶的信息
2.爬⾍⼊⻔:使⽤代碼模拟⽤戶批量的發送⽹絡請求批量的獲取數據
(1)爬⾍的價值:
1.買賣數據(⾼端的領域價格特别貴)
2.數據分析:出分析報告
3.流量
4.指數阿⾥指數,百度指數
(3)合法性:灰⾊産業
政府沒有法律規定爬⾍是違法的,也沒有法律規定爬⾍是合法的
公司概念:公司讓你爬數據庫(竊取商業機密)責任在公司
(4)爬⾍可以爬取所有東⻄?(不是)爬⾍隻能爬取⽤戶能訪問到的數據
愛奇藝的視頻(vip⾮vip)
1.普通⽤戶隻能看⾮vip 爬取⾮vip的的視頻
2.vip 爬取vip的視頻
3.普通⽤戶想要爬取vip視頻(⿊客)
爬⾍的分類:(1)通⽤爬⾍
1.使⽤搜索引擎:百度⾕歌 360 雅⻁搜狗
優勢:開放性速度快
劣勢:⽬标不明确
返回内容:基本上%90是⽤戶不需要的
不清楚⽤戶的需求在哪⾥
(2)聚焦爬⾍(學習)
1.⽬标明确
2.對⽤戶的需求⾮常精準
3.返回的内容很固定
增量式:翻⻚:從第⼀⻚請求到最後⼀⻚
Deep 深度爬⾍:靜态數據:html css
動态數據:js代碼,加密的js
robots:是否允許其他爬⾍(通⽤爬⾍)爬取某些内容
聚焦爬⾍不遵守robots
爬⾍和反扒做⽃争:資源對等勝利的永遠是爬⾍
爬⾍的⼯作原理:
1.缺⼈你抓取⽬标的url是哪⼀個(找)
2.使⽤python代碼發送請求獲取數據(java Go)
3.解析獲取到的數據(精确數據)
(1)找到新的⽬标(url)回到第⼀步(⾃動化)
4.數據持久化
python3(原⽣提供的模塊):urlib.rquest:
(1)urlopen :
1.返回response對象
2.response.read()
3.bytes.decode("utf-8")
(2)get:傳參
1.漢字報錯 :解釋器ascii沒有漢字,url漢字轉碼
(3)post
(4)handle處理器的⾃定義
(5)urlError
python(原⽣提供的):urlib2
接下來将的知識點:
5.request(第三⽅)
6.數據解析:xpath bs4
7.數據存儲