《实战Python网路爬虫》是清华大学出版社出版的一本图书,出版日期为2019.06.01。
图书内容
本书从原理到实践,循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识;数据清洗主要介绍字元串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体的开发、12306抢票程式和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。
本书使用Python3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网路爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
目录
第1章 理解网路爬虫 1
1.1 爬虫的定义 1
1.2 爬虫的类型 2
1.3 爬虫的原理 2
1.4 爬虫的搜寻策略 4
1.5 爬虫的合法性与开发流程 5
1.6 本章小结 6
第2章 爬虫开发基础 7
2.1 HTTP与HTTPS 7
2.2 请求头 9
2.3 Cookies 10
2.4 HTML 11
2.5 JavaScript 12
2.6 JSON 14
2.7 Ajax 14
2.8 本章小结 15
第3章 Chrome分析网站 16
3.1 Chrome开发工具 16
3.2 Elements标籤 17
3.3 Network标籤 18
3.4 分析QQ音乐 20
3.5 本章小结 23
第4章 Fiddler抓包 24
4.1 Fiddler介绍 24
4.2 Fiddler安装配置 24
4.3 Fiddler抓取手机套用 26
4.4 Toolbar工具列 29
4.5 Web Session列表 30
4.6 View选项视图 32
4.7 Quickexec命令行 33
4.8 本章小结 34
第5章 爬虫库Urllib 35
5.1 Urllib简介 35
5.2 传送请求 36
5.3 複杂的请求 37
5.4 代理IP 38
5.5 使用Cookies 39
5.6 证书验证 40
5.7 数据处理 41
5.8 本章小结 42
第6章 爬虫库Requests 43...