资源名称:Python数据抓取技术与实战 PDF

资源目录:

第1章 Python基础1

11 Python安装1

12 安装pip 6

13 如何查看帮助7

14 第一个程序10

15 文件操作25

16 循环28

17 异常30

18 元组30

19 列表32

110 字典36

111 集合38

112 随机数39

113 enumerate的使用40

114 第二个例子41

第2章 字符串解析46

21 常用函数46

22 正则表达式50

23 BeautifulSoup 55

24 json结构62

第3章 单机数据抓取77

31 单机顺序抓取77

32 requests 107

33 并发和并行抓取117

第4章 分布式数据抓取137

41 RPC的使用138

42 Celery系统145

第5章 全能的Selenium 159

51 Selenium单机159

52 Selenium分布式抓取178

53 Linux无图形界面使用Selenium 188

第6章 神秘的Tor 191

61 抓取时IP封锁的问题191

62 Tor的安装与使用192

63 Tor多线程197

64 Tor与Selenium结合205

第7章 抓取常见问题210

71 Flash 210

72 桌面程序211

73 U盘213

74 二级三级页面214

75 图片的处理214

76 App数据抓取214

第8章 监控框架221

81 框架说明223

82 监控系统实例225

第9章 拥抱大数据229

91 Hadoop生态圈229

92 Cloudera环境搭建231

资源截图:

Python数据抓取技术与实战 PDF