PythonSpider
爬虫笔记
Install / Use
/learn @LiuShiYa-github/PythonSpiderREADME
PythonSpider
<a href="https://github.com/LiuShiYa-github/PythonSpider/blob/master/Image/wx.jpg" target="_blank"><img src="https://img.shields.io/badge/weChat-微信-blue.svg" alt="微信"></a>
<a href="https://blog.csdn.net/weixin_42506599?spm=1000.2115.3001.5343" target="_blank"><img src="https://img.shields.io/badge/csdn-CSDN-red.svg" alt="CSDN"></a>

声明
- 此repo是纪录学习Python爬虫阶段的代码与笔记,学习视频来源于网络
- 代码、教程仅限于学习交流,请勿用于任何商业用途!
知识点
<details> <summary>👉查看涉及的知识点</summary>第一章
01 网络爬虫概述
02 urllib.request原理以及使用
03 正则表达式re使用
第二章
01 数据持久化存储-csv
02 数据持久化存储-MySQL
03 数据持久化存储-MongoDB
04 requests模块
05 增量爬虫-基于MySQL及Redis实现
第三章
01 爬虫-图片抓取
02 xpath语法解析
03 lxml+xpath解析提取数据
第四章
01 requests模块高级使用
02 代理ip使用
03 POST请求数据抓取
第五章
01 动态加载数据爬取
02 JSON解析模块及全站抓取
03 多线程爬虫
04 多级页面多线程爬取
05 Cookie模拟登录
第六章
01 Selenium+PhantomJS Chrome Firefox
02 Selenium常用方法
03 Selenium高级操作
第七章
01 Scrapy框架原理
02 Scrapy配置文件解析
03 中间件
04 Scrapy处理POST请求
05 Scrapy之图片管道
06 Scrapy之文件管道
第八章
01 Scrapy之分布式爬虫原理
02 Scrapy之分布式爬虫实现
03 机器视觉与tesseract
04 移动端数据抓取
</details>
实例
<details> <summary>👉查看实例</summary>- 抓取贴吧HTML
- 猫眼经典电影-保存为CSV-单行保存
- 猫眼经典电影-保存为CSV-多行保存
- 猫眼电影经典影片-存储到MySQL
- 猫眼电影经典影片-存储到MongoDB
- 汽车之家基于Redis实现增量爬虫
- 汽车之家Mysql实现增量爬虫
- 图片抓取-爬取wallhaven.cc
- 基于xpath抓取链家二手房源
- requests.post请求有道翻译结果抓取
- requests.proxies抓取飞度代理的免费高匿代理并测试可用性
- 汽车之家数据抓取-两级页面
- 抓取动态加载JSON格式-豆瓣剧情电影排行榜
- 抓取动态加载JSON格式-豆瓣全站的电影
- 多线程抓取动态加载JSON格式-华为应用市场社交类app
- 多线程抓取动态加载JSON格式抓取腾讯招聘
- selenium无头浏览器方式获取京东商城爬虫类的图书
- 使用selenium模拟登录QQ邮箱
- selenium抓取网易云音乐排行榜
- 使用selenium抓取最新行政区化代码
- Scrapy中间件-随机User-Agent-代理IP地址-抓取二手车之家
- Scrapy多级页面抓取-二手车之家
- Scrapy数据持久化-抓取瓜子二手车
- Scrapy一次发送所有队列URL-抓取瓜子二手车
- Scrapy抓取文件处理-盗墓笔记全系列
- ScrapyPOST抓取-肯德基门店
- Scrapy三级以上页面抓取-PPT模板
- Scrapy抓取图片-360浏览器美眉图片抓取
- Scrapy分布式爬虫-腾讯招聘
- 移动端数据抓取-有道翻译
- 豆瓣滑块验证码
- pytesseract识别图片
- 抓取bilibili舞蹈区top100
- 拉勾网职位信息
- 互联网岗位信息分析
- 微博热搜top20展示
- 微博热搜
- 猫眼电影类型展示
Related Skills
node-connect
345.4kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
104.6kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
345.4kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
qqbot-media
345.4kQQBot 富媒体收发能力。使用 <qqmedia> 标签,系统根据文件扩展名自动识别类型(图片/语音/视频/文件)。
