SkillAgentSearch skills...

Spider

爬虫python3 (request,BeautifulSoup,xpath,re,Selenium,wordcloud等模块)

Install / Use

/learn @HuangCongQing/Spider
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

spider

python3 各种爬虫技术

个人爬虫笔记:https://www.yuque.com/huangzhongqing/spider

@双愚 , 若fork或star请注明来源

note笔记

模块库

  1. package/1request
  2. package/1request-advanced: cookie&代理
  3. package/2BeautifulSoup4
  4. package/3xpath
  5. package/4re正则表达式
    1. re.findall
    2. re.search
  6. package/5selenium
  7. package/6wordcloud&jieba 词云

| 功能 | 包名 | 作用 | | - | - | - | | 数据获取 | request | 爬取网页 | | 数据 解析 | re | 正则表达式 | | <br/> | BeautifulSoup | <br/> | | <br/> | xpath | xpath语法来进行文件格式解析 | | <br/> | lxml | lxml库结合libxml2快速强大的特性,使用xpath语法来进行文件格式解析,与Beautiful相比,效率更高。 | | 模拟浏览器 | Selenium | 用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。模拟点击 | | <br/> | PhantomJS | 无界面浏览器 | | <br/> | pandas | <br/> | | <br/> | jieba | 使用结巴分词进行中文分词 | | <br/> | pandas | <br/> | | <br/> | wordcloud | 词云包 | | <br/> | matplotlib | 绘制图表 | | | random | <br/> |

通用代码(输出|表格|)

爬虫实战

  1. practice/01复仇者联盟3豆瓣影评爬虫
  2. practice/02分析豆瓣中最新电影的影评(词云显示)《超时空同居》
  3. practice/03王菊微博评论数据抓取jupyter
  4. practice/04python模拟登录带验证码的网站
  5. practice/05抓取得到App音频数据
  6. practice/06python爬取公众号文章
  7. practice/07通过关键词爬取csdn博客文章
  8. practice/08百度搜狗百科关键词爬取
  9. practice/09大学排行榜榜单爬取
  10. practice/10bilibili视频爬取下载

文件操作

读取保存excel,txt等文件

  1. 文件操作/excel
  2. 文件操作/json【todo】
  3. 文件操作/txt

LICENSE

本项目全部内容遵守 MIT 许可协议.

View on GitHub
GitHub Stars16
CategoryDevelopment
Updated4mo ago
Forks12

Languages

HTML

Security Score

92/100

Audited on Nov 4, 2025

No findings