choucisan / spider_learning Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

AJAX 解析、XPath、正则表达式 (re)、BeautifulSoup 数据解析、多进程池 (pool)、异步协程 (async)、Selenium 渲染网页、Scrapy 框架以及验证码 (verify) 处理

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.idea		.idea
Scrapy		Scrapy
Selenium		Selenium
AJAX.ipynb		AJAX.ipynb
Async.ipynb		Async.ipynb
Bs4.ipynb		Bs4.ipynb
Pool.ipynb		Pool.ipynb
README.md		README.md
Re.ipynb		Re.ipynb
Verify.ipynb		Verify.ipynb
Xpath.ipynb		Xpath.ipynb
requirements.txt		requirements.txt

Repository files navigation

🚀 Python 爬虫全栈学习项目

📚 本项目系统性地学习和实践了 Python 爬虫的核心技术，包括 AJAX 解析、XPath、正则表达式 (re)、BeautifulSoup 数据解析、多进程池 (pool)、异步协程 (async)、Selenium 渲染网页、Scrapy 框架以及验证码 (verify) 处理。

📖 项目简介

本项目涵盖 Python 爬虫的核心技术，提供了分模块的代码示例和详细注释，适合初学者学习，也适用于有经验的开发者进行参考。

📌 核心模块

• ✅ AJAX 动态加载：处理 JavaScript 渲染的网页

• ✅ XPath 解析：使用 lxml 高效解析 HTML

• ✅ 正则表达式 (re)：提取复杂文本数据

• ✅ BeautifulSoup 解析：基于 bs4 的 HTML 解析

• ✅ 多进程池 (pool)：提高爬取速度

• ✅ 异步协程 (async)：非阻塞爬取，提升性能

• ✅ Selenium 渲染：模拟用户操作，爬取 JavaScript 页面

• ✅ Scrapy 框架：高效的大规模数据爬取

• ✅ 验证码 (verify) 处理：绕过验证码，提升爬虫可用性

📁 目录结构

WebScraping-Tutorial/ # Python 爬虫全栈学习项目

│── README.md # 项目说明文档

│── requirements.txt # 依赖库

│── Selenium/ # Selenium 相关代码

│── Scrapy/ # Scrapy 爬虫项目

│── AJAX.ipynb # AJAX 动态加载解析（Jupyter Notebook）

│── Xpath.ipynb # XPath 解析（Jupyter Notebook）

│── Re.ipynb # 正则表达式（Jupyter Notebook）

│── Bs4.ipynb # BeautifulSoup 解析（Jupyter Notebook）

│── Pool.ipynb # 多进程池爬取（Jupyter Notebook）

│── Async.ipynb # 异步协程爬取（Jupyter Notebook）

│── Verify.ipynb # 验证码处理（Jupyter Notebook）

📮[[email protected]]

About

AJAX 解析、XPath、正则表达式 (re)、BeautifulSoup 数据解析、多进程池 (pool)、异步协程 (async)、Selenium 渲染网页、Scrapy 框架以及验证码 (verify) 处理

Report repository

Releases

No releases published

Packages

No packages published

Languages