实现一个简单的Python Web爬虫

03-01 13阅读

随着互联网的快速发展，信息量呈爆炸式增长。Web爬虫作为一种自动化工具，能够帮助我们从海量的网页中提取有价值的数据。本文将介绍如何使用Python编写一个简单的Web爬虫，并结合实际代码展示其工作原理和技术细节。

Web爬虫的基本概念

（一）定义

Web爬虫（也称为网络蜘蛛或网络机器人）是一种自动化的程序，它按照一定的规则遍历互联网上的网页，获取网页内容并存储下来。这些数据可以用于多种用途，如搜索引擎索引、数据分析、市场研究等。

（二）组成结构

URL管理器负责管理待爬取和已爬取的URL，避免重复抓取。下载器根据URL下载对应的网页内容。通常会处理HTTP请求，包括设置请求头、处理重定向等。解析器对下载下来的网页内容进行分析，提取出有用的信息，如标题、正文、链接等。根据需求，可能采用正则表达式、HTML解析库（如BeautifulSoup、lxml）等技术。存储模块将解析后的数据保存到本地文件、数据库或其他存储介质中。

开发环境准备

为了实现这个简单的Web爬虫，我们需要安装一些必要的Python库。可以使用pip来安装：

# 安装requests库，用于发送HTTP请求pip install requests# 安装BeautifulSoup4库，用于HTML解析pip install beautifulsoup4

代码实现

（一）导入库

import requestsfrom bs4 import BeautifulSoupimport reimport time

（二）URL管理器

class URLManager:    def __init__(self):        self.new_urls = set()  # 待爬取的URL集合        self.old_urls = set()  # 已爬取的URL集合    def add_new_url(self, url):        if url is None or len(url) == 0:            return        if url not in self.new_urls and url not in self.old_urls:            self.new_urls.add(url)    def has_new_url(self):        return len(self.new_urls) != 0    def get_new_url(self):        new_url = self.new_urls.pop()        self.old_urls.add(new_url)        return new_url    def add_new_urls(self, urls):        if urls is None or len(urls) == 0:            return        for url in urls:            self.add_new_url(url)

（三）下载器

class HtmlDownloader:    def download(self, url):        if url is None:            return None        headers = {            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'        }        try:            response = requests.get(url, headers=headers)            if response.status_code == 200:                response.encoding = 'utf - 8'  # 设置编码为utf - 8，防止乱码                return response.text            else:                print(f"Failed to download page: {url}, status code: {response.status_code}")                return None        except Exception as e:            print(f"Download failed: {e}")            return None

（四）解析器

class HtmlParser:    def parse(self, page_url, html_content):        if page_url is None or html_content is None:            return        soup = BeautifulSoup(html_content, 'html.parser')        new_urls = self._get_new_urls(page_url, soup)        new_data = self._get_new_data(page_url, soup)        return new_urls, new_data    def _get_new_urls(self, page_url, soup):        new_urls = set()        links = soup.find_all('a', href=re.compile(r'/item/'))        for link in links:            new_url = link['href']            new_full_url = f"https://baike.baidu.com{new_url}"            new_urls.add(new_full_url)        return new_urls    def _get_new_data(self, page_url, soup):        data = {}        title_node = soup.find('dd', class_='lemmaWgt - lemmaTitle - title').find('h1')        data['title'] = title_node.get_text()        summary_node = soup.find('div', class_='lemma - summary')        data['summary'] = summary_node.get_text()        return data

（五）存储模块

class DataOutput:    def __init__(self):        self.datas = []    def collect_data(self, data):        if data is None:            return        self.datas.append(data)    def output_html(self):        with open('output.html', 'w', encoding='utf - 8') as fout:            fout.write("<html>")            fout.write("<body>")            fout.write("<table>")            for data in self.datas:                fout.write("<tr>")                fout.write(f"<td>{data['url']}</td>")                fout.write(f"<td>{data['title']}</td>")                fout.write(f"<td>{data['summary']}</td>")                fout.write("</tr>")            fout.write("</table>")            fout.write("</body>")            fout.write("</html>")

（六）主程序

class SpiderMain:    def __init__(self):        self.urls = URLManager()        self.downloader = HtmlDownloader()        self.parser = HtmlParser()        self.outputer = DataOutput()    def craw(self, root_url):        count = 1        self.urls.add_new_url(root_url)        while self.urls.has_new_url():            try:                new_url = self.urls.get_new_url()                print(f"craw {count}:{new_url}")                html_cont = self.downloader.download(new_url)                new_urls, new_data = self.parser.parse(new_url, html_cont)                self.urls.add_new_urls(new_urls)                self.outputer.collect_data(new_data)                if count == 10:  # 爬取10个页面后停止                    break                count += 1                time.sleep(1)  # 模拟人类浏览，防止被网站封禁            except Exception as e:                print(f"craw failed:{e}")        self.outputer.output_html()if __name__ == '__main__':    root_url = "https://baike.baidu.com/item/Python"    obj_spider = SpiderMain()    obj_spider.craw(root_url)

运行结果与优化

（一）运行结果

当运行上述代码时，爬虫将从百度百科的“Python”词条开始爬取，依次获取该词条中的相关链接，并提取每个页面的标题和摘要信息。最终，将这些信息以HTML表格的形式输出到本地文件output.html中。

（二）优化方向

并发处理目前是单线程爬取，效率较低。可以使用多线程或多进程技术，如threading或concurrent.futures模块，提高爬取速度。遵守robots协议在爬取之前检查目标网站的robots.txt文件，确保爬虫的行为符合网站管理员的规定。可以通过robotparser模块来实现。异常处理增强进一步完善异常处理机制，例如针对不同类型的HTTP错误（如404、500等）采取不同的应对策略，或者在网络不稳定时自动重试下载。数据清洗对于提取到的数据可能存在噪声（如多余的空格、特殊字符等），可以在存储之前进行清洗，保证数据的质量。

这个简单的Python Web爬虫展示了基本的爬虫框架构建过程。在实际应用中，还需要根据具体需求不断调整和优化各个组件的功能，以满足更复杂的数据采集任务。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

实现一个简单的Python Web爬虫

Web爬虫的基本概念

（一）定义

（二）组成结构

开发环境准备

代码实现

（一）导入库

（二）URL管理器

（三）下载器

（四）解析器

（五）存储模块

（六）主程序

运行结果与优化

（一）运行结果

（二）优化方向

相关阅读

太空计算想象：当DeepSeek遇见Ciuic的卫星算力

优化DeepSeek通信：解决并行效率低下的5个技术秘诀

灾备方案设计：基于跨可用区部署的DeepSeek冗余节点架构

2024云智算报告：DeepSeek+Ciuic如何重塑AI开发

目录[+]

微信号复制成功