位置:编程技术网 > 云计算 > 正文 >

教程|Python?Web页面抓取:循序渐进

2020年06月30日 10:50来源:未知手机版

异国色恋浪漫谭全集,翠宫饭店,唐骏 新华都

今天,小Oxy要为大家带来Python中Web页面的抓取教程,跟着小Oxy往下看吧!

大家不要看到代码就觉得头疼或是特别困难,其实Web爬虫是非常简单的。Python是面向对象的语言,而且与其他语言相比,类和对象都更容易操作,所以是Python Web爬虫最简单的入门方法之一。此外,还有许多库能简化Python Web爬虫工具的构建流程。

这次小Oxy会概述入门所需的知识,包括如何从页面源获取基于文本的数据以及如何将这些数据存储到文件中并根据设置的参数对输出进行排序。最后,还会介绍Python Web爬虫的高级功能。按照小Oxy今天所介绍的按部就班的学习就能学会Web爬虫哟。

另外,小Oxy所介绍的教程适用于所有操作系统。但是,在安装学习Python所用的环境和在正式开发环境的配置可能会稍有不同。

准备工作

这次为大家介绍的教程选用了3.8.3版本的Python,也适用于所有3.4+的版本。下面跟着小Oxy一起学习吧!

Windows系统安装Python时,选 “PATH installation”,PATH安装将可执行文件添加到默认的Windows命令提示符,执行文件搜索。Windows将识别诸如“pip”或“python”之类的命令,不需用户将其指向可执行文件的目录(例如C://tools/python//python.exe)。如果已经安装了Python,但是没有选中复选框,只需重新运行安装并选择modify。在第二个屏幕上选择“添加到环境变量”。

系统安装后,还要使用三个重要的库– BeautifulSoup v4,Pandas和Selenium。

BeautifulSoup广泛用于解析HTML文件;

Pandas用于结构化数据的创建;

Selenium用于浏览器自动化;

安装库需启动操作系统的终端。输入:

每一次安装都需要几秒钟到几分钟的时间。如果遇到终端死机、在下载或解压安装软件包时卡住或其他问题,只要电脑尚未完全卡机,那么可以使用CTRL+C中止安装。

下一步教程默认安装软件以及库的操作已完成。如果收到“NameError:name*is not defined”消息,很可能其中某个库安装失败。

Web驱动和浏览器

Web爬虫要通过浏览器连接到目标URL地址。出于测试目的,建议使用常规浏览器(或非无头浏览器),尤其是新手。看到代码与应用程序交互就能进行简单的故障排除和调试,也有助于更好地理解整个过程。

无头浏览器处理复杂任务效率更高,后续可使用。本教程使Chrome网页浏览器,若选用Firefox浏览器,过程也相差无几。

首先,搜索“ Chrome浏览器的网络驱动程序”(或Firefox),下载适用版本。

选择适用的软件包下载并解压缩。将驱动程序的可执行文件复制到易于访问的目录。进行之后的步骤才能知道下载安装的操作正确与否。

编码环境

在编程之前还需最后一步:良好的编码环境。包括从简单的文本编辑器到功能齐全的IDE(集成开发环境)等,其中,在简单的文本编辑器中只需创建一个* .py文件并直接写代码即可。

如果已经安装Visual Studio Code,则选择IDE最为简单。如果没有,建议新手使用PyCharm,入门简单且界面直观。接下来教程以 PyCharm为例。

在PyCharm中右键单击项目区域,单击“新建- Python文件”,再命名。

导入库并使用

安装的软件和程序开始派上用场:

PyCharm会自动标记未使用的库(显示为灰色)。不建议删除未使用的库。

从定义浏览器开始,根据在“ web驱动和浏览器”中选择的web驱动,应输入:

选择URL

Python页面抓取需要调查的网站来源

在进行第一次测试运行前请选择URL。小Oxy希望创建基本应用程序,因此建议选择简单的目标URL:

??不要将数据隐藏在Javascript元素中。有时候需要特定操作来显示所需的数据。从Javascript元素中删除数据则需要更复杂的操作。

??不要爬取图像,直接利用Selenium即可。

本文地址:http://www.reviewcode.cn/yunjisuan/153152.html 转载请注明出处!

今日热点资讯