爬虫解析——Xpath的安装及使用（五）_网站优化分享

您的位置：上海毫米网络优化公司 > 网站优化分享 >

一、Xpath插件的安装

进入chrome应用商店

爬虫解析——Xpath的安装及使用（五）,第1张

搜索 Xpath helpler

爬虫解析——Xpath的安装及使用（五）,第2张

选择这个安装

爬虫解析——Xpath的安装及使用（五）,第3张

怎么看扩展是否安装成功呢？

随便打开一个页面，然后按快捷键 Ctrl+Shift+X

出现这个黑色的框框就算安装成功了

爬虫解析——Xpath的安装及使用（五）,第4张

二、安装 lxml

在环境中

pip install lxml

三、Xpath解析文件

1.解析本地文件

（1）导入本地文件

from lxml import etree
# Xpath解析有两种解析文件
# 1.本地文件    etree.parse( 'xx.html')
# 2.服务器相应数据  response.read().decode('utf-8') 【主要用这个】    etree.HTML(response.read( ).decode("utf-8")
tree = etree.parse('_070.html')
print(tree)

报错：

爬虫解析——Xpath的安装及使用（五）,第5张

需要将本地文件中的meta加一个结束标签

爬虫解析——Xpath的安装及使用（五）,第6张

然后重新运行就可以了

爬虫解析——Xpath的安装及使用（五）,第7张

（2）解析本地文件

本地的 HTML 文件

爬虫解析——Xpath的安装及使用（五）,第8张

内容查询

# text() 获取标签中的内容
# 路径查询
# 查找 ul 下面的 li
# li_list = tree.xpath('//body/ul/li')
li_list = tree.xpath('//body/ul/li/text()')
print(li_list)

不用内容查询爬虫解析——Xpath的安装及使用（五）,第9张

使用内容查询

爬虫解析——Xpath的安装及使用（五）,第10张

路径查询

# text() 获取标签中的内容
# 路径查询
# 查找 ul 下面的 li
li_list = tree.xpath('//body/ul/li/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第11张

谓词查询

# 谓词查询
# 查找所有有id属性的  标签
li_list = tree.xpath('//ul/li[@id]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第12张

# 谓词查询
# 查找id为 ‘l1’ 的  标签
li_list = tree.xpath('//ul/li[@id="l1"]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第13张

属性查询

# 属性查询
# 查询标签的class属性的属性值
li_list = tree.xpath('//ul/li/@class')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第14张

# 查询id 为 ‘l1’ 的标签的class属性的属性值
li_list = tree.xpath('//ul/li[@id="l1"]/@class')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第15张

模糊查询

# 模糊查询
# 查找  标签的id中包含 ‘l’ 的标签
li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第16张

# 查找  标签的id中以‘s’开头的标签
li_list = tree.xpath('//ul/li[starts-with(@id,"s")]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第17张

逻辑查询

# 逻辑运算
# 查询标签中id为‘l1’且class的属性值为‘c1’的标签
li_list = tree.xpath('//ul/li[@id="l1" and @]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第18张

# 查询标签中id为‘s1’或者class为‘c1’的标签
li_list = tree.xpath('//ul/li[@id="s1"]/text() | //ul/li[@]/text()')
print(li_list)

爬虫解析——Xpath的安装及使用（五）,第19张

2.服务器文件解析

（1）获取网页源码

# 1.获取网页的源码
url = 'https://www.baidu.com/'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
}
# 请求对象定制
request = urllib.request.Request(url, headers=headers)
# 模拟客户端向服务器发送请求
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('utf-8')
print(content)

（2）解析服务器响应文件

# 解析服务器响应的文件
tree = etree.HTML(content)

我们应该如何获取Xpath呢？

之前安装的Xpath扩展就起作用了

我们 Ctrl + Shift + X打开扩展

右键页面打开检查，定位到“百度一下” 【我们要想要获取“百度一下”这个字段】

然后我们就可以根据检查中html标签的描述，在黑色框的左侧写查询代码，右侧则显示查询结果，查询正确时，右侧框中则会出现你想要的东西，我们复制这个Xpath路径。

爬虫解析——Xpath的安装及使用（五）,第20张

将复制的Xpath路径填入代码，运行就可以看到，我们已经成功获取了“百度一下这个字段”

# 打印
result= tree.xpath('//input[@id="su"]/@value')
print(result)

爬虫解析——Xpath的安装及使用（五）,第21张

还有一种获取Xpath的方法

右键网页，点击检查，点击箭头，然后选中页面中“百度一下”这个框，检查中就会点位到这个框的位置，然后右键这个位置，选择copy，选择copy Xpath，就会得到一个定位到百度一下这个框的代码 //*[@id="su"]

爬虫解析——Xpath的安装及使用（五）,第22张

然后补充自己想要获取的值（@value）就可以

result = tree.xpath('//*[@id="su"]/@value')
print(result)

本地文件解析完整代码：

from lxml import etree
# Xpath解析有两种解析文件
# 1.本地文件    etree.parse( 'xx.html')
# 2.服务器相应数据  response.read().decode('utf-8') 【主要用这个】    etree.HTML(response.read( ).decode("utf-8")
##############################
########   本地文件解析 ########
#############################
# 导入 本地html文件
tree = etree.parse('_070.html')
# text() 获取标签中的内容
# 路径查询
# 查找 ul 下面的 li
# li_list = tree.xpath('//body/ul/li/text()')
# 谓词查询
# 查找所有有id属性的  标签
# li_list = tree.xpath('//ul/li[@id]/text()')
# 查找id为 ‘l1’ 的 
 标签
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')
# 属性查询
# 查询
标签的class属性的属性值
# li_list = tree.xpath('//ul/li/@class')
# 查询id 为 ‘l1’ 的
标签的class属性的属性值
# li_list = tree.xpath('//ul/li[@id="l1"]/@class')
# 模糊查询
# 查找 
 标签的id中包含 ‘l’ 的标签
# li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')
# 查找 
 标签的id中以‘s’开头的标签
# li_list = tree.xpath('//ul/li[starts-with(@id,"s")]/text()')
# 逻辑运算
# 查询
标签中id为‘l1’且class的属性值为‘c1’的标签
# li_list = tree.xpath('//ul/li[@id="l1" and @]/text()')
# 查询
标签中id为‘s1’或者class为‘c1’的标签
li_list = tree.xpath('//ul/li[@id="s1"]/text() | //ul/li[@]/text()')
print(li_list)

服务器文件解析完整代码：

from lxml import etree
import urllib.request
###############################
####### 解析服务器文件 ##########
###############################
# 1.获取网页的源码
url = 'https://www.baidu.com/'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
}
# 请求对象定制
request = urllib.request.Request(url, headers=headers)
# 模拟客户端向服务器发送请求
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('utf-8')
# 2.解析服务器响应文件
# 解析服务器响应的文件
tree = etree.HTML(content)
# 打印 Xpath 的返回值是一个列表类型的数据
# result= tree.xpath('//input[@id="su"]/@value')
result = tree.xpath('//*[@id="su"]/@value')
print(result)

四、Xpath-抓取图片

抓取站长素材网站的图片

1.设置url

查找每一页 url 的规律

爬虫解析——Xpath的安装及使用（五）,第23张

# 找 url 的规律
# url : https://sc.chinaz.com/tupian/cixiutuan.html  page = 1
# url : https://sc.chinaz.com/tupian/cixiutuan_2.html  page = 2
# url : https://sc.chinaz.com/tupian/cixiutuan_3.html  page = 3

2.请求对象定制

def create_request(page):
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/cixiutuan.html'
    else:
        url = 'https://sc.chinaz.com/tupian/cixiutuan_'+str(page)+'.html'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
    }
    request = urllib.request.Request(url, headers=headers)
    return  request

3.获取网页源码

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

4.下载图片

通过Xpath获取图片的链接和图片名称

右键检查 --> 定位到图片的标签行 --> 在Xpath扩展的左侧框中写入Xpath --> 右侧与想要的数据吻合 --> 复制这个Xpath

但是！！！有时候在网页上获取的Xpath和通过response获取Xpath是不一样的，如果没有返回内容，就把网页下载下来看一下Xpath。

有时候src并不是真实的路径，可能会在‘data-original’中，重点是要检查content中的内容。

有的网站也会存在懒加载，src的属性就会变成src2，这个问题就需要根据从content和页面多加辨别。

爬虫解析——Xpath的安装及使用（五）,第24张

def download(content):
    # 下载图片
    # urllib.request.urlretrieve('图片地址', '图片名称')  # 这两项我们都没有,那我们就要先获取
    tree = etree.HTML(content)
    src_list = tree.xpath('//div[@]/div/img/@data-original')
    name_list = tree.xpath('//div[@]/div/img/@alt')
    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src
        urllib.request.urlretrieve(url=url, filename='_072_download_img/'+name+'.png')

5.调用

start_page = int(input('请输入起始页码'))
end_page = int(input('请输入结束页码'))
for page in range(start_page, end_page+1):
    # 请求对象定制
    response = create_request(page)
    # 获取网页源码
    content = get_content(response)
    # 下载
    download(content)

完整代码：

# 站长素材 https://sc.chinaz.com/
# 站长素材 --> 高清图片 --> 选择一个 --> 下载前十页
import urllib.request
from lxml import etree
# 找 url 的规律
# url : https://sc.chinaz.com/tupian/cixiutuan.html  page = 1
# url : https://sc.chinaz.com/tupian/cixiutuan_2.html  page = 2
# url : https://sc.chinaz.com/tupian/cixiutuan_3.html  page = 3
def create_request(page):
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/cixiutuan.html'
    else:
        url = 'https://sc.chinaz.com/tupian/cixiutuan_'+str(page)+'.html'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
    }
    request = urllib.request.Request(url, headers=headers)
    return request
def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content
def download(content):
    # 下载图片
    # urllib.request.urlretrieve('图片地址', '图片名称')  # 这两项我们都没有,那我们就要先获取
    tree = etree.HTML(content)
    src_list = tree.xpath('//div[@]/div/img/@data-original')
    name_list = tree.xpath('//div[@]/div/img/@alt')
    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src
        urllib.request.urlretrieve(url=url, filename='_072_download_img/'+name+'.png')
start_page = int(input('请输入起始页码'))
end_page = int(input('请输入结束页码'))
for page in range(start_page, end_page+1):
    # 请求对象定制
    response = create_request(page)
    # 获取网页源码
    content = get_content(response)
    # 下载
    download(content)

参考

尚硅谷Python爬虫教程小白零基础速通（含python基础+爬虫案例）

龙岩网站推广中国住建网的官网企业网站建设设计深圳网站设计推荐收获满满的句子手机端网页设计

上一篇：SQL Server数据库以及Management Studio详细安装教程

下一篇：mysql中SUBSTRING