网络爬虫之DrissionPage工具_网站优化分享

语法：

WebPage是功能最全面的页面类，既可控制浏览器，也可收发数据包：

from DrissionPage import WebPage

如果只要控制浏览器，导入ChromiumPage：

from DrissionPage import ChromiumPage

如果只要收发数据包，导入SessionPage：

from DrissionPage import SessionPage

配置

ChromiumOptions类用于设置浏览器启动参数：

from DrissionPage import ChromiumOptions

SessionOptions类用于设置Session对象启动参数：

from DrissionPage import SessionOptions

动作链，用于模拟一系列键盘和鼠标的操作：

from DrissionPage import ActionChains

键盘按键类，用于键入 ctrl、alt 等按键：

from DrissionPage import Keys

easy_set里保存了一些便捷的 ini 文件设置方法，可选择使用：

from DrissionPage.easy_set import *

定位元素

from DrissionPage import ChromiumPage
 
# 创建页面对象，并启动或接管浏览器
page = ChromiumPage()
# 跳转到登录页面
page.get('https://gitee.com/login')    # get()方法用于访问参数中的网址。它会等待页面完全加载，再继续执行后面的代码。
 
# 定位到账号文本框，获取文本框元素
ele = page.ele('#user_login')    # ele()方法用于查找元素，它返回一个ChromiumElement对象，用于操作元素。'#user_login'是定位符文本，#意思是按id属性查找元素。ele()内置了等待，如果元素未加载，它会执行等待，直到元素出现或到达时限。默认超时时间 10 秒。
 
# 输入对文本框输入账号
ele.input('您的账号')
# 定位到密码文本框并输入密码
page.ele('#user_password').input('您的密码')
# 点击登录按钮
page.ele('@value=登 录').click()    # @表示按属性名查找

爬取网页

from DrissionPage import SessionPage
 
# 创建页面对象
page = SessionPage()
 
# 爬取3页
for i in range(1, 4):
    # 访问某一页的网页
    page.get(f'https://gitee.com/explore/all?page={i}')
    # 获取所有开源库元素列表
    links = page.eles('.title project-namespace-path')    # 页面对象的eles()获取页面中所有class属性为'title project-namespace-path'的元素对象，eles()方法用于查找多个符合条件的元素，返回由它们组成的list
    # 遍历所有元素
    for link in links:
        # 打印链接信息
        print(link.text, link.link)    # .text获取元素的文本，.link获取元素的href或src属性

下载网页

from DrissionPage import SessionPage 
 
url = 'https://www.baidu.com/img/flexible/logo/pc/result.png'
save_path = r'C:\download'    # 保存的路径
 
page = SessionPage()
page.download(url, save_path, 'img')  # 支持重命名，处理文件名冲突

元素查找

# 根据属性查找，@ 后面可跟任意属性
page.ele('@id:ele_id', timeout=2)  # 查找 id 为 ele_id 的元素，设置等待时间2秒  
page.eles('@class')  # 查找所有拥有 class 属性的元素
page.eles('@class:class_name')  # 查找所有 class 含有 ele_class 的元素 
page.eles('@class=class_name')  # 查找所有 class 等于 ele_class 的元素 
 
# 根据 class 或 id 查找
page.ele('#ele_id')  # 等价于 page.ele('@id=ele_id')
page.ele('#:ele_id')  # 等价于 page.ele('@id:ele_id')
page.ele('.ele_class')  # 等价于 page.ele('@class=ele_class')
page.ele('.:ele_class')  # 等价于 page.ele('@class:ele_class')
 
# 根据 tag name 查找
page.ele('tag:li')  # 查找第一个 li 元素  
page.eles('tag:li')  # 查找所有 li 元素  
 
# 根据 tag name 及属性查找
page.ele('tag:div@class=div_class')  # 查找 class 为 div_class 的 div 元素
page.ele('tag:div@class:ele_class') # 查找 class 含有 ele_class 的 div 元素
page.ele('tag:div@class=ele_class') # 查找 class 等于 ele_class 的 div 元素
page.ele('tag:div@text():search_text') # 查找文本含有 search_text 的 div 元素
page.ele('tag:div@text()=search_text') # 查找文本等于 search_text 的 div 元素
 
# 根据文本内容查找
page.ele('search text')  # 查找包含传入文本的元素  
page.eles('text:search text')  # 如文本以 @、tag:、css:、xpath:、text: 开头，则应在前加上 text: 避免冲突  
page.eles('text=search text')  # 文本等于 search_text 的元素
 
# 根据 xpath 或 css selector 查找
page.eles('xpath://div[@]')  
page.eles('css:div.ele_class')  
 
# 根据 loc 查找
loc1 = By.ID, 'ele_id'
loc2 = By.XPATH, '//div[@]'
page.ele(loc1)
page.ele(loc2)
 
# 查找下级元素
element = page.ele('@id:ele_id')
element.ele('@class:class_name')  # 在 element 下级查找第一个 class 为 ele_class 的元素
element.eles('tag:li')  # 在 ele_id 下级查找所有li元素
 
# 根据位置查找
element.parent  # 父元素  
element.next  # 下一个兄弟元素  
element.prev  # 上一个兄弟元素  
 
# 获取 shadow-root，把它作为元素对待。只支持 open 的 shadow-root
ele1 = element.shadow_root.ele('tag:div')
 
# 串连查找
page.ele('@id:ele_id').ele('tag:div').next.ele('some text').eles('tag:a')
 
# 简化写法
eles = page('@id:ele_id')('tag:div').next('some text').eles('tag:a')
ele2 = ele1('tag:li').next('some text')

元素操作

element.click(by_js)  # 点击元素，可选择是否用 js 方式点击
element.input(value)  # 输入文本
element.run_script(js)  # 对元素运行 JavaScript 脚本
element.submit()  # 提交
element.clear()  # 清空元素
element.screenshot(path, filename)  # 对元素截图
element.select(text)  # 根据文本选择下拉列表
element.set_attr(attr, value)  # 设置元素属性值
element.remove_attr(attr)  # 删除属性
element.drag(x, y, speed, shake)  # 拖动元素相对距离，可设置速度和是否随机抖动
element.drag_to(ele_or_loc, speed, shake)  # 拖动元素到另一个元素或某个坐标，可设置速度和是否随机抖动
element.hover()  # 在元素上悬停鼠标+

元素属性

element.html  # 返回元素 outerHTML
element.inner_html  # 返回元素 innerHTML
element.tag  # 返回元素 tag name
element.text  # 返回元素 innerText 值
element.comments  # 返回元素内注释列表
element.link  # 返回元素 href 或 src 绝对 url
element.texts()  # 返回元素内所有直接子节点的文本，包括元素和文本节点，可指定只返回文本节点
element.attrs  # 返回元素所有属性的字典
element.attr(attr)  # 返回元素指定属性的值
element.css_path  # 返回元素绝对 css 路径
element.xpath  # 返回元素绝对 xpath 路径
element.parent  # 返回元素父元素
element.next  # 返回元素后一个兄弟元素
element.prev  # 返回元素前一个兄弟元素
element.parents(num)  # 返回第 num 级父元素
element.nexts(num, mode)  # 返回后面第几个元素或节点
element.prevs(num, mode)  # 返回前面第几个元素或节点
element.ele(loc_or_str, timeout)  # 返回当前元素下级第一个符合条件的子元素、属性或节点文本
element.eles(loc_or_str, timeout)  # 返回当前元素下级所有符合条件的子元素、属性或节点文本

浏览器和数据包模式切换

from DrissionPage import WebPage

# 创建页面对象
page = WebPage()
# 访问网址
page.get('https://www.baidu.com')
# 查找文本框元素并输入关键词
page('#kw').input('DrissionPage')
# 点击搜索按钮
page('#su').click(wait_loading=True)
# 切换到收发数据包模式
page.change_mode()
# 获取所有元素
links = page.eles('tag:h3')
# 遍历获取到的元素
for link in links:
    # 打印元素文本
    print(link.text)

全球外贸b2b网站 seo网站推广软件注册公司网站是什么汕头网站建设费用官方小程序开发百度云搜索引擎入口盘多多

上一篇：mysql 允许其他ip访问

下一篇：在线考试|基于Springboot的在线考试管理系统设计与实现(源码+数据库+文档)

语法：

元素 links = page.eles('tag:h3') # 遍历获取到的元素 for link in links: # 打印元素文本 print(link.text) ​

元素 links = page.eles('tag:h3') # 遍历获取到的元素 for link in links: # 打印元素文本 print(link.text)