最近也学了点爬虫的东西。今天就先给大家写一个简单的爬虫吧。循序渐进,慢慢来哈哈哈哈哈哈哈哈哈哈哈
主要是以下几部分(下文基本会按照这个步骤来写):
代码如下:
import requests from bs4 import BeautifulSoup
requests: 这是一个非常流行的 Python 库,用于发送 HTTP 请求。它可以方便地让我们获取网页内容、下载文件、提交表单等网络操作。
BeautifulSoup: 这是一个用于解析 HTML 和 XML 文档的 Python 库。它能够将复杂的HTML文档转换成树形结构,使得我们可以轻松地搜索、遍历和修改文档中的元素。
代码如下:
# 目标网页地址 url = 'http://www.santostang.com/'
代码如下:
# 定义请求头的浏览器代理,伪装成浏览器 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome' '/114.0.5735.289 Safari/537.36', 'host': 'www.santostang.com'} # 请求网页 response = requests.get(url, headers=headers) print(response.text)
请求头header提供了关于请求、相应或其他发送实体的信息。总之一句话,这个很重要不能少。
不清楚这个请求头怎么搞的不要担心,下面我会另起一章节告诉大家怎么弄。
response.text 的内容如下图(下面会从这个里面检索获取我们想要的信息):
代码如下:
# 状态码为200,请求成功 if response.status_code == 200: # 打印状态码 print('Status Code: ', response.status_code) # 解析 HTML 文档 soup = BeautifulSoup(response.text, 'html.parser') # 找到所有的 , 和