python爬虫--------requests案列（二十七天）

🕗 发布于 2024-04-22 10:56 python 爬虫 开发语言

兄弟姐们·，大家好哇！我是喔的嘛呀。今天我们一起来学习requests案列。

一、requests____cookie登录古诗文网

1、首先想要模拟登录，就必须要获取登录表单数据

登录完之后点f12，然后点击network，最上面那个就是登录接口，登录表单数据就在里面

点登录接口，然后在点击payload可以看到有一个form data，里面的数据就是登录表单数据，爬虫模拟登陆就是构造表单数据实现登录。一定要合法合规。（因为涉及自己的账号密码我就不点开了）

里面的数据就是这些

'__VIEWSTATE': viewstate,
'__VIEWSTATEGENERATOR': viewstategenerator,
'from': '<http://so.gushiwen.cn/user/collect.aspx>',
'email': 'your_email@example.com',
'pwd': 'your_password',
'code': code_name,
'denglu': '登录',

很多小伙伴不知道'__VIEWSTATE'、'__VIEWSTATEGENERATOR'这两个参数是什么意思，给大家说一哈。

在很多Web页面中，特别是使用ASP.NET开发的页面中，会使用隐藏域（hidden input）来存储一些页面状态或者其他信息，这些信息对于页面的正常操作很重要，但用户是看不到的。

在这个例子中，**__VIEWSTATE和__VIEWSTATEGENERATOR**是两个隐藏域，它们存储了关于页面状态的信息，而且在每次请求页面时都会动态生成和改变。所以，在登录的时候，我们需要获取这两个隐藏域的值，并将它们包含在POST请求的数据中，以确保我们的请求是有效的。

2、第二个主要的地方时我们登录时候需要输入验证码，我们需要拿到正确的验证码地址并把验证码图片爬取下来

img 的id为imgCode 然后我们就可以使用BeautifulSoup解析

3、根据分析写出代码

（1)导入**requests和BeautifulSoup**库。

import requests
from bs4 import BeautifulSoup

(2)定义登录页面的URL和请求头部信息，模拟浏览器请求。

pythonCopy code
login_url = '<https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx>'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

(3)创建会话对象**session**，用于保持会话状态。

session = requests.session()

(4)发送GET请求获取登录页面的HTML源码，将响应内容保存在**content**变量中。

response = session.get(url=login_url, headers=headers)
content = response.text

(5)使用BeautifulSoup解析HTML源码，获取隐藏域**__VIEWSTATE和__VIEWSTATEGENERATOR**的值，以及验证码图片的URL。

soup = BeautifulSoup(content, 'lxml')
viewstate = soup.select_one('#__VIEWSTATE')['value']
viewstategenerator = soup.select_one('#__VIEWSTATEGENERATOR')['value']
code_url = '<https://so.gushiwen.cn>' + soup.select_one('#imgCode')['src']

(6)拼接验证码图片的完整URL，并发送GET请求获取验证码图片的内容，将内容保存到本地文件**code.jpg**中。


response_code = session.get(code_url)
with open('code.jpg', 'wb') as fp:
    fp.write(response_code.content)

(7)用户手动输入验证码。


code_name = input('请输入验证码: ')

(8)构造登录表单数据，包括**__VIEWSTATE、__VIEWSTATEGENERATOR、from、email、pwd、code和denglu**字段。


data_post = {
    '__VIEWSTATE': viewstate,
    '__VIEWSTATEGENERATOR': viewstategenerator,
    'from': '<http://so.gushiwen.cn/user/collect.aspx>',
    'email': 'your_email@example.com',
    'pwd': 'your_password',
    'code': code_name,
    'denglu': '登录',
}

(9)发送POST请求登录，将响应内容保存在**content_post**变量中。

response_post = session.post(url=login_url, headers=headers, data=data_post)
content_post = response_post.text

(10)将登录后的响应内容保存到本地HTML文件**gushiwen.html**中。

with open('gushiwen.html', 'w', encoding='utf-8') as fp:
    fp.write(content_post)

(11)完整代码

import requests
from bs4 import BeautifulSoup

# 登录页面的URL
login_url = '<https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx>'

# 请求头部信息，模拟浏览器请求
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
}

# 创建会话对象，保持会话状态
session = requests.session()

# 发送GET请求获取登录页面的HTML源码
response = session.get(url=login_url, headers=headers)
content = response.text

# 使用BeautifulSoup解析HTML源码，获取隐藏域__VIEWSTATE和__VIEWSTATEGENERATOR的值，以及验证码图片的URL
soup = BeautifulSoup(content, 'lxml')
viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value')
viewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')
code = soup.select('#imgCode')[0].attrs.get('src')
code_url = '<https://so.gushiwen.cn>' + code

# 获取验证码图片，并保存到本地
response_code = session.get(code_url)
content_code = response_code.content
with open('code.jpg', 'wb') as fp:
    fp.write(content_code)

# 用户输入验证码
code_name = input('请输入验证码')

# 构造登录表单数据

data_post = {
    '__VIEWSTATE': viewstate,
    '__VIEWSTATEGENERATOR': viewstategenerator,
    'from': '<http://so.gushiwen.cn/user/collect.aspx>',
    'email': 'your_email@example.com',
    'pwd': 'your_password',
    'code': code_name,
    'denglu': '登录',
}

# 发送POST请求登录
response_post = session.post(url=login_url, headers=headers, data=data_post)
content_post = response_post.text

# 将登录后的响应内容保存到本地HTML文件中
with open('gushiwen.html', 'w', encoding='utf-8') as fp:
    fp.write(content_post)

这段代码实现了模拟登录古诗文网站的功能，并将登录后的响应保存到本地文件中。请注意，其中的邮箱和密码等敏感信息应当替换为真实的信息，并且在实际使用时，需要遵守网站的相关规定和法律法规。

4、结果展示

运行之后找到code.jpg输入验证码

找到爬取下来的gushiwen.html点上面的浏览器标识

成功

失败

好了今天的学习就到这里了，希望兄弟姐妹能够天天开心，拜拜啦！

原文地址：https://blog.csdn.net/2201_75809246/article/details/138049552

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据结构––kmp算法(串)
下一篇：Excel数据的导出返回url给前端（靠谱）

树莓派下，centos7操作系统， TensorFlow java版实现身份证识别，文字读取
通过上述步骤，你可以在树莓派的CentOS 7系统上使用TensorFlow Java和Tesseract实现身份证识别和文字读取功能。这包括设置环境、准备预训练的检测模型、编写和运行Java代码来处
阅读更多2024-07-27
【在排序数组中查找元素的第一个和最后一个位置】python刷题记录
等等，这好像是二分查找问题。(因为这是个排序数组，然后如果有相同元素一定是相邻的。很憋屈地过了，用了2个哈希表，感觉好浪费。有点easy的感觉，感觉能用哈希表。
阅读更多2024-07-27
AI绘画入门实践 | Midjourney：使用 --iw 通过垫图生成头像
在 Midjourney 中，--iw可以根据上传的图作为垫图，影响生成结果的构图、风格与颜色。数值越接近2：MJ 参考图片的权重越大数值越接近0：MJ 参考提示词的权重越大PS：使用--ar保持出图
阅读更多2024-07-27
【strace命令详解：Linux下的强大跟踪工具】
🌈你好呀！我是山顶风景独好🎈欢迎踏入我的博客世界，能与您在此邂逅，真是缘分使然！😊🌸愿您在此停留的每一刻，都沐浴在轻松愉悦的氛围中。📖这里不仅有丰富的知识和趣味横生的内容等您来探索，更是一个自由交流
阅读更多2024-07-27
AT_abc273_a
这题只需将一个数的阶乘求出来即可：注意：题目里说了，0 的阶乘为 1。
阅读更多2024-07-27
【优质精选】12节大模型系列教学课程之二：RAG 原理与应用
RAG 技术在众多领域都有着广泛且深入的应用。在体育领域，它能够应对比赛数据的复杂性和多样性，通过构建关系动作图来分析运动员的表现，为教练员和运动员制定训练计划和调整比赛策略提供有力支持。例如，可以对
阅读更多2024-07-27
知名医药医疗行业人工智能数字化转型讲师培训师唐兴通谈医药医疗销售与创新思维创新管理数字化AI及大客户销售医美生活美容品牌市场
先后出版《引爆社群：移动互联网时代新4C法则》《数字化战略》《穿越周期：数字化转型与动态能力》《创新的扩散》《开放式创新》《梯次增长》《组合式创新》《种子用户方法论》《决战第三屏》等12部作品。先后为
阅读更多2024-07-27
MySQL InnoDB事务隔离和并发控制面试题详解
Hash 索引是一种基于 Hash 表的数据结构，用于快速查找数据。其原理是通过哈希函数将键映射到哈希表的某个位置，然后直接访问该位置的数据。优点是查找速度非常快，缺点是无法进行范围查询和顺序访问。原
阅读更多2024-07-27
算法刷题day20|回溯：39. 组合总和、40. 组合总和 II、131. 分割回文串
例如，candidates = [1, 1, 2], target = 3，遍历第一个 1 时，会取到[1, 2]，遍历到第二个 1 时，也会取到[1, 2]，此时就要对同一树层上的相同的值去重。要将
阅读更多2024-07-27
Redis的两种持久化方式---RDB、AOF
rdb其实就是一种快照持久化的方式，它会将Redis在某个时间点的所有的数据状态以二进制的方式保存到硬盘上的文件当中，它相对于aof文件会小很多，因为知识某个时间点的数据，当然，这就会导致它的实时性不
阅读更多2024-07-27

python爬虫--------requests案列（二十七天）

一、requests____cookie登录古诗文网

相关文章