当前位置: 首页 > news >正文

python爬取京东评论 -

使用DrissionPage模块进行爬取,DrissionPage是一个自动化的模块,可以模拟人的操作,进行翻页等操作,比传统爬取更加方便
在使用DrissionPage之前,需要先初始化路径运行下面的代码,需要将r'D:\Chrome\Chrome.exe' 替换为本地Chrome的执行路径,如果没有Chrome浏览器,也可以切换其他浏览器

from DrissionPage import ChromiumOptionspath = r'D:\Chrome\Chrome.exe'  # 请改为你电脑内Chrome可执行文件路径
ChromiumOptions().set_browser_path(path).save()

通过开发者工具找到评论数据对应的请求网址,全部评价,定位页面等

image

具体代码

# 导入自动化模块
import time
from DrissionPage import ChromiumPage
# 导入csv
import csv# 创建文件对象
f = open('data.csv',mode='w',encoding='utf-8',newline='')
# 字典写入方法
csv_writer = csv.DictWriter(f,fieldnames=['昵称','用户等级','评分','评论','时间','产品',
])
# 写入表头
csv_writer.writeheader()
# 打开浏览器(实例化浏览器对象)
dp = ChromiumPage()# 访问网站
dp.get('https://item.jd.com/10058384218794.html')
# 等待页面加载
time.sleep(3)
# 监听数据包
dp.listen.start('client.action')
# 点击全部评价
dp.ele('css:.all-btn').click()
# 构建循环翻页
for page in range(1,201):print(f'正在采集第{page}页的数据')# 等待数据包加载r = dp.listen.wait()# 获取数据内容json_data = r.response.body# 键值对取值,提取评论所在列表datas = json_data['result']['floors'][2]['data']# for循环提取列表元素for index in datas:try:dit = {'昵称':index['commentInfo']['userNickName'],'用户等级': index['commentInfo']['officerLevel'],'评分': index['commentInfo']['commentScore'],'评论': index['commentInfo']['commentData'],'时间': index['commentInfo']['commentDate'],'产品': index['commentInfo']['wareAttribute'][0]['颜色'],}# 写入数据csv_writer.writerow(dit)print(dit)except:pass# 定位页面tab = dp.ele('css:._rateListContainer_1ygkr_45')# 下滑tab.scroll.to_bottom()

运行代码即可爬取出评论,并输出为.csv文件

image

http://www.hn-smt.com/news/392/

相关文章:

  • 鲜花10/27
  • 读《程序员的修炼之路:从小工到专家》有感
  • 想让默认头像不再千篇一律,就顺手复刻了一下 GitHub 的思路
  • java(3)基础规范
  • 读书日记3
  • Tuack 生成 OI 比赛题目 PDF 笔记
  • 数据库三大范式、Union和Union all的区别
  • CSP-S2025 游记
  • 「LG3600-随机数生成器」题解
  • MathType7下载包安装教程2025最新下载+安装+汉化激活(附安装包,超详细)
  • 2025强网杯ezphp复现
  • 漏洞报告被拒绝的常见原因及避免方法
  • 【IEEE出版 | 重庆邮电大学主办 | 多届次、高层次】第六届人工智能与计算机工程国际学术会议(ICAICE 2025)
  • Docker容器里面部署的Jenkins的Java17升级到21版本(无需删除之前容器,内部在线升级) - 攻城狮
  • 报表知识
  • 渐进过程中大O与小o混用
  • 消息队列的有序性
  • 【LTDC】DMA2D —— 嵌入式系统的 GPU
  • unity管理器设计:Manager of Managers
  • iview table 排序 columns 里面写 sortable: custom 不要写 sortable: true 不然会进行二次内部排序序号等 字段。
  • 本地运行nginx服务,模拟线上环境访问项目
  • git提交远程项目步骤
  • 2025 年搅拌器搅拌设备,侧入式搅拌设备,斜插式揽拌设备,卧式搅拌设备厂家最新推荐,聚焦资质、案例、售后的五家企业深度解读
  • 2025 年环保搅拌设备,搅拌装置设备,框式搅拌设备厂家最新推荐,实力品牌深度解析采购无忧之选!
  • CorelDRAW的shell扩展ShellXP.dll导致资源管理器explorer.exe卡死/冻结/无响应/挂起
  • 2025 年定制矿车,大型矿车,固定式矿车厂家最新推荐,产能、专利、环保三维数据透视
  • 醒图电脑版下载与安装教程(2025最新版)
  • 2025 年江苏电缆附件,热缩电缆附件,冷缩电缆附件,预制电缆附件厂家最新推荐,产能、专利、环保三维数据透视
  • Android Studio 使用glibc2.28的版本
  • 2025年10月兰花油品牌推荐榜:五款精华油深度对比与选购指南