最近在写一个爬虫,需要爬取京东的商品信息。本来第一天还爬的好好的,第二天就提示要登录才能进去搜索页面了。
上网找的办法是添加cookie来实现自动登录。我写了一个程序,使用selenium+chrome,先手动登录一次之后,把Cookie保存到数据库里,然后当需要登录时,自动从数据库里面读取cookie,并设置上去。
网上的代码大都是这样,但是事实证明这是不行的,没法登陆上去。
直到我看到一篇文章之后,才意识到,可能是因为cookie里面有些内容需要被替换,才能继续使用,于是我就加了一个重新构造cookie的代码,就能实现登录了!
代码片段:
def set_cookie(browser, url):
log.logger.info("正在设置cookie。...")
global current_ckid
current_ckid, cookie = utils.get_valid_cookie(url)
# 在这里获取到了cookie
if cookie is not None:
browser.delete_all_cookies()
for ck in cookie:
# print(ck)
cookie_dict = {
"domain": ".jd.com", # 火狐浏览器不用填写,谷歌要需要
'name': ck.get('name'),
'value': ck.get('value'),
"expires": "",
'path': '/',
'httpOnly': False,
'HostOnly': False,
'Secure': False}
browser.add_cookie(cookie_dict)
# browser.refresh()
time.sleep(3)
else:
log.logger.warning("无可用cookie, 停止抓取...")
转载请注明来源:https://longjin666.cn/?p=1281
欢迎关注我的公众号“灯珑”,让我们一起了解更多的事物~