Python分析豆瓣网搜索的真实请求URL,以搜索“大数据”相关书籍为例,进行数据提取。
抓取前100本图书的相关数据,包括书名、图书详情页url。

这里列举一页数据,如需多页使用for循环

一、源码

import requests
from lxml import etree
import json
url='https://www.douban.com/j/search?q=%E5%A4%A7%E6%95%B0%E6%8D%AE&start=20&cat=1001'
head={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}
response=requests.get(url,headers=head)
response.encoding='utf8'
a=json.loads(response.text)
#print(a["items"][0])
for item in a["items"]:
    item=etree.HTML(item)
    name=item.xpath('//div/div[2]/div[1]/h3/a/text()')[0]
    href=item.xpath('//div/div[2]/div[1]/h3/a/@href')[0]
    print('|',name,'|',href,'|')

二、数据截图

数据截图

版权声明:本文为原创文章,版权归 HEML所有,转载请注明出处!
本文链接:https://www.wlinn.xyz/archives/15.html

Last modification:November 4th, 2019 at 10:36 pm
如果觉得我的文章对你有用,请随意赞赏