在浏览器检查元素页面中,选取Network中的XHR选项即可观察每次加载页面,网页发出的请求,观察url的规律即可利用封装的函数对每一页进行爬取。
如232页网页的地址为http://jandan.net/pic/page-232#comments,其中page参数就代表了第几页,用格式化的方法,把页数替换掉,就可以得到每页的地址了。
urls=['http://jandan.net/pic/page-{}#comments'.format(i) for i in range(1,100)]#这个列表包含了1-99页的地址