新网创想网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章给大家分享的是有关Python爬虫中获取图片的方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。
创新互联服务项目包括东宝网站建设、东宝网站制作、东宝网页制作以及东宝网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,东宝网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到东宝省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
直接上代码:
spider.py
__author__ = 'CQC' # -*- coding:utf-8 -*- import urllib import urllib2 import re import tool import os #抓取MM class Spider: #页面初始化 def __init__(self): self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm' self.tool = tool.Tool() #获取索引页面的内容 def getPage(self,pageIndex): url = self.siteURL + "?page=" + str(pageIndex) request = urllib2.Request(url) response = urllib2.urlopen(request) return response.read().decode('gbk') #获取索引界面所有MM的信息,list格式 def getContents(self,pageIndex): page = self.getPage(pageIndex) pattern = re.compile('(.*?).*?(.*?).*?(.*?)',re.S) items = re.findall(pattern,page) contents = [] for item in items: contents.append([item[0],item[1],item[2],item[3],item[4]]) return contents #获取MM个人详情页面 def getDetailPage(self,infoURL): response = urllib2.urlopen(infoURL) return response.read().decode('gbk') #获取个人文字简介 def getBrief(self,page): pattern = re.compile(' (.*?)