(.*?).*?#comment">(.*?)<.*?data-shop_name="(.*?)"', re.S) items = re.findall(pattern, content) for i in items: print 'url----: ' + i[0] + ' name-----: ' + i[1] id = self.getProductId(i[0]) if id != '': price = self.getPrice(id) co = self.requestOpener('http://item.m.jd.com/ware/detail.json?wareId=' + id) if co != '': self.getDetailParame(co, i[0], i[1], i[2], i[3], price) except Exception: print '获取产品链接失败' # 开始执行任务 def start(self, fromPge, toPge): for i in range(fromPge, toPge+1): print '第' + str(i) + '页扫描开始～～～～～～～～～～～～～～～～' content = self.requestOpener(self.baseUrl + str(i)) self.getDetailUrl(content) if i==fromPge: self.writeCSV(True) else: self.writeCSV(False) self.paramList = [] # 获取产品分页码和url def getPerProduct(self, url): try: content = self.requestOpener(url) #print content pattern = re.compile('.*?(.*?).*?class="hide ">0.*?href="(.*?)"',re.S) res = re.search(pattern, content) return res except Exception: print '获取手机的分页信息异常' return None # 根据分页获取每页数据 def getPgeProducts(self, url, file): res = self.getPerProduct(url) # 处理有分页情况 if res != None: print res.group(1) + res.group(2) num = res.group(1) url = res.group(2) url = url.replace('page=1', 'page=') for i in range(1, int(num) + 1): u = url.replace('page=', 'page=' + str(i)) print u content = self.requestOpener('http://list.jd.com' + u) self.getDetailUrl(content) if i == 1: self.writeCSV(file, True) else: self.writeCSV(file, False) self.paramList = [] else: content = self.requestOpener(url) self.getDetailUrl(content) self.writeCSV(file, True) self.paramList = [] # 获取品牌的英文名 def getEngName(self, name): try: p = re.compile('\\w+', re.S) r = re.search(p, name) return r.group(0).upper() except Exception: print '获取品牌英文名异常' return name # 推荐品牌 def index(self): startTime = time.time() content = self.requestOpener(self.baseUrl) p = re.compile('data-initial=\'.*?href="(.*?)".*?title="(.*?)"', re.S) s = re.findall(p, content) for i in s: print i[0] + ' tt ' + i[1] file_name = './file/'+self.getEngName(i[1])+'.csv' self.getPgeProducts('http://list.jd.com' + i[0], file_name) print '总共用时' + str(time.time() - startTime) # 选择品牌 def select(self): startTime = time.time() mo_id = get_mobile_id.GETID().start() for i in mo_id: print i url = 'http://list.jd.com/list.html?cat=9987%2C653%2C655&go=0&ev=exbrand_' + i[0] file_name = './file/' + self.getEngName(i[1]) + '.csv' # print url # print file_name self.getPgeProducts(url, file_name) print '总共用时' + str(time.time() - startTime) jd = JD() # jd.index() jd.select()