python网页自动化脚本学习Python selenium自动化网页抓取器-seo优化-辅助卡盟平台

效果的实现，你们可以直接复制后直接运行！我只用了xpath的这个方法，因为它最实在！橙色字体（如果我没有色盲的话），就是网页中定位的元素，可以找到的！

接下来就是与BeautifulSoup的结合了，但是我们看到的只是打开了网页，并没有源码，那么就需要 “变量名.page_source”这个方法，他会实现你的梦想，你懂得?

ht = driver.page_source
#print ht 你可以Print出啦看看
soup = BeautifulSoup(ht,'html.parser')

下面就是BeautifulSoup的一些语法操作了，对于数据的结构还有采集，在上一篇里面有详细的抓取操作！！！

算了！说一个最简单的定位抓取：

soup = BeautifulSoup(ht,'html.parser')
a = soup.find('table',id="ctl00_ContentMain_SearchResultsGrid_grid")
if a: #必须加判断，不然访问的网页或许没有这一元素，程序就会都停止！

class的标签必须是class_,一定要记住！

哈哈哈！mongodb了昂，细节细节，首先需要用到模块----from pymongo import MongoClient,ASCENDING, DESCENDING

因为在python，mongodb的语法仍然实用，所以需要定义一个库，并且是全局性的，还有链接你计算机的一个全局变量。

if __name__ == '__main__': 
 global db#全局变量     
 global table#全局数据库
 table = 'mouser_product'
 mconn=MongoClient("mongodb://localhost")#地址
 db=mconn.test
 db.authenticate('test','test')#用户名和密码
 Taobao()

定义这些后，需要我们的新id来对数据的跟踪加定义：

db.sn.find_and_modify({"_id": table}, update={ "$inc": {'currentIdValue': 1}},upsert=True)
dic = db.ids.find({"_id":table}).limit(1)
return dic[0].get("currentIdValue")

这个方法是通用的，所以只要记住其中的mongodb的语法就可以了！因为这里是有返回值的，所以这个是个方法体python网页自动化脚本，这里不需要太过于纠结是怎么实现的，理解就好，中心还是在存数据的过程中

count = db[table].find({'数据':数据}).count() #是检索数据库中的数据
if count <= 0:        #判断是否有
ids= getNewsn()       #ids就是我们新定义的id，这里的id是1开始的增长型id
db[table].insert({"ids":ids,"数据":数据})

这样我们的数据就直接存入到mongodb的数据库中了，这里解释一下为什么在大数据中这么喜欢mongodb，因为它小巧，速度佳！

最后来一个实例源码：

from selenium import webdriver
from bs4 import BeautifulSoup
import requests
from pymongo import MongoClient,ASCENDING, DESCENDING
import time
import re
def parser():
 try:
  f = open('sitemap.txt','r')
  for i in f.readlines():
   sorturl=i.strip()
   driver = webdriver.Firefox()
   driver.get(sorturl)
   time.sleep(50)
   ht = driver.page_source
   #pageurl(ht)
   soup = BeautifulSoup(ht,'html.parser')
   a = soup.find('a',class_="first-last")
   if a:
    pagenum = int(a.get_text().strip())
    print pagenum
    for i in xrange(1,pagenum):
     element = driver.find_element_by_xpath('//a[@id="ctl00_ContentMain_PagerTop_%s"]' %i)
     element.click()
     html = element.page_source
     pageurl(html)

     time.sleep(50)
     driver.quit()
 except Exception,e:
  print e
def pageurl(ht):
 try:
  soup = BeautifulSoup(ht,'html.parser')
  a = soup.find('table',id="ctl00_ContentMain_SearchResultsGrid_grid")
  if a:
   tr = a.find_all('tr',class_="SearchResultsRowOdd")
   if tr:
     for i in tr:
      td = i.find_all('td')
      if td:
       url = td[2].find('a')
       if url:
        producturl = '网址'+url['href']
        print producturl
        count = db[table].find({"url":producturl}).count()
        if count
     for i in tr1:
      td = i.find_all('td')
      if td:
       url = td[2].find('a')
       if url:
        producturl = '网址'+url['href']
        print producturl
        count = db[table].find({"url":producturl}).count()
        if count<=0:
         sn = getNewsn()
         db[table].insert({"sn":sn,"url":producturl})
         print str(sn) + ' inserted successfully'
         time.sleep(3)
        else:
         print 'exists url'
        #time.sleep(5)
 except Exception,e:
  print e
def getNewsn(): 
 db.sn.find_and_modify({"_id": table}, update={ "$inc"{'currentIdValue': 1}},upsert=True)
 dic = db.sn.find({"_id":table}).limit(1)
 return dic[0].get("currentIdValue")
if __name__ == '__main__': 
 global db     
 global table
 table = 'mous_product'
 mconn=MongoClient("mongodb://localhost")
 db=mconn.test
 db.authenticate('test','test')
 parser()

这一串代码是破解一个老外的无聊验证码界面结缘的，我真的对他很无语了！破解方法还是实践中！这是完整的源码，无删改的哦！纯手工！

来源：【九爱网址导航www.fuzhukm.com】免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

seo优化-辅助卡盟平台

python网页自动化脚本学习Python selenium自动化网页抓取器

卡盟推荐

相关资讯

重庆悦来国际博览中心暴雪展台不可-04《守望先锋》免费试玩

即将发布:天劫令安卓版 v1.0.3 官方最新版

《守望先锋卡盟》游戏UI设计的角度来说绘制几个图标

李克强在京举办第四届中非地方政府合作论坛并致辞(图)

彩虹六号卡盟手游官网预约教程彩虹六号卡盟M预约方法介绍预约

谁不喜欢凛妹呢？《黎明杀机》恋爱模拟游戏搞怪MEME

分享:520爱要说出来，表白语录52句

阿里云服务器精选特惠：1核1G云0.9元/月

网游中国国内由腾讯代理10.《剑灵》国内国内独家运营权

《守望先锋2》发布日期可能由PlayStation官方确认为2020年

BBS论坛是否真的已经开始衰落？成人论坛网站-草榴就是

街头篮球怀旧服介绍腾讯首款正版授权3v3公平竞技

《爱情公寓》官方同名手游8月7日聚情公测

2018LPL夏季赛总决赛将于9月14日下午15:00开始

神印王座辅助【唐门爱美丽】几下轻轻的敲击，意思是让他稍等一下

相关教程

s4锤石辅助天赋符文兵走险招01期韦鲁斯大型进阶攻略

球球大作战辅助挂球球大作战小糖果辅助特色

吃火锅片段脚本更新95次，70万人使用……这个居家菜谱网站教不少上海人做菜

刀客辅助封吗【玩家攻略】刀客的霸气你Get到了吗？教你玩转刀客

辅助奶妈天赋s6 S6赛季天赋最全解读，哪些英雄适合哪些天赋，看后秒懂！

王者霸域辅助如何让自己的游戏上架应用商店（凭借一次运营活动）

神武辅助ps怎么加点一句话道尽所有神武职业你躺枪了吗？

街机三国神兵辅助免费版街机三国手游下载

用IMACROS制作网页游戏辅助(精品)

泡泡堂如意辅助泡泡堂手游双人匹配合作技巧打爆对方靠合作

辅助奶嘴什么时候用安抚奶嘴几个月开始用

新天龙八部脚本哪里买求给个免费的天龙八部自动打图脚本

手游神武2辅助神武手游辅助职业介绍化生寺门派详解

水路运输辅助管理港航局工作简介

水路运输辅助管理国内水路运输管理规定