Axure原型學習：微信讀書

合了一些最新版本的樣式，以微信讀書為標本做了Axure原型學習，enjoy~

首先要感謝人人都是產(chǎn)品經(jīng)理專欄作家@楊文強Kpaladin 老師，無私奉獻了微信讀書原型教程。楊老師的原文鏈接：http://www.woshipm.com/rp/231529.html

在新手學習Axure的這條路上，個人認為一定要選擇一個簡單易懂的原型堅持練習，在練習的過程中遇到的困難再去學習，這樣逐步深入會對Axure的學習有更大的幫助，實踐出真知嘛。

我做的基本和楊老師的原型一樣，但是結(jié)合了一些最新版本的樣式，由于時間問題有些界面的改的有些混亂，但畢竟也只是為了學習Axure，相同的做法我基本都放棄了。

楊老師在文中寫的教程我就不再寫了，建議大家多多學習，然后我選擇幾處做的時候認為不好理解的：

一. 底邊欄切換

?教程中的內(nèi)容我沒看懂，就用了最笨也最好理解的方式實現(xiàn)的，將底邊欄每個模塊轉(zhuǎn)換成動態(tài)面板，設(shè)置屬性如有圖即可，右圖我選擇了想法的設(shè)置。

因為不清楚實際的產(chǎn)品經(jīng)理會不會這么做，希望能有高人指點一下這個切換的做法。

二. 內(nèi)容上下滑動并自動回彈

第一步：將需要上下滑動的內(nèi)容設(shè)置成動態(tài)面板

第二步：放到合適的位置再次轉(zhuǎn)換成動態(tài)面板，注意是轉(zhuǎn)換了兩次，區(qū)分為：內(nèi)容展示窗口（第二次轉(zhuǎn)換的動態(tài)面板名稱）和內(nèi)容（第一次轉(zhuǎn)換的動態(tài)面板名稱）。所以設(shè)置內(nèi)容展示窗口的動態(tài)面板大小只是調(diào)整展示窗口的大小。

第三步：設(shè)置局部變量

解釋一下我設(shè)置的內(nèi)容，showyinsi=內(nèi)容展示窗口（動態(tài)面板），Daoyan=內(nèi)容（動態(tài)面板）

再加一個左右滑動的回彈設(shè)置，同理，只是把Y坐標換成X坐標就行了。

三. 點擊后置灰

這其實是比較常見的動態(tài)面板使用，設(shè)置兩層即可。

四. 滑動的小按鈕

我不知道有沒有簡單的做法，這個挺麻煩的，用一個圈和一個條形框組合而成，但是如果熟練使用動態(tài)面板的話也是很好實現(xiàn)的。

和內(nèi)容上下滑動回彈一個原理，但是這次需要將小圓圈和條形框分別轉(zhuǎn)換成動態(tài)面板，分別設(shè)置兩層（藍色和灰色），當點擊時切換效果。

下圖中的設(shè)置僅對小圈圈（動態(tài)面板）設(shè)置。

總結(jié)來說，在學習使用的過程中，動態(tài)面板的使用非常重要，方便疊加和切換；另外還有熱區(qū)的使用，左右翻頁和點擊彈出我?guī)缀醵际鞘褂玫臒釁^(qū)點擊實現(xiàn)的。

以上是作為新手的練習內(nèi)容，做的不太好，也不太成熟，希望大家多多指正，有問題可以直接留言。

本文由 @四時佳興原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Pixabay，基于 CC0 協(xié)議

.網(wǎng)絡(luò)爬蟲何時有用

假設(shè)我有一個鞋店，并且想要及時了解競爭對手的價格。我可以每天訪問他們的網(wǎng)站，與我店鋪中鞋子的價格進行對比。但是，如果我店鋪中的鞋類品種繁多，或是希望能夠更加頻繁地查看價格變化的話，就需要花費大量的時間，甚至難以實現(xiàn)。再舉一個例子，我看中了一雙鞋，想等它促銷時再購買。我可能需要每天訪問這家鞋店的網(wǎng)站來查看這雙鞋是否降價，也許需要等待幾個月的時間，我才能如愿盼到這雙鞋促銷。上述這兩個重復性的手工流程，都可以利用網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)自動化處理。

理想狀態(tài)下，網(wǎng)絡(luò)爬蟲并不是必須品，每個網(wǎng)站都應該提供API，以結(jié)構(gòu)化的格式共享它們的數(shù)據(jù)。然而現(xiàn)實情況中，雖然一些網(wǎng)站已經(jīng)提供了這種API，但是它們通常會限制可以抓取的數(shù)據(jù)，以及訪問這些數(shù)據(jù)的頻率。另外，對于網(wǎng)站的開發(fā)者而言，維護前端界面比維護后端API接口優(yōu)先級更高。總之，我們不能僅僅依賴于API去訪問我們所需的在線數(shù)據(jù)，而是應該學習一些網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)知識。

2. 網(wǎng)絡(luò)爬蟲是否合法

網(wǎng)絡(luò)爬蟲目前還處于早期的蠻荒階段，“允許哪些行為”這種基本秩序還處于建設(shè)之中。從目前的實踐來看，如果抓取數(shù)據(jù)的行為用于個人使用，則不存在問題；而如果數(shù)據(jù)用于轉(zhuǎn)載，那么抓取的數(shù)據(jù)類型就非常關(guān)鍵了。

世界各地法院的一些案件可以幫助我們確定哪些網(wǎng)絡(luò)爬蟲行為是允許的。在Feist Publications, Inc.起訴Rural Telephone Service Co.的案件中，美國聯(lián)邦最高法院裁定抓取并轉(zhuǎn)載真實數(shù)據(jù)（比如，電話清單）是允許的。而在澳大利亞，Telstra Corporation Limited起訴Phone Directories Company Pty Ltd這一類似案件中，則裁定只有擁有明確作者的數(shù)據(jù)，才可以獲得版權(quán)。此外，在歐盟的ofir.dk起訴home.dk一案中，最終裁定定期抓取和深度鏈接是允許的。

這些案件告訴我們，當抓取的數(shù)據(jù)是現(xiàn)實生活中的真實數(shù)據(jù)（比如，營業(yè)地址、電話清單）時，是允許轉(zhuǎn)載的。但是，如果是原創(chuàng)數(shù)據(jù)（比如，意見和評論），通常就會受到版權(quán)限制，而不能轉(zhuǎn)載。

無論如何，當你抓取某個網(wǎng)站的數(shù)據(jù)時，請記住自己是該網(wǎng)站的訪客，應當約束自己的抓取行為，否則他們可能會封禁你的IP，甚至采取更進一步的法律行動。這就要求下載請求的速度需要限定在一個合理值之內(nèi)，并且還需要設(shè)定一個專屬的用戶代理來標識自己。在下面的小節(jié)中我們將會對這些實踐進行具體介紹。

關(guān)于上述幾個法律案件的更多信息可以參考下述地址：

http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340
http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html
http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

3. 背景調(diào)研

在深入討論爬取一個網(wǎng)站之前，我們首先需要對目標站點的規(guī)模和結(jié)構(gòu)進行一定程度的了解。網(wǎng)站自身的robots.txt和Sitemap文件都可以為我們提供一定的幫助，此外還有一些能提供更詳細信息的外部工具，比如Google搜索和WHOIS。

3.1 檢查robots.txt

大多數(shù)網(wǎng)站都會定義robots.txt文件，這樣可以讓爬蟲了解爬取該網(wǎng)站時存在哪些限制。這些限制雖然僅僅作為建議給出，但是良好的網(wǎng)絡(luò)公民都應當遵守這些限制。在爬取之前，檢查robots.txt文件這一寶貴資源可以最小化爬蟲被封禁的可能，而且還能發(fā)現(xiàn)和網(wǎng)站結(jié)構(gòu)相關(guān)的線索。關(guān)于robots.txt協(xié)議的更多信息可以參見http://www.robotstxt.org。下面的代碼是我們的示例文件robots.txt中的內(nèi)容，可以訪問http://example.webscraping.com/robots.txt獲取。

    # section 1
    User-agent: BadCrawler
    Disallow: /

    # section 2
    User-agent: *
    Crawl-delay: 5
    Disallow: /trap

    # section 3
    Sitemap: http://example.webscraping.com/sitemap.xml

在section 1中，robots.txt文件禁止用戶代理為BadCrawler的爬蟲爬取該網(wǎng)站，不過這種寫法可能無法起到應有的作用，因為惡意爬蟲根本不會遵從robots.txt的要求。本章后面的一個例子將會展示如何讓爬蟲自動遵守robots.txt的要求。

section 2規(guī)定，無論使用哪種用戶代理，都應該在兩次下載請求之間給出5秒的抓取延遲，我們需要遵從該建議以避免服務(wù)器過載。這里還有一個/trap鏈接，用于封禁那些爬取了不允許鏈接的惡意爬蟲。如果你訪問了這個鏈接，服務(wù)器就會封禁你的IP一分鐘！一個真實的網(wǎng)站可能會對你的IP封禁更長時間，甚至是永久封禁。不過如果這樣設(shè)置的話，我們就無法繼續(xù)這個例子了。

section 3定義了一個Sitemap文件，我們將在下一節(jié)中了解如何檢查該文件。

3.2 檢查網(wǎng)站地圖

網(wǎng)站提供的Sitemap文件（即網(wǎng)站地圖）可以幫助爬蟲定位網(wǎng)站最新的內(nèi)容，而無須爬取每一個網(wǎng)頁。如果想要了解更多信息，可以從http://www.sitemaps.org/protocol.html獲取網(wǎng)站地圖標準的定義。下面是在robots.txt文件中發(fā)現(xiàn)的Sitemap文件的內(nèi)容。

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
      <url><loc>http://example.webscraping.com/view/Afghanistan-1
        </loc></url>
      <url><loc>http://example.webscraping.com/view/Aland-Islands-2
       </loc></url>
      <url><loc>http://example.webscraping.com/view/Albania-3</loc>
        </url>
      ...
    </urlset>

網(wǎng)站地圖提供了所有網(wǎng)頁的鏈接，我們會在后面的小節(jié)中使用這些信息，用于創(chuàng)建我們的第一個爬蟲。雖然Sitemap文件提供了一種爬取網(wǎng)站的有效方式，但是我們?nèi)孕鑼ζ渲斏魈幚恚驗樵撐募?jīng)常存在缺失、過期或不完整的問題。

3.3 估算網(wǎng)站大小

目標網(wǎng)站的大小會影響我們?nèi)绾芜M行爬取。如果是像我們的示例站點這樣只有幾百個URL的網(wǎng)站，效率并沒有那么重要；但如果是擁有數(shù)百萬個網(wǎng)頁的站點，使用串行下載可能需要持續(xù)數(shù)月才能完成，這時就需要使用第4章中介紹的分布式下載來解決了。

估算網(wǎng)站大小的一個簡便方法是檢查Google爬蟲的結(jié)果，因為Google很可能已經(jīng)爬取過我們感興趣的網(wǎng)站。我們可以通過Google搜索的site關(guān)鍵詞過濾域名結(jié)果，從而獲取該信息。我們可以從http://www.google.com/advanced_search了解到該接口及其他高級搜索參數(shù)的用法。

圖1所示為使用site關(guān)鍵詞對我們的示例網(wǎng)站進行搜索的結(jié)果，即在Google中搜索site:example.webscraping.com。

從圖1中可以看出，此時Google估算該網(wǎng)站擁有202個網(wǎng)頁，這和實際情況差不多。不過對于更大型的網(wǎng)站，我們會發(fā)現(xiàn)Google的估算并不十分準確。

在域名后面添加URL路徑，可以對結(jié)果進行過濾，僅顯示網(wǎng)站的某些部分。圖2所示為搜索site:example.webscraping.com/view的結(jié)果。該搜索條件會限制Google只搜索國家頁面。

圖1

圖2

這種附加的過濾條件非常有用，因為在理想情況下，你只希望爬取網(wǎng)站中包含有用數(shù)據(jù)的部分，而不是爬取網(wǎng)站的每個頁面。

3.4 識別網(wǎng)站所用技術(shù)

構(gòu)建網(wǎng)站所使用的技術(shù)類型也會對我們?nèi)绾闻廊‘a(chǎn)生影響。有一個十分有用的工具可以檢查網(wǎng)站構(gòu)建的技術(shù)類型——builtwith模塊。該模塊的安裝方法如下。

    pip install builtwith

該模塊將URL作為參數(shù)，下載該URL并對其進行分析，然后返回該網(wǎng)站使用的技術(shù)。下面是使用該模塊的一個例子。

    >>> import builtwith
    >>> builtwith.parse('http://example.webscraping.com')
    {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'],
     u'programming-languages': [u'Python'],
     u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'],
     u'web-servers': [u'Nginx']}

從上面的返回結(jié)果中可以看出，示例網(wǎng)站使用了Python的Web2py框架，另外還使用了一些通用的JavaScript庫，因此該網(wǎng)站的內(nèi)容很有可能是嵌入在HTML中的，相對而言比較容易抓取。而如果改用AngularJS構(gòu)建該網(wǎng)站，此時的網(wǎng)站內(nèi)容就很可能是動態(tài)加載的。另外，如果網(wǎng)站使用了ASP.NET，那么在爬取網(wǎng)頁時，就必須要用到會話管理和表單提交了。

3.5 尋找網(wǎng)站所有者

對于一些網(wǎng)站，我們可能會關(guān)心其所有者是誰。比如，我們已知網(wǎng)站的所有者會封禁網(wǎng)絡(luò)爬蟲，那么我們最好把下載速度控制得更加保守一些。為了找到網(wǎng)站的所有者，我們可以使用WHOIS協(xié)議查詢域名的注冊者是誰。Python中有一個針對該協(xié)議的封裝庫，其文檔地址為https://pypi.python.org/pypi/python-whois，我們可以通過pip進行安裝。

    pip install python-whois

下面是使用該模塊對appspot.com這個域名進行WHOIS查詢時的返回結(jié)果。

    >>> import whois
    >>> print whois.whois('appspot.com')
    {
      ...
      "name_servers": [
        "NS1.GOOGLE.COM",
        "NS2.GOOGLE.COM",
        "NS3.GOOGLE.COM",
        "NS4.GOOGLE.COM",
        "ns4.google.com",
        "ns2.google.com",
        "ns1.google.com",
        "ns3.google.com"
      ],
    "org": "Google Inc.",
    "emails": [
        "abusecomplaints@markmonitor.com",
        "dns-admin@google.com"
      ]
    }

從結(jié)果中可以看出該域名歸屬于Google，實際上也確實如此。該域名是用于Google App Engine服務(wù)的。當我們爬取該域名時就需要十分小心，因為Google經(jīng)常會阻斷網(wǎng)絡(luò)爬蟲，盡管實際上其自身就是一個網(wǎng)絡(luò)爬蟲業(yè)務(wù)。

4. 編寫第一個網(wǎng)絡(luò)爬蟲

為了抓取網(wǎng)站，我們首先需要下載包含有感興趣數(shù)據(jù)的網(wǎng)頁，該過程一般被稱為爬取（crawling）。爬取一個網(wǎng)站有很多種方法，而選用哪種方法更加合適，則取決于目標網(wǎng)站的結(jié)構(gòu)。我們首先會探討如何安全地下載網(wǎng)頁，然后會介紹如下3種爬取網(wǎng)站的常見方法：

爬取網(wǎng)站地圖；
遍歷每個網(wǎng)頁的數(shù)據(jù)庫ID；
跟蹤網(wǎng)頁鏈接。

4.1 下載網(wǎng)頁

要想爬取網(wǎng)頁，我們首先需要將其下載下來。下面的示例腳本使用Python的urllib2模塊下載URL。

    import urllib2
    def download(url):
        return urllib2.urlopen(url).read()

當傳入URL參數(shù)時，該函數(shù)將會下載網(wǎng)頁并返回其HTML。不過，這個代碼片段存在一個問題，即當下載網(wǎng)頁時，我們可能會遇到一些無法控制的錯誤，比如請求的頁面可能不存在。此時，urllib2會拋出異常，然后退出腳本。安全起見，下面再給出一個更健壯的版本，可以捕獲這些異常。

    import urllib2

    def download(url):
        print 'Downloading:', url
        try:
            html = urllib2.urlopen(url).read()
        except urllib2.URLError as e:
            print 'Download error:', e.reason
            html = None
        return html

現(xiàn)在，當出現(xiàn)下載錯誤時，該函數(shù)能夠捕獲到異常，然后返回None。

1．重試下載

下載時遇到的錯誤經(jīng)常是臨時性的，比如服務(wù)器過載時返回的503 Service Unavailable錯誤。對于此類錯誤，我們可以嘗試重新下載，因為這個服務(wù)器問題現(xiàn)在可能已解決。不過，我們不需要對所有錯誤都嘗試重新下載。如果服務(wù)器返回的是404 Not Found這種錯誤，則說明該網(wǎng)頁目前并不存在，再次嘗試同樣的請求一般也不會出現(xiàn)不同的結(jié)果。

互聯(lián)網(wǎng)工程任務(wù)組（Internet Engineering Task Force）定義了HTTP錯誤的完整列表，詳情可參考https://tools.ietf.org/html/rfc7231#section-6。從該文檔中，我們可以了解到4xx錯誤發(fā)生在請求存在問題時，而5xx錯誤則發(fā)生在服務(wù)端存在問題時。所以，我們只需要確保download函數(shù)在發(fā)生5xx錯誤時重試下載即可。下面是支持重試下載功能的新版本代碼。

    def download(url, num_retries=2):
        print 'Downloading:', url
        try:
            html = urllib2.urlopen(url).read()
        except urllib2.URLError as e:
            print 'Download error:', e.reason
            html = None
            if num_retries > 0:
                if hasattr(e, 'code') and 500 <= e.code < 600:
                    # recursively retry 5xx HTTP errors
                    return download(url, num_retries-1)
        return html

現(xiàn)在，當download函數(shù)遇到5xx錯誤碼時，將會遞歸調(diào)用函數(shù)自身進行重試。此外，該函數(shù)還增加了一個參數(shù)，用于設(shè)定重試下載的次數(shù)，其默認值為兩次。我們在這里限制網(wǎng)頁下載的嘗試次數(shù)，是因為服務(wù)器錯誤可能暫時還沒有解決。想要測試該函數(shù)，可以嘗試下載http://httpstat.us/500，該網(wǎng)址會始終返回500錯誤碼。

>>> download('http://httpstat.us/500')
Downloading: http://httpstat.us/500
Download error: Internal Server Error
Downloading: http://httpstat.us/500
Download error: Internal Server Error
Downloading: http://httpstat.us/500
Download error: Internal Server Error

從上面的返回結(jié)果可以看出，download函數(shù)的行為和預期一致，先嘗試下載網(wǎng)頁，在接收到500錯誤后，又進行了兩次重試才放棄。

2．設(shè)置用戶代理

默認情況下，urllib2使用Python-urllib/2.7作為用戶代理下載網(wǎng)頁內(nèi)容，其中2.7是Python的版本號。如果能使用可辨識的用戶代理則更好，這樣可以避免我們的網(wǎng)絡(luò)爬蟲碰到一些問題。此外，也許是因為曾經(jīng)歷過質(zhì)量不佳的Python網(wǎng)絡(luò)爬蟲造成的服務(wù)器過載，一些網(wǎng)站還會封禁這個默認的用戶代理。比如，在使用Python默認用戶代理的情況下，訪問http://www.meetup.com/，目前會返回如圖3所示的訪問拒絕提示。

圖3

因此，為了下載更加可靠，我們需要控制用戶代理的設(shè)定。下面的代碼對download函數(shù)進行了修改，設(shè)定了一個默認的用戶代理“wswp”（即Web Scraping with Python的首字母縮寫）。

    def download(url, user_agent='wswp', num_retries=2):
        print 'Downloading:', url
        headers = {'User-agent': user_agent}
        request = urllib2.Request(url, headers=headers)
        try:
            html = urllib2.urlopen(request).read()
        except urllib2.URLError as e:
            print 'Download error:', e.reason
            html = None
            if num_retries > 0:
                if hasattr(e, 'code') and 500 <= e.code < 600:
                    # retry 5XX HTTP errors
                    return download(url, user_agent, num_retries-1)
        return html

現(xiàn)在，我們擁有了一個靈活的下載函數(shù)，可以在后續(xù)示例中得到復用。該函數(shù)能夠捕獲異常、重試下載并設(shè)置用戶代理。

4.2 網(wǎng)站地圖爬蟲

在第一個簡單的爬蟲中，我們將使用示例網(wǎng)站robots.txt文件中發(fā)現(xiàn)的網(wǎng)站地圖來下載所有網(wǎng)頁。為了解析網(wǎng)站地圖，我們將會使用一個簡單的正則表達式，從<loc>標簽中提取出URL。下面是該示例爬蟲的代碼。

    def crawl_sitemap(url):
        # download the sitemap file
        sitemap = download(url)
        # extract the sitemap links
        links = re.findall('<loc>(.*?)</loc>', sitemap)
        # download each link
        for link in links:
            html = download(link)
            # scrape html here
            # ...

現(xiàn)在，運行網(wǎng)站地圖爬蟲，從示例網(wǎng)站中下載所有國家頁面。

>>> crawl_sitemap('http://example.webscraping.com/sitemap.xml')
Downloading: http://example.webscraping.com/sitemap.xml
Downloading: http://example.webscraping.com/view/Afghanistan-1
Downloading: http://example.webscraping.com/view/Aland-Islands-2
Downloading: http://example.webscraping.com/view/Albania-3
...

可以看出，上述運行結(jié)果和我們的預期一致，不過正如前文所述，我們無法依靠Sitemap文件提供每個網(wǎng)頁的鏈接。下面我們將會介紹另一個簡單的爬蟲，該爬蟲不再依賴于Sitemap文件。

4.3 ID遍歷爬蟲

本節(jié)中，我們將利用網(wǎng)站結(jié)構(gòu)的弱點，更加輕松地訪問所有內(nèi)容。下面是一些示例國家的URL。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Australia-2
http://example.webscraping.com/view/Brazil-3

可以看出，這些URL只在結(jié)尾處有所區(qū)別，包括國家名（作為頁面別名）和ID。在URL中包含頁面別名是非常普遍的做法，可以對搜索引擎優(yōu)化起到幫助作用。一般情況下，Web服務(wù)器會忽略這個字符串，只使用ID來匹配數(shù)據(jù)庫中的相關(guān)記錄。下面我們將其移除，加載http://example.webscraping.com/view/1，測試示例網(wǎng)站中的鏈接是否仍然可用。測試結(jié)果如圖4所示。

圖4

從圖4中可以看出，網(wǎng)頁依然可以加載成功，也就是說該方法是有用的。現(xiàn)在，我們就可以忽略頁面別名，只遍歷ID來下載所有國家的頁面。下面是使用了該技巧的代碼片段。

    import itertools
    for page in itertools.count(1):
        url = 'http://example.webscraping.com/view/-%d' % page
        html = download(url)
        if html is None:
            break
        else:
            # success - can scrape the result
            pass

在這段代碼中，我們對ID進行遍歷，直到出現(xiàn)下載錯誤時停止，我們假設(shè)此時已到達最后一個國家的頁面。不過，這種實現(xiàn)方式存在一個缺陷，那就是某些記錄可能已被刪除，數(shù)據(jù)庫ID之間并不是連續(xù)的。此時，只要訪問到某個間隔點，爬蟲就會立即退出。下面是這段代碼的改進版本，在該版本中連續(xù)發(fā)生多次下載錯誤后才會退出程序。

    # maximum number of consecutive download errors allowed
    max_errors = 5
    # current number of consecutive download errors
    num_errors = 0
    for page in itertools.count(1):
        url = 'http://example.webscraping.com/view/-%d' % page
        html = download(url)
        if html is None:
            # received an error trying to download this webpage
            num_errors += 1
            if num_errors == max_errors:
                # reached maximum number of
                # consecutive errors so exit
                break
        else:
            # success - can scrape the result
            # ...
            num_errors = 0

上面代碼中實現(xiàn)的爬蟲需要連續(xù)5次下載錯誤才會停止遍歷，這樣就很大程度上降低了遇到被刪除記錄時過早停止遍歷的風險。

在爬取網(wǎng)站時，遍歷ID是一個很便捷的方法，但是和網(wǎng)站地圖爬蟲一樣，這種方法也無法保證始終可用。比如，一些網(wǎng)站會檢查頁面別名是否滿足預期，如果不是，則會返回404 Not Found錯誤。而另一些網(wǎng)站則會使用非連續(xù)大數(shù)作為ID，或是不使用數(shù)值作為ID，此時遍歷就難以發(fā)揮其作用了。例如，Amazon使用ISBN作為圖書ID，這種編碼包含至少10位數(shù)字。使用ID對Amazon的圖書進行遍歷需要測試數(shù)十億次，因此這種方法肯定不是抓取該站內(nèi)容最高效的方法。

4.4 鏈接爬蟲

到目前為止，我們已經(jīng)利用示例網(wǎng)站的結(jié)構(gòu)特點實現(xiàn)了兩個簡單爬蟲，用于下載所有的國家頁面。只要這兩種技術(shù)可用，就應當使用其進行爬取，因為這兩種方法最小化了需要下載的網(wǎng)頁數(shù)量。不過，對于另一些網(wǎng)站，我們需要讓爬蟲表現(xiàn)得更像普通用戶，跟蹤鏈接，訪問感興趣的內(nèi)容。

通過跟蹤所有鏈接的方式，我們可以很容易地下載整個網(wǎng)站的頁面。但是，這種方法會下載大量我們并不需要的網(wǎng)頁。例如，我們想要從一個在線論壇中抓取用戶賬號詳情頁，那么此時我們只需要下載賬號頁，而不需要下載討論貼的頁面。本文中的鏈接爬蟲將使用正則表達式來確定需要下載哪些頁面。下面是這段代碼的初始版本。

    import re

    def link_crawler(seed_url, link_regex):
        """Crawl from the given seed URL following links matched by link_regex
        """
        crawl_queue = [seed_url]
        while crawl_queue:
            url = crawl_queue.pop()
            html = download(url)
            # filter for links matching our regular expression
            for link in get_links(html):
                if re.match(link_regex, link):
                    crawl_queue.append(link)

    def get_links(html):
        """Return a list of links from html
        """
        # a regular expression to extract all links from the webpage
        webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']',
            re.IGNORECASE)
        # list of all links from the webpage
        return webpage_regex.findall(html)

要運行這段代碼，只需要調(diào)用link_crawler函數(shù)，并傳入兩個參數(shù)：要爬取的網(wǎng)站URL和用于跟蹤鏈接的正則表達式。對于示例網(wǎng)站，我們想要爬取的是國家列表索引頁和國家頁面。其中，索引頁鏈接格式如下。

http://example.webscraping.com/index/1
http://example.webscraping.com/index/2

國家頁鏈接格式如下。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Aland-Islands-2

因此，我們可以用/(index|view)/這個簡單的正則表達式來匹配這兩類網(wǎng)頁。當爬蟲使用這些輸入?yún)?shù)運行時會發(fā)生什么呢？你會發(fā)現(xiàn)我們得到了如下的下載錯誤。

    >>> link_crawler('http://example.webscraping.com',
        '/(index|view)')
    Downloading: http://example.webscraping.com
    Downloading: /index/1
    Traceback (most recent call last):
        ...
    ValueError: unknown url type: /index/1

可以看出，問題出在下載/index/1時，該鏈接只有網(wǎng)頁的路徑部分，而沒有協(xié)議和服務(wù)器部分，也就是說這是一個相對鏈接。由于瀏覽器知道你正在瀏覽哪個網(wǎng)頁，所以在瀏覽器瀏覽時，相對鏈接是能夠正常工作的。但是，urllib2是無法獲知上下文的。為了讓urllib2能夠定位網(wǎng)頁，我們需要將鏈接轉(zhuǎn)換為絕對鏈接的形式，以便包含定位網(wǎng)頁的所有細節(jié)。如你所愿，Python中確實有用來實現(xiàn)這一功能的模塊，該模塊稱為urlparse。下面是link_crawler的改進版本，使用了urlparse模塊來創(chuàng)建絕對路徑。

    import urlparse
    def link_crawler(seed_url, link_regex):
        """Crawl from the given seed URL following links matched by link_regex
        """
        crawl_queue = [seed_url]
        while crawl_queue:
            url = crawl_queue.pop()
            html = download(url)
            for link in get_links(html):
                if re.match(link_regex, link):
                    link = urlparse.urljoin(seed_url, link)
                    crawl_queue.append(link)

當你運行這段代碼時，會發(fā)現(xiàn)雖然網(wǎng)頁下載沒有出現(xiàn)錯誤，但是同樣的地點總是會被不斷下載到。這是因為這些地點相互之間存在鏈接。比如，澳大利亞鏈接到了南極洲，而南極洲也存在到澳大利亞的鏈接，此時爬蟲就會在它們之間不斷循環(huán)下去。要想避免重復爬取相同的鏈接，我們需要記錄哪些鏈接已經(jīng)被爬取過。下面是修改后的link_crawler函數(shù)，已具備存儲已發(fā)現(xiàn)URL的功能，可以避免重復下載。

    def link_crawler(seed_url, link_regex):
        crawl_queue = [seed_url]
        # keep track which URL's have seen before
        seen = set(crawl_queue)
        while crawl_queue:
            url = crawl_queue.pop()
            html = download(url)
            for link in get_links(html):
                # check if link matches expected regex
                if re.match(link_regex, link):
                    # form absolute link
                    link = urlparse.urljoin(seed_url, link)
                    # check if have already seen this link
                    if link not in seen:
                        seen.add(link)
                        crawl_queue.append(link)

當運行該腳本時，它會爬取所有地點，并且能夠如期停止。最終，我們得到了一個可用的爬蟲！

高級功能

現(xiàn)在，讓我們?yōu)殒溄优老x添加一些功能，使其在爬取其他網(wǎng)站時更加有用。

解析robots.txt

首先，我們需要解析robots.txt文件，以避免下載禁止爬取的URL。使用Python自帶的robotparser模塊，就可以輕松完成這項工作，如下面的代碼所示。

>>> import robotparser
>>> rp = robotparser.RobotFileParser()
>>> rp.set_url('http://example.webscraping.com/robots.txt')
>>> rp.read()
>>> url = 'http://example.webscraping.com'
>>> user_agent = 'BadCrawler'
>>> rp.can_fetch(user_agent, url)
False
>>> user_agent = 'GoodCrawler'
>>> rp.can_fetch(user_agent, url)
True

robotparser模塊首先加載robots.txt文件，然后通過can_fetch()函數(shù)確定指定的用戶代理是否允許訪問網(wǎng)頁。在本例中，當用戶代理設(shè)置為 BadCrawler 時，robotparser模塊會返回結(jié)果表明無法獲取網(wǎng)頁，這和示例網(wǎng)站robots.txt的定義一樣。

為了將該功能集成到爬蟲中，我們需要在crawl循環(huán)中添加該檢查。

    ...
    while crawl_queue:
        url = crawl_queue.pop()
        # check url passes robots.txt restrictions
        if rp.can_fetch(user_agent, url):
            ...
        else:
            print 'Blocked by robots.txt:', url

支持代理

有時我們需要使用代理訪問某個網(wǎng)站。比如，Netflix屏蔽了美國以外的大多數(shù)國家。使用urllib2支持代理并沒有想象中那么容易（可以嘗試使用更友好的Python HTTP模塊requests來實現(xiàn)該功能，其文檔地址為http://docs.python-requests.org/）。下面是使用urllib2支持代理的代碼。

    proxy = ...
    opener = urllib2.build_opener()
    proxy_params = {urlparse.urlparse(url).scheme: proxy}
    opener.add_handler(urllib2.ProxyHandler(proxy_params))
    response = opener.open(request)

下面是集成了該功能的新版本download函數(shù)。

    def download(url, user_agent='wswp', proxy=None, num_retries=2):
        print 'Downloading:', url
        headers = {'User-agent': user_agent}
        request = urllib2.Request(url, headers=headers)

        opener = urllib2.build_opener()
        if proxy:
            proxy_params = {urlparse.urlparse(url).scheme: proxy}
            opener.add_handler(urllib2.ProxyHandler(proxy_params))
        try:
            html = opener.open(request).read()
        except urllib2.URLError as e:
            print 'Download error:', e.reason
            html = None
            if num_retries > 0:
                if hasattr(e, 'code') and 500 <= e.code < 600:
                # retry 5XX HTTP errors
                html = download(url, user_agent, proxy,
                    num_retries-1)
        return html

下載限速

如果我們爬取網(wǎng)站的速度過快，就會面臨被封禁或是造成服務(wù)器過載的風險。為了降低這些風險，我們可以在兩次下載之間添加延時，從而對爬蟲限速。下面是實現(xiàn)了該功能的類的代碼。

    class Throttle:
        """Add a delay between downloads to the same domain
        """
        def __init__(self, delay):
            # amount of delay between downloads for each domain
            self.delay = delay
            # timestamp of when a domain was last accessed
            self.domains = {}

        def wait(self, url):
            domain = urlparse.urlparse(url).netloc
            last_accessed = self.domains.get(domain)

            if self.delay > 0 and last_accessed is not None:
                sleep_secs = self.delay - (datetime.datetime.now() -
                    last_accessed).seconds
                if sleep_secs > 0:
                    # domain has been accessed recently
                    # so need to sleep
                    time.sleep(sleep_secs)
            # update the last accessed time
            self.domains[domain] = datetime.datetime.now()

Throttle類記錄了每個域名上次訪問的時間，如果當前時間距離上次訪問時間小于指定延時，則執(zhí)行睡眠操作。我們可以在每次下載之前調(diào)用Throttle對爬蟲進行限速。

    throttle = Throttle(delay)
    ...
    throttle.wait(url)
    result = download(url, headers, proxy=proxy,
        num_retries=num_retries)

避免爬蟲陷阱

目前，我們的爬蟲會跟蹤所有之前沒有訪問過的鏈接。但是，一些網(wǎng)站會動態(tài)生成頁面內(nèi)容，這樣就會出現(xiàn)無限多的網(wǎng)頁。比如，網(wǎng)站有一個在線日歷功能，提供了可以訪問下個月和下一年的鏈接，那么下個月的頁面中同樣會包含訪問再下個月的鏈接，這樣頁面就會無止境地鏈接下去。這種情況被稱為爬蟲陷阱。

想要避免陷入爬蟲陷阱，一個簡單的方法是記錄到達當前網(wǎng)頁經(jīng)過了多少個鏈接，也就是深度。當?shù)竭_最大深度時，爬蟲就不再向隊列中添加該網(wǎng)頁中的鏈接了。要實現(xiàn)這一功能，我們需要修改seen變量。該變量原先只記錄訪問過的網(wǎng)頁鏈接，現(xiàn)在修改為一個字典，增加了頁面深度的記錄。

    def link_crawler(..., max_depth=2):
        max_depth = 2
        seen = {}
        ...
        depth = seen[url]
        if depth != max_depth:
            for link in links:
                if link not in seen:
                    seen[link] = depth + 1
                    crawl_queue.append(link)

現(xiàn)在有了這一功能，我們就有信心爬蟲最終一定能夠完成。如果想要禁用該功能，只需將max_depth設(shè)為一個負數(shù)即可，此時當前深度永遠不會與之相等。

最終版本

這個高級鏈接爬蟲的完整源代碼可以在https://bitbucket.org/ wswp/code/src/tip/chapter01/link_crawler3.py下載得到。要測試這段代碼，我們可以將用戶代理設(shè)置為BadCrawler，也就是本章前文所述的被robots.txt屏蔽了的那個用戶代理。從下面的運行結(jié)果中可以看出，爬蟲果然被屏蔽了，代碼啟動后馬上就會結(jié)束。

>>> seed_url = 'http://example.webscraping.com/index'
>>> link_regex = '/(index|view)'
>>> link_crawler(seed_url, link_regex, user_agent='BadCrawler')
Blocked by robots.txt: http://example.webscraping.com/

現(xiàn)在，讓我們使用默認的用戶代理，并將最大深度設(shè)置為1，這樣只有主頁上的鏈接才會被下載。

>>> link_crawler(seed_url, link_regex, max_depth=1)
Downloading: http://example.webscraping.com//index
Downloading: http://example.webscraping.com/index/1
Downloading: http://example.webscraping.com/view/Antigua-and-Barbuda-10
Downloading: http://example.webscraping.com/view/Antarctica-9
Downloading: http://example.webscraping.com/view/Anguilla-8
Downloading: http://example.webscraping.com/view/Angola-7
Downloading: http://example.webscraping.com/view/Andorra-6
Downloading: http://example.webscraping.com/view/American-Samoa-5
Downloading: http://example.webscraping.com/view/Algeria-4
Downloading: http://example.webscraping.com/view/Albania-3
Downloading: http://example.webscraping.com/view/Aland-Islands-2
Downloading: http://example.webscraping.com/view/Afghanistan-1

和預期一樣，爬蟲在下載完國家列表的第一頁之后就停止了。

本文節(jié)選自《用Python寫網(wǎng)絡(luò)爬蟲》

本書講解了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序，內(nèi)容包括網(wǎng)絡(luò)爬蟲簡介，從頁面中抓取數(shù)據(jù)的三種方法，提取緩存中的數(shù)據(jù)，使用多個線程和進程來進行并發(fā)抓取，如何抓取動態(tài)頁面中的內(nèi)容，與表單進行交互，處理頁面中的驗證碼問題，以及使用Scarpy和Portia來進行數(shù)據(jù)抓取，并在最后使用本書介紹的數(shù)據(jù)抓取技術(shù)對幾個真實的網(wǎng)站進行了抓取，旨在幫助讀者活學活用書中介紹的技術(shù)。

本書適合有一定Python編程經(jīng)驗，而且對爬蟲技術(shù)感興趣的讀者閱讀。

019年4月26日中午12.30左右，Axure RP 9.0 正式放出下載，最新版本號為 9.0.0.3646

Axure RP是產(chǎn)品規(guī)劃、原型化和交付給開發(fā)人員的最強大的方式，所有這些都沒有代碼。

https://www.axure.com/download

若網(wǎng)絡(luò)速度不佳，建議下載人人都是產(chǎn)品經(jīng)理社區(qū)官方分流（騰訊微云），含Windows版本和Mac版本：

鏈接：https://share.weiyun.com/5DBpLVH

（本鏈接含Windows版本和Mac版本Axure 9.0 正式版安裝包，及漢化文件）

Axure操作不熟練，做出的原型不標準，無法做出高保真的朋友~也可以看看這里 http://996.pm/7djKO

Axure 9 漢化方法（請仔細閱讀）：

首先退出正在運行中的 Axure (如果您正在使用)

將 Axure9正式版漢化及激活文件.rar 文件解壓, 得到 lang 文件夾及三個dll文件、1個激活碼的txt文件。將 lang 文件夾及三個dll文件復制到 Axure 安裝目錄（Axure 安裝目錄默認是沒有l(wèi)ang文件夾的，需要手動拷貝進去）：

1. Windows版漢化方法：

① 將 lang 文件夾及三個dll文件復制到 Axure 安裝目錄，漢化后的目錄結(jié)構(gòu)類似（僅限安裝時為默認地址，如有更換安裝目錄，以安裝目錄為準）：

c:/Program Files/Axure/Axure RP 9/（32位系統(tǒng)）
c:/Program Files (x86)/Axure/Axure RP 9/（64位系統(tǒng)）

② 如成功漢化，則啟動 Axure 可看到簡體中文界面；如果仍為英文界面，則一定是漢化文件位置不正確。

2. Mac版漢化方法：

① 在應用程序文件夾里找到Axure RP 9.app程序，然后右鍵選擇“顯示包內(nèi)容”，然后依次打開Contents/Resources文件夾

② 將 lang 文件夾及三個dll文件復制到這個目錄下即可;

③ 如成功漢化，則啟動 Axure 可看到簡體中文界面；如果仍為英文則一定是漢化文件位置不正確。

Axure 9.0 全新特性

突破性解決方案始于明確定義的問題

無論您是創(chuàng)建圖表，客戶旅程還是線框，Axure RP都可以幫助您記錄問題并讓每個人都在同一頁面上。

連接器模式
切片和裁剪圖像
流形狀庫

適合任何項目的強大原型設(shè)計

使用原型來測試設(shè)計并與其他人進行驗證對于做出更好的設(shè)計決策是非常寶貴的。Axure RP可讓您快速制作豐富的功能原型，以便即使在最緊急的項目中也能做出明智的選擇。

動態(tài)內(nèi)容
條件邏輯
自適應視圖

分析和設(shè)計的完美結(jié)合

當深思熟慮的解決問題和細心的設(shè)計融合在一起時，就會創(chuàng)造出最好的體驗。Axure RP將強大的設(shè)計工具，SVG導入和Sketch集成與世界一流的原型設(shè)計相結(jié)合，讓您可以為利益相關(guān)者和客戶帶來驚喜。

從Sketch資產(chǎn)構(gòu)建交互
SVG導入
動畫效果

通過發(fā)展彌合差距

完整，易于理解的規(guī)范使開發(fā)人員能夠提供與設(shè)計相匹配的產(chǎn)品。將Axure RP文件發(fā)布到Axure Cloud，并提供完整的圖片，包括文檔，原型和可視化設(shè)計，以及自動紅線和代碼導出。

完整文檔
自動紅線
代碼導出

新特性：使用Axure Cloud簡化您的產(chǎn)品設(shè)計工作流程

輕松共享Axure RP原型和Sketch畫板，并在屏幕上收集反饋。
檢查布局，獲取CSS片段并下載資源。
通過電子郵件，Slack或Microsoft團隊獲取有關(guān)最新更改和討論的通知。
創(chuàng)建團隊項目，以便多個用戶可以同時在單個Axure RP文件中制作圖表，構(gòu)建原型和探索設(shè)計。
在Axure Cloud中快速將靜態(tài)圖像轉(zhuǎn)換為交互式原型。

本漢化文件及激活密鑰由人人都是產(chǎn)品經(jīng)理粉絲 @老貓友情提供

在線咨詢

上一篇：CSS 自定義滾動條和強制顯示
下一篇：C# CEFSharp WPF開發(fā)桌面程序?qū)崿F(xiàn)“同一網(wǎng)站多開”

您的項目需求

*請認真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商