Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 中文字幕永久在线视频,国产精品高清视亚洲精品,亚洲高清在线

          整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          6個強大且流行的Python爬蟲庫,強烈推薦!

          ython中有非常多用于網絡數據采集的庫,功能非常強大,有的用于抓取網頁,有的用于解析網頁,這里介紹6個最常用的庫。

          1. BeautifulSoup

          BeautifulSoup是最常用的Python網頁解析庫之一,可將 HTML 和 XML 文檔解析為樹形結構,能更方便地識別和提取數據。

          BeautifulSoup可以自動將輸入文檔轉換為 Unicode,將輸出文檔轉換為 UTF-8。此外,你還可以設置 BeautifulSoup 掃描整個解析頁面,識別所有重復的數據(例如,查找文檔中的所有鏈接),只需幾行代碼就能自動檢測特殊字符等編碼。

          from bs4 import BeautifulSoup  
            
          # 假設這是我們從某個網頁獲取的HTML內容(這里直接以字符串形式給出)  
          html_content = """  
          <html>  
          <head>  
              <title>示例網頁</title>  
          </head>  
          <body>  
              <h1>歡迎來到BeautifulSoup示例</h1>  
              <p class="introduction">這是一個關于BeautifulSoup的簡單示例。</p>  
              <a href="https://www.example.com/about" class="link">關于我們</a>  
          </body>  
          </html>  
          """  
            
          # 使用BeautifulSoup解析HTML內容,這里默認使用Python的html.parser作為解析器  
          # 你也可以指定其他解析器,如'lxml'或'html5lib',但需要先安裝它們  
          soup = BeautifulSoup(html_content, 'html.parser')  
            
          # 提取并打印<title>標簽的文本內容  
          print("網頁標題:", soup.title.string)  # 網頁標題: 示例網頁  
            
          # 提取并打印<p>標簽的文本內容,這里使用class屬性來定位  
          print("介紹內容:", soup.find('p', class_='introduction').string)  # 介紹內容: 這是一個關于BeautifulSoup的簡單示例。  
            
          # 提取并打印<a>標簽的href屬性和文本內容  
          link = soup.find('a', class_='link')  
          print("鏈接地址:", link['href'])  # 鏈接地址: https://www.example.com/about  
          print("鏈接文本:", link.string)  # 鏈接文本: 關于我們  
            
          # 注意:如果HTML內容中包含多個相同條件的標簽,你可以使用find_all()來獲取它們的一個列表  
          # 例如,要獲取所有<a>標簽的href屬性,可以這樣做:  
          all_links = [a['href'] for a in soup.find_all('a')]  
          print("所有鏈接地址:", all_links)  # 假設HTML中有多個<a>標簽,這里將列出它們的href屬性  
          # 注意:上面的all_links列表在當前的HTML內容中只有一個元素,因為只有一個<a>標簽
          

          2. Scrapy

          Scrapy是一個流行的高級爬蟲框架,可快速高效地抓取網站并從其頁面中提取結構化數據。

          由于 Scrapy 主要用于構建復雜的爬蟲項目,并且它通常與項目文件結構一起使用

          Scrapy 不僅僅是一個庫,還可以用于各種任務,包括監控、自動測試和數據挖掘。這個 Python 庫包含一個內置的選擇器(Selectors)功能,可以快速異步處理請求并從網站中提取數據。

          # 假設這個文件名為 my_spider.py,但它實際上應該放在 Scrapy 項目的 spiders 文件夾中  
            
          import scrapy  
            
          class MySpider(scrapy.Spider):  
              # Spider 的名稱,必須是唯一的  
              name = 'example_spider'  
            
              # 允許爬取的域名列表(可選)  
              # allowed_domains = ['example.com']  
            
              # 起始 URL 列表  
              start_urls = [  
                  'http://example.com/',  
              ]  
            
              def parse(self, response):  
                  # 這個方法用于處理每個響應  
                  # 例如,我們可以提取網頁的標題  
                  title = response.css('title::text').get()  
                  if title:  
                      # 打印標題(在控制臺輸出)  
                      print(f'Title: {title}')  
            
                  # 你還可以繼續爬取頁面中的其他鏈接,這里只是簡單示例  
                  # 例如,提取所有鏈接并請求它們  
                  # for href in response.css('a::attr(href)').getall():  
                  #     yield scrapy.Request(url=response.urljoin(href), callback=self.parse)  
            
          # 注意:上面的代碼只是一個 Spider 類的定義。  
          # 要運行這個 Spider,你需要將它放在一個 Scrapy 項目中,并使用 scrapy crawl 命令來啟動爬蟲。  
          # 例如,如果你的 Scrapy 項目名為 myproject,并且你的 Spider 文件名為 my_spider.py,  
          # 那么你應該在項目根目錄下運行以下命令:  
          # scrapy crawl example_spider
          

          3. Selenium

          Selenium 是一款基于瀏覽器地自動化程序庫,可以抓取網頁數據。它能在 JavaScript 渲染的網頁上高效運行,這在其他 Python 庫中并不多見。

          在開始使用 Python 處理 Selenium 之前,需要先使用 Selenium Web 驅動程序創建功能測試用例。

          Selenium 庫能很好地與任何瀏覽器(如 Firefox、Chrome、IE 等)配合進行測試,比如表單提交、自動登錄、數據添加/刪除和警報處理等。

          from selenium import webdriver  
          from selenium.webdriver.common.keys import Keys  
          from selenium.webdriver.common.by import By  
          from selenium.webdriver.support.ui import WebDriverWait  
          from selenium.webdriver.support import expected_conditions as EC  
            
          # 設置WebDriver的路徑(根據你的系統路徑和WebDriver版本修改)  
          driver_path = '/path/to/your/chromedriver'  
            
          # 初始化WebDriver  
          driver = webdriver.Chrome(executable_path=driver_path)  
            
          try:  
              # 打開網頁  
              driver.get('https://www.example.com')  
            
              # 等待頁面加載完成(這里使用隱式等待,針對所有元素)  
              # 注意:隱式等待可能會影響性能,通常在腳本開始時設置一次  
              driver.implicitly_wait(10)  # 秒  
            
              # 查找并輸入文本到搜索框(假設搜索框有一個特定的ID或類名等)  
              # 這里以ID為'search'的輸入框為例  
              search_box = driver.find_element(By.ID, 'search')  
              search_box.send_keys('Selenium WebDriver')  
            
              # 提交搜索(假設搜索按鈕是一個類型為submit的按鈕或是一個可以點擊的輸入框)  
              # 如果搜索是通過按Enter鍵觸發的,可以直接在search_box上使用send_keys(Keys.ENTER)  
              # 這里假設有一個ID為'submit'的按鈕  
              submit_button = driver.find_element(By.ID, 'submit')  
              submit_button.click()  
            
              # 等待搜索結果加載完成(這里使用顯式等待作為示例)  
              # 假設搜索結果頁面有一個特定的元素,我們等待它出現  
              wait = WebDriverWait(driver, 10)  # 等待最多10秒  
              element = wait.until(EC.presence_of_element_located((By.ID, 'results')))  
            
              # 執行其他操作...  
            
          finally:  
              # 關閉瀏覽器  
              driver.quit()
          

          4. requests

          不用多說,requests 是 Python 中一個非常流行的第三方庫,用于發送各種 HTTP 請求。它簡化了 HTTP 請求的發送過程,使得從網頁獲取數據變得非常簡單和直觀。

          requests 庫提供了豐富的功能和靈活性,支持多種請求類型(如 GET、POST、PUT、DELETE 等),可以發送帶有參數、頭信息、文件等的請求,并且能夠處理復雜的響應內容(如 JSON、XML 等)。

          import requests  
            
          # 目標URL  
          url = 'https://httpbin.org/get'  
            
          # 發送GET請求  
          response = requests.get(url)  
            
          # 檢查請求是否成功  
          if response.status_code == 200:  
              # 打印響應內容  
              print(response.text)  
          else:  
              # 打印錯誤信息  
              print(f'請求失敗,狀態碼:{response.status_code}')
          

          5. urllib3

          urllib3 是 Python內置網頁請求庫,類似于 Python 中的requests庫,主要用于發送HTTP請求和處理HTTP響應。它建立在Python標準庫的urllib模塊之上,但提供了更高級別、更健壯的API。

          urllib3可以用于處理簡單身份驗證、cookie 和代理等復雜任務。

          import urllib3  
            
          # 創建一個HTTP連接池  
          http = urllib3.PoolManager()  
            
          # 目標URL  
          url = 'https://httpbin.org/get'  
            
          # 使用連接池發送GET請求  
          response = http.request('GET', url)  
            
          # 檢查響應狀態碼  
          if response.status == 200:  
              # 打印響應內容(注意:urllib3默認返回的是bytes類型,這里我們將其解碼為str)  
              print(response.data.decode('utf-8'))  
          else:  
              # 如果響應狀態碼不是200,則打印錯誤信息  
              print(f'請求失敗,狀態碼:{response.status}')  
            
          # 注意:urllib3沒有直接的方法來處理JSON響應,但你可以使用json模塊來解析  
          # 如果響應內容是JSON,你可以這樣做:  
          # import json  
          # json_response = json.loads(response.data.decode('utf-8'))  
          # print(json_response)
          

          6. lxml

          lxml是一個功能強大且高效的Python庫,主要用于處理XML和HTML文檔。它提供了豐富的API,使得開發者可以輕松地讀取、解析、創建和修改XML和HTML文檔。

          from lxml import etree  
            
          # 假設我們有一段HTML或XML內容,這里以HTML為例  
          html_content = """  
          <html>  
            <head>  
              <title>示例頁面</title>  
            </head>  
            <body>  
              <h1>歡迎來到我的網站</h1>  
              <p class="description">這是一個使用lxml解析的示例頁面。</p>  
              <ul>  
                <li>項目1</li>  
                <li>項目2</li>  
              </ul>  
            </body>  
          </html>  
          """  
            
          # 使用lxml的etree模塊來解析HTML或XML字符串  
          # 注意:對于HTML內容,我們使用HTMLParser解析器  
          parser = etree.HTMLParser()  
          tree = etree.fromstring(html_content, parser=parser)  
            
          # 查找并打印<title>標簽的文本  
          title = tree.find('.//title').text  
          print("頁面標題:", title)  
            
          # 查找并打印class為"description"的<p>標簽的文本  
          description = tree.find('.//p[@class="description"]').text  
          print("頁面描述:", description)  
            
          # 查找所有的<li>標簽,并打印它們的文本  
          for li in tree.findall('.//li'):  
              print("列表項:", li.text)  
            
          # 注意:lxml也支持XPath表達式來查找元素,這里只是簡單展示了find和findall的用法  
          # XPath提供了更強大的查詢能力
          

          其他爬蟲工具

          除了Python庫之外,還有其他爬蟲工具可以使用。

          八爪魚爬蟲

          八爪魚爬蟲是一款功能強大的桌面端爬蟲軟件,主打可視化操作,即使是沒有任何編程基礎的用戶也能輕松上手。

          官網:1.軟件分享[耶]八爪魚,爬取了幾百條網站上的公開數據,不用學代碼真的很方便。[得意]2.發現了一個很棒的軟件,?不用學python也可以爬數據!用它爬了n多數據。3.微博、電商、各大新聞平臺的數據,很多可以用模版一鍵爬取數據,非常方便!4.做科研項目要采集很多數據,[耶]科研人的救命神器,推薦!5.實時獲取樓市動態,用八爪魚收集網上關于樓盤的用戶評價,不用學代碼直接爬了很多數據6.用八爪魚實時爬取電商數據,追蹤競爭對手價格,商品信息一手掌握[得意]7.用八爪魚自動收集全網最新新聞,迅速獲取熱點資訊,超方便?

          八爪魚支持多種數據類型采集,包括文本、圖片、表格等,并提供強大的自定義功能,能夠滿足不同用戶需求。此外,八爪魚爬蟲支持將采集到的數據導出為多種格式,方便后續分析處理。

          亮數據爬蟲

          亮數據平臺提供了強大的數據采集工具,比如Web Scraper IDE、亮數據瀏覽器、SERP API等,能夠自動化地從網站上抓取所需數據,無需分析目標平臺的接口,直接使用亮數據提供的方案即可安全穩定地獲取數據。

          網站:「鏈接」

          亮數據瀏覽器支持對多個網頁進行批量數據抓取,適用于需要JavaScript渲染的頁面或需要進行網頁交互的場景。

          Web Scraper

          Web Scraper是一款輕便易用的瀏覽器擴展插件,用戶無需安裝額外的軟件,即可在Chrome瀏覽器中進行爬蟲。插件支持多種數據類型采集,并可將采集到的數據導出為多種格式。

          無論是Python庫還是爬蟲軟件,都能實現數據采集任務,可以選擇適合自己的。當然記得在使用這些工具時,一定要遵守相關網站的爬蟲政策和法律法規。

          umbo 是 Google 的一款用C語言實現的HTML5解析庫,無需任何外部依賴。

          特征:

          • 遵循 HTML5 規范
          • 功能強大,可處理一些不規范的 HTML 標簽
          • 簡單的 API
          • 支持源位置和指針回到原始文本
          • 輕巧、沒有外部依賴
          • 通過 html5lib-0.95 兼容測試
          • 已在超過25億個來自谷歌索引的頁面中進行過測試

          項目地址

          https://github.com/google/gumbo-parser

          PDF文件現在在許多企業中常用 - 無論您是要生成銷售報告,交付合同還是發送發票,PDF都是首選的文件類型。PDF.js是由Mozilla編寫的JavaScript庫。由于它使用vanilla JavaScript實現PDF渲染,因此它具有跨瀏覽器兼容性,并且不需要安裝其他插件。在使用PDFJS之前你也可以先了解下原生的PDF<object>對象,本文僅介紹PDFJS。

          官網地址

          https://mozilla.github.io/pdf.js/

          下載和安裝

          官網提供了下載入口,有穩定版和Beta版,我們要在生產環境下使用建議使用穩定版,官網給我們提供了三種獲取PDF.js的方式

          使用說明

          我們可以直接使用cdn服務,也可以將下載的文件引入,我們看一下示例代碼,這里我提供了兩種寫法,在項目運行之前,請確保你的同級目錄下有一個test.pdf文件

          //index.html
          <!DOCTYPE html>
          <html lang="en">
          <head>
           <meta charset="UTF-8">
           <meta name="viewport" content="width=device-width, initial-scale=1.0">
           <meta http-equiv="X-UA-Compatible" content="ie=edge">
           <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@2.0.943/build/pdf.min.js"></script>
           <script src='./index.js'></script>
           <title>PDF</title>
          </head>
          <body>
           <canvas id="pdf"></canvas>
          </body>
          </html>
          //index.js
          // var loadingTask = pdfjsLib.getDocument("test.pdf");
          // loadingTask.promise.then(
          // function(pdf) {
          // // 加載第一頁
          // pdf.getPage(1).then(function(page) {
          // var scale = 1;
          // var viewport = page.getViewport(scale);
          // //應用到頁面的canvas上.
          // var canvas = document.getElementById("pdf");
          // var context = canvas.getContext("2d");
          // canvas.height = viewport.height;
          // canvas.width = viewport.width;
          // // 渲染canvas.
          // var renderContext = {
          // canvasContext: context,
          // viewport: viewport
          // };
          // page.render(renderContext).then(function() {
          // console.log("Page rendered!");
          // });
          // });
          // },
          // function(reason) {
          // console.error(reason);
          // }
          // );
          // index.js
          (async () => {
           const loadingTask = pdfjsLib.getDocument("test.pdf");
           const pdf = await loadingTask.promise;
           // 加載第一頁.
           const page = await pdf.getPage(1);
           const scale = 1;
           const viewport = page.getViewport(scale);
           // 應用到頁面的canvas上.
           const canvas = document.getElementById("pdf");
           const context = canvas.getContext("2d");
           canvas.height = viewport.height;
           canvas.width = viewport.width;
           // 渲染canvas.
           const renderContext = {
           canvasContext: context,
           viewport: viewport
           };
           await page.render(renderContext);
          })();
          

          當我們運行項目之后,打開瀏覽器查看,它已經將pdf的內容渲染到了瀏覽器中,且顯示了第一頁,如下圖所示:

          如果就這樣的話遠遠是無法滿足我們使用的,因此我們來看一下它比較高級的用法,或者說簡單的用法,高級的功能。

          使用iframe

          首先我們將我們下載的js包加壓,復制里面的web文件夾,粘貼到你的項目目錄

          然后修改你的index.html代碼,首先注釋掉之前引入的js代碼,然后修改body,如下

          <body>
           <iframe src="test.pdf" style="border: none;" width="100%" height='1000px'></iframe>
          </body>
          

          隨后打開我們的瀏覽器,你會發現一個預覽的窗口

          它繼承了我們常用的功能,比如旋轉、下載、打印、自適應縮放、放大、縮小等,我們只需要使用iframe引入我們的pdf文件即可,其余的全部交給pdf來完成,即可獲得一個實現一個完整的pdf預覽功能。

          PDF.js三個不同層

          • 核心 - PDF的二進制格式在此層中進行解釋。直接使用該層被認為是高級用法。
          • 顯示 - 該層構建在核心層之上,為大多數日常工作提供易于使用的界面。
          • Viewer - 除了提供編程API之外,PDF.js還附帶一個現成的用戶界面,其中包括對搜索,旋轉,縮略圖側邊欄和許多其他內容的支持。

          PDFJS的這三層分開,讓我們很好的來根據業務需求來實現我們想要的部分,其簡單的api讓我們得心應手,總而言之,PDFJS是一個絕佳的PDF預覽解決方案。

          總結

          PDFJS不僅僅支持pdf的二進制文件,同樣還支持base64編碼的pdf,如果在你的項目中需要用到pdf的預覽等功能,無疑它是一種良好的解決方案,當然想要實現相同的功能有許多辦法,我們可以選擇最適合我們需求的,官方還提供了一個完整的演示Demo,如下截圖,如果你覺得本文對你有幫助,請麻煩轉發、點贊加關注吧,后續會分享更多實用有趣的技術!


          主站蜘蛛池模板: 国产视频一区在线播放| 国产精品99精品一区二区三区| 亚洲一区二区影视| 国产一区二区三区福利| 国产内射在线激情一区| 欧洲精品码一区二区三区| 无码一区二区三区老色鬼| 视频在线一区二区三区| 99国产精品欧美一区二区三区| 久久久久人妻一区二区三区| 国模大尺度视频一区二区| 一区二区在线播放视频| 一级毛片完整版免费播放一区| 精品爆乳一区二区三区无码av| 无码精品一区二区三区免费视频 | 好吊妞视频一区二区| 一区二区三区国产精品 | 日本香蕉一区二区三区| 日韩成人无码一区二区三区| 亚洲高清一区二区三区| 国产乱码一区二区三区| 国产一区二区在线| 在线观看视频一区二区| 国产aⅴ精品一区二区三区久久 | 国产激情无码一区二区app| 狠狠综合久久AV一区二区三区| 精品国产亚洲一区二区在线观看 | 无码国产精品一区二区免费3p| 国产AV午夜精品一区二区入口| 久久国产一区二区| 少妇精品无码一区二区三区| 69福利视频一区二区| 国产精品视频一区二区猎奇| 亚洲AV网一区二区三区| 美女AV一区二区三区| 国产日韩精品一区二区三区在线 | 怡红院AV一区二区三区| 国产一区二区在线|播放| 国产一区二区不卡在线播放| 精品一区二区三区在线视频| 偷拍激情视频一区二区三区|