<abbr id="ciwa6"><option id="ciwa6"></option></abbr>
  • <sup id="ciwa6"><kbd id="ciwa6"></kbd></sup>
    <small id="ciwa6"></small>
  • 千鋒教育-做有情懷、有良心、有品質的職業教育機構

    400-811-9990
    手機站
    千鋒教育

    千鋒學習站 | 隨時隨地免費學

    千鋒教育

    掃一掃進入千鋒手機站

    領取全套視頻
    千鋒教育

    關注千鋒學習站小程序
    隨時隨地免費學習課程

    上海
    • 北京
    • 鄭州
    • 武漢
    • 成都
    • 西安
    • 沈陽
    • 廣州
    • 南京
    • 深圳
    • 大連
    • 青島
    • 杭州
    • 重慶
    當前位置:成都千鋒IT培訓  >  技術干貨  >  Python 爬蟲之pyspider

    Python 爬蟲之pyspider

    來源:千鋒教育
    發布人:xqq
    時間: 2023-11-06 16:48:16

    pyspider是一個支持任務監控、項目管理、多種數據庫,具有WebUI的爬蟲框架,它采用Python語言編寫,分布式架構。詳細特性如下:

    擁有Web腳本編輯界面,任務監控器,項目管理器和結構查看器;

    數據庫支持MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL、SQLAlchemy;

    隊列服務支持RabbitMQ、Beanstalk、Redis、Kombu;

    支持抓取JavaScript的頁面;

    組件可替換,支持單機、分布式部署,支持Docker部署;

    強大的調度控制,支持超時重爬及優先級設置;

    支持Python2&3。

    pyspider主要分為Scheduler(調度器)、Fetcher(抓取器)、Processer(處理器)三個部分,整個爬取過程受到Monitor(監控器)的監控,抓取的結果被ResultWorker(結果處理器)處理。基本流程為:Scheduler發起任務調度,Fetcher抓取網頁內容,Processer解析網頁內容,再將新生成的Request發給Scheduler進行調度,將生成的提取結果輸出保存。

    2pyspidervsscrapypyspider擁有WebUI,爬蟲的編寫、調試可在WebUI中進行;Scrapy采用采用代碼、命令行操作,實現可視化需對接Portia。

    pyspider支持使用PhantomJS對JavaScript渲染頁面的采集;Scrapy需對接Scrapy-Splash組件。

    pyspider內置了PyQuery(Python爬蟲(五):PyQuery框架)作為選擇器;Scrapy對接了XPath、CSS選擇器、正則匹配。

    pyspider擴展性弱;Scrapy模塊之間耦合度低,擴展性強,如:對接Middleware、Pipeline等組件實現更強功能。

    總的來說,pyspider更加便捷,Scrapy擴展性更強,如果要快速實現爬取優選pyspider,如果爬取規模較大、反爬機制較強,優選scrapy。

    以上內容為大家介紹了Python爬蟲之pyspider,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。

    聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。

    猜你喜歡LIKE

    python delattr函數如何使用?

    2023-11-10

    python time.strptime的格式化

    2023-11-10

    pythonGIL在Python多線程的應用

    2023-11-10

    最新文章NEW

    python中pdb模塊怎么用?

    2023-11-10

    Python如何截圖保存?

    2023-11-10

    python?中缺少module怎么辦?

    2023-11-10

    相關推薦HOT

    更多>>

    快速通道 更多>>

    最新開班信息 更多>>

    網友熱搜 更多>>