新聞中心
前幾天小編帶大家學會了如何在Scrapy框架下創(chuàng)建屬于自己的第一個爬蟲項目(上),今天我們進一步深入的了解Scrapy爬蟲項目創(chuàng)建,這里以伯樂在線網站的所有文章頁為例進行說明。
讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:域名注冊、網站空間、營銷軟件、網站建設、三沙網站維護、網站推廣。
在我們創(chuàng)建好Scrapy爬蟲項目之后,會得到上圖中的提示,大意是讓我們直接根據模板進行創(chuàng)建Scrapy項目。根據提示,我們首先運行“cd article”命令,意思是打開或者進入到article文件夾下,爾后執(zhí)行命令“scrapy genspider jobbole blog.jobbole.com”,代表通過Scrapy中自帶的basic模板進行創(chuàng)建Scrapy項目,如下圖所示。
根據提示,該模板創(chuàng)建的位置為article.spiders.jobbole,此時再次輸入tree /f命令可以查看到除了之前創(chuàng)建Scrapy爬蟲項目的基礎文件之外,在spiders文件夾下確實是多了一個jobbole.py文件,如下圖所示。
當然了,爬蟲模板不一定非得用Scrapy爬蟲項目自帶的模板,也可以自定義的進行創(chuàng)建,但是基本上Scrapy提供的模板是足夠使用的了。
接下來,將整個爬蟲項目導入到Pycharm中去,點擊左上方“file”à“open”,找到爬蟲項目創(chuàng)建的文件夾,點擊確認即可。
如果在Pycharm中的spiders文件夾下看不到jobbole.py這個文件的話,則先選中spiders文件夾,爾后右鍵,點擊“Synchronize spider”,代表與spiders文件夾進行同步的意思,爾后便可以看到jobbole.py就會被加載出來。
點擊jobbole.py文件進行查看內容,如下圖所示。可以看到該文件已經默認的填充了部分Python代碼,其實是從源模板中進行復制創(chuàng)建的。
可以看到該文件中有當前Scrapy爬蟲項目的名字name,Scrapy爬蟲項目所允許的域名范圍allowed_domains,以及Scrapy爬蟲項目的起始URL,即start_urls。
接下來最后檢查一下該項目的Python解釋器,點擊Pycharm的setting,然后輸入“interpreter”,找到解釋器所在的位置,如下圖所示。
如果“Project Interpreter”顯示出來的解釋器不是當前項目下的虛擬環(huán)境,則點擊“Project Interpreter”的右側的設置按鈕,如下圖所示。
然后點擊“Add local”,如下圖所示。
找到該項目對應的虛擬環(huán)境Python解釋器,進行添加即可,如下圖所示。
至此,Scrapy爬蟲虛擬環(huán)境創(chuàng)建、Scrapy爬蟲項目的創(chuàng)建以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成,接下來我們要開始寫入爬蟲邏輯,以及數據提取等,敬請期待~~
對爬蟲感興趣的小伙伴,歡迎來Github:https://github.com/cassieeric,喜歡的話記得給個star噢~~
當前標題:手把手教你如何新建scrapy爬蟲框架的第一個項目(下)
文章鏈接:http://ef60e0e.cn/article/gdgssh.html