Semalt :HTML抓取指南–熱門提示

網絡內容大部分採用結構化或HTML格式。每個頁面都根據其內容類型以獨特的方式進行組織。如果有人要提取Web信息,則每個人都希望以結構化和組織良好的方式獲取數據。這將有助於節省共享之前審閱,分析和組織文檔所需的時間。但是,要獲得結構化格式並不容易,因為大多數網站都不提供阻止人們提取大量數據的選項。但是,某些站點提供了API,這些API可在快速簡便的過程中為人們提供信息提取選項。

在這種情況下,您別無選擇,只能使用稱為“抓取”的軟件編程的幫助。這種方法使用計算機程序來幫助用戶以有用的格式收集信息並保留數據的結構。

Lxml和請求

這是一個範圍廣泛的抓取庫,可幫助快速分析和評估XML和HTML並節省時間。在分析過程中處理混亂的標籤也很有幫助。在此過程中,您將使用Lxml請求而不是內置的urllib2,因為它更快,更可靠並且易於使用。使用pip install Lxml和pip install請求很容易安裝它。

對於HTML抓取,請按照以下步驟操作

從導入開始-在這裡,您從Lxml導入HTML,然後導入請求。使用請求,然後跟踪包含您要提取的數據的網頁,通過HTML模塊對其進行分析,然後將已解析的數據保存在樹中。

您將需要使用頁面內容而不是文本,因為HTML希望以字節為單位接收輸入。現在,用於存儲分析數據的樹將HTML文檔包含在樹結構中。您可以使用XPath和CSSelect等不同方法遍歷樹結構。

XPath可幫助您檢索信息或以HTML或XML之類的結構化格式獲取信息。您可以通過多種方式獲取XPath元素。其中包括適用於Firefox的Firebug或Chrome Inspector。使用Chrome時,檢查信息非常容易,因為您只需要“右鍵”單擊需要檢查的元素,選擇“檢查元素”,突出顯示提供的代碼,然後右鍵單擊並選擇“複製XPath”。此過程將幫助您了解頁面中包含哪些元素,然後從那裡開始,很容易創建正確的XPath查詢並正確應用Lxml XPath。

完成這些步驟可確保您已抓取要使用Lxml和Requests從特定Web提取的所有數據。您將信息存儲在兩個列表的內存中,現在可以進行排序了。您可以使用Python之類的編程語言對其進行分析,也可以保存並共享。另外,您可能希望在共享信息之前重寫或編輯信息的某些部分。

mass gmail