分類〈Skills 〉 | Alfred's Python Wiki

No.05 Python網路爬蟲常用技巧 – 資料保存

這篇文章介紹了Python網路爬蟲中資料保存的常用技巧。從資料收集和解析到資料儲存，我們探討了網路爬蟲的基礎知識以及常用的資料儲存格式。透過示例程式碼，我們展示了如何將爬取的資料儲存為文本檔案、CSV檔案和資料庫。通過本文，你將瞭解如何有效地保存和管理爬取的資料，並為你的網路爬蟲項目提供實用的指引。 Read more

2023-05-212023-11-28 selenium Skills Web Crawler

No.05 Python網路爬蟲常用技巧 – Selenium

Selenium是自動化網頁測試和數據提取的強大工具。本文介紹了Selenium的基本概念和功能，包括瀏覽器控制、元素定位、交互操作、多窗口和框架處理、JavaScript執行和測試報告。還探討了優化和維護策略，如等待機制、異常處理和重複使用測試用例。提供了透過Python操作Selenium的基礎知識和技巧。 Read more

2023-05-202023-11-28 regex Skills Web Crawler

No.05 Python網路爬蟲常用技巧 – regex

Python中的re模組提供了強大的正則表達式功能，能夠幫助我們處理和分析文本。通過學習和實踐，我們可以更好地應用正則表達式來解決各種文本處理問題。希望本文能夠對讀者在使用Python中的正則表達式方面提供幫助。 Read more

No.05 Python網路爬蟲常用技巧 – requests進階篇 | Alfred's Python Wiki

2023-05-192023-11-28 BeautifulSoup Skills Web Crawler

No.05 Python網路爬蟲常用技巧 – BeautifulSoup

BeautifulSoup是強大的Python模組，用於解析和提取網頁上的HTML和XML數據，使網路爬蟲開發變得簡單易用。BeautifulSoup靈活的數據提取準則，遍歷和搜索整個HTML文檔，提供多種解析器，讓你能輕鬆處理網頁數據。 Read more

No.05 Python網路爬蟲常用技巧 - requests基礎篇 | Alfred's Python Wiki

2023-05-182023-11-28 requests Skills Web Crawler

No.05 Python網路爬蟲常用技巧 – requests進階篇

在本文中，我們學習了如何使用 Python requests 模組中的 Session 物件。Session 物件能夠在連續請求之間保持狀態並自動管理 cookie，從而提高程式碼的結構性和效率。我們還了解了如何自訂 Session 物件的設定，以符合特定的需求，增加彈性和可擴展性。透過進階使用 requests 模組的 Session 物件，我們能夠更好地處理網絡交互和資料傳輸的需求。 Read more

2023-05-182023-11-28 requests Skills Web Crawler

No.05 Python網路爬蟲常用技巧 – requests基礎篇

這篇文章介紹了Python的requests模組，該模組提供了便捷的方法來進行網路通信。從安裝、引入到發送GET和POST請求，以及處理回應的方法，這篇文章詳細探討了requests模組的使用。另外，還介紹了傳遞標頭資訊、傳遞URL參數、設置超時、處理Cookie和處理重定向等功能。這篇文章將幫助您理解並使用requests模組來進行有效的網路通信。 Read more