[Python] Selenium爬蟲用法整理

持續更新中!

蜥蜴是爬蟲類。

前言

沒有,我沒有要做生研的社課教案。

我的意思是,網路上的爬蟲指的是,利用程式工具來快速獲得資訊。

那為什麼我今天會弄這個東西?

因為我不想自己填體溫(又是另外一個故事)

這篇文章的重點:依照爬一個網頁的順序,從selenium的初始設定、進入網頁、尋找元件和觸發動作、到結束爬蟲,將我遇到的問題點都整理在這裡。

用法

先記一些我有用到的用法就好,環境設定和其他細節有想到再補。

0. 我用的是python

好像其他語言也可以用selenium套件,要注意一下。

1. 設定 / 進入網頁

這裡有空再補
a. 瀏覽器設定

(反正先貼上來,有空再解釋)
(因為我把碼放在repl.it執行,設定會比較多)

# Chromedriver設定

chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(options = chrome_options)
b. 進入網頁

比如說我要開啟現在這個網頁,就用:

# 開啟網頁

driver.get("m4miffy.data.blog")

2. 尋找元件 / 觸發動作

重點大部分在這裡
a. 尋找元件

如果今天要定位「按鈕」:

# 用 ID 定位單選按鈕
radio = driver.find_element_by_id('ContentPlaceHolder1_RadioButtonList1_0')

# 按下按鈕
radio.click()

如果今天要定位「下拉式選單」:

# 用 ID 定位下拉式選單
s1 = Select(driver.find_element_by_id('ContentPlaceHolder1_DropDownList1'))

# 選擇第3項           
s1.select_by_index(3)

發表者:Miffy

高雄小孩, 興趣是喝可爾必思、拍奇怪角度的照片; 討厭的東西有排版很爛的化學輔教、物理輔教和健康中心的文宣。 參加過一些物辯比賽, 很喜歡發掘問題原因的那種過程。

發表留言

使用 WordPress.com 設計專業網站
立即開始使用