持續更新中!
蜥蜴是爬蟲類。
前言
沒有,我沒有要做生研的社課教案。
我的意思是,網路上的爬蟲指的是,利用程式工具來快速獲得資訊。
那為什麼我今天會弄這個東西?
因為我不想自己填體溫(又是另外一個故事)
這篇文章的重點:依照爬一個網頁的順序,從selenium的初始設定、進入網頁、尋找元件和觸發動作、到結束爬蟲,將我遇到的問題點都整理在這裡。
用法
先記一些我有用到的用法就好,環境設定和其他細節有想到再補。
0. 我用的是python
好像其他語言也可以用selenium套件,要注意一下。

1. 設定 / 進入網頁
這裡有空再補
a. 瀏覽器設定
(反正先貼上來,有空再解釋)
(因為我把碼放在repl.it執行,設定會比較多)
# Chromedriver設定
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(options = chrome_options)
b. 進入網頁
比如說我要開啟現在這個網頁,就用:
# 開啟網頁
driver.get("m4miffy.data.blog")
2. 尋找元件 / 觸發動作
重點大部分在這裡
a. 尋找元件
如果今天要定位「按鈕」:
# 用 ID 定位單選按鈕
radio = driver.find_element_by_id('ContentPlaceHolder1_RadioButtonList1_0')
# 按下按鈕
radio.click()
如果今天要定位「下拉式選單」:
# 用 ID 定位下拉式選單
s1 = Select(driver.find_element_by_id('ContentPlaceHolder1_DropDownList1'))
# 選擇第3項
s1.select_by_index(3)