規則分隔方式,每行一個采集規則
程序會從第一條向下依次執行
一條規則包含操作符、正則表達式、和參數,有的操作符不需要參數,他們之前用@分隔
操作符說明
match
獲取內容
match@正則表達式
replace
替換內容
replace@正則表達式@替換的內容
join
鏈接字符串
join@前面的字符串@后面的字符串
matchall
獲取所有匹配的內容,內容之前用逗號分隔,一般用于獲取列表頁面的所有鏈接,或內容頁中的圖片
matchall@正則表達式
gettab
獲取一個標簽及內容
gettab@標簽
例子
內容
<p>
<h1 class="title">123</h1>
</p>
gettab@<h1 class="title">
獲取到的是
<h1 class="title">123</h1>