作者twoseven (Tse)
看板RegExp
標題[問題] 請問一個表示法
時間Tue Jan 15 11:20:09 2013
環境 .NET C#
我有一串html要抓取 規則是這樣
<tbody>
<title>我要的資料A</title>
<by>
<span>我要的資料B</span> <---此段是我的問題
</by>
<by>
xxxxxxxxxxxxxx
</by>
</tbody>
--------------------------------------------------
我要抓的資料固定就是 <tbody>開始 </tbody>結束
我寫的方法很簡單本來用
<tbody>.*?<title>(?<A>.*?)</title>.*?<by>.*?<span>(?<B>.*?)</span>.*?</tbody>
結果後來資料B出現一些狀況 有可能會沒有<span>出現
而這筆資料我也不需要 即是我只要 tbody by裡面有 span標籤的A跟B就好
可是當出現一筆錯誤資料時候 (譬如第一筆沒有span第二筆有)
結果他就會取第一筆的資料A 跟第二筆的資料B
也就是開頭變成第一筆的tbody 結束是第二筆的/tbody
請問我要如何排除第一筆錯誤的格式 而改從第二筆的tbody重新匹配?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 211.75.71.78
※ 編輯: twoseven 來自: 211.75.71.78 (01/15 11:22)