火车头采集指定特征的网址、图片 src 迈不过友情╰ 2022-07-14 16:11 127阅读 0赞 前些天用火车头从一个列表页采集一些网址,源码简化如下: <div> <a href="1" mce\_href="1">111</a> </div> <div> <a href="2" mce\_href="2">222</a> <img src="" /> </div> <div> <a href="3" mce\_href="3">333</a> </div> 我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则: <a href="\[参数\]" mce\_href="\[参数\]">(\*)</a> <img src="" /> 却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有<a href=”\[参数\]“>这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则: <a href="\[参数\]" mce\_href="\[参数\]">\[参数\]</a> <img src="" /> 就是把模糊匹配(\*)给换成了\[参数\],隐隐约约的有些明白了。
还没有评论,来说两句吧...