我的第一个爬虫程序

向右看齐 2021-09-07 06:22 425阅读 0赞

import requests
    import re
    
    url = 'https://www.dy2018.com'
    
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
    }
    resp = requests.get(url,  headers = headers)
    resp.encoding = 'gb2312'
    page_content = resp.text
    obj1 = re.compile(r"2020必看热片.*?<ul>(?P<movies>.*?)</ul>", re.S)
    obj2 = re.compile(r"<a href='(?P<href>.*?)' title=.*?>(?P<title>.*?)</a>", re.S)
    obj3 = re.compile(r'<div class=player_list>.*?<ul>.*?<li><a href="(?P<child_link_href>.*?)">', re.S)
    result = obj1.finditer(page_content)
    child_href_list = []
    url_list = []
    for i in result:
        ul = i.group("movies")
        result2 = obj2.finditer(ul)
        for j in result2:
            print(j.group("title"))
            child_href = url + j.group("href")
            child_href_list.append(child_href)
            url_list.append(j.group("href"))
    for child_href1 in child_href_list:
        child_resp = requests.get(child_href1, headers=headers)
        child_resp.encoding = 'gb2312'
        child_page_content = child_resp.text
        result3 = obj3.finditer(child_page_content)
        for k in result3:
            print(k.group("child_link_href"))

这是我看视频写的第一个爬虫小程序，希望看到的朋友能给优化，相互学习一下～

发表评论取消回复

表情：

评论列表（有 0 条评论，425人围观）

还没有评论，来说两句吧...

相关阅读

相关我的第一个C语言程序

我的第一个C语言程序这是我在CSDN上写的第一篇文章。希望以后能保持分享自己的心得，以鼓励并支撑自己对编程的热爱。 include <stdio.h>

秒速五厘米/ 2022年12月18日 00:44/ 0 赞/ 228 阅读

相关我的第一个c++程序

\include<iostream> using namespace std; int main() \{ cout<<"hello!"<<endl;

小咪咪/ 2022年06月17日 06:09/ 0 赞/ 246 阅读

相关我的第一个Vue程序

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport"

Bertha 。/ 2022年06月13日 14:18/ 0 赞/ 223 阅读

相关我的第一个Java程序

public class aaa { public static void main(String args[]) {

我就是我/ 2022年06月13日 09:47/ 0 赞/ 259 阅读

相关 python：第一个简单爬虫程序

爬虫的套路爬虫就是模拟浏览器行为，将别人网站的内容，抓取下来，提取自己想要的内容。第一步：分析爬取网站的url，请求的url需要哪些参数呀，要不要用户认证等。第

缺乏、安全感/ 2022年06月01日 04:28/ 0 赞/ 287 阅读

相关我的第一个RCP程序

RCP，就是Rich Client Platform的缩写，即胖客户端平台，是Eclipse进化的产物（自3.0版以后出现），是Eclipse组织向用户提供的强大

ゝ一纸荒年。/ 2022年04月17日 00:09/ 0 赞/ 241 阅读

相关我的第一个c++程序

对象指针数组演示 1、先准备一个程序编辑环境（新建项目）我用的是vs2015工具 ![创建新建1][1] ![新建程序2][2] 2、编辑代码 \inclu

深碍√TFBOYSˉ_/ 2022年03月30日 08:25/ 0 赞/ 281 阅读

相关我的第一个java程序

1.开发的步骤，掌握程序的执行步骤 2.编程开始，编写程序过程中要注意什么 3.两个名词，关键字与注释 java开发三步走 1—编写原程序（写代码） 2—编

系统管理员/ 2022年03月27日 01:56/ 0 赞/ 280 阅读

相关我的第一个 scrapy 爬虫

安装 python 这个就不用我说了吧，网上教程一大堆安装 scrapy 包 pip install scrapy 创建 scrapy 项目 scr

ゝ一纸荒年。/ 2021年09月18日 14:12/ 0 赞/ 441 阅读

相关我的第一个爬虫程序

import requests import re url = 'https://www.dy2018.com' heade

向右看齐/ 2021年09月07日 06:22/ 0 赞/ 426 阅读