前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

前文内容

Python爬虫新手入门教学（一）：爬取豆瓣电影排行信息

Python爬虫新手入门教学（二）：爬取小说

Python爬虫新手入门教学（三）：爬取链家二手房数据

Python爬虫新手入门教学（四）：爬取前程无忧招聘信息

Python爬虫新手入门教学（五）：爬取B站视频弹幕

Python爬虫新手入门教学（六）：制作词云图

Python爬虫新手入门教学（七）：爬取腾讯视频弹幕

Python爬虫新手入门教学（八）：爬取论坛文章保存成PDF

Python爬虫新手入门教学（九）：多线程爬虫案例讲解

Python爬虫新手入门教学（十）：爬取彼岸4K超清壁纸

Python爬虫新手入门教学（十一）：最近王者荣耀皮肤爬取

Python爬虫新手入门教学（十二）：英雄联盟最新皮肤爬取

Python爬虫新手入门教学（十三）：爬取高质量超清壁纸

Python爬虫新手入门教学（十四）：爬取有声小说网站数据

Python爬虫新手入门教学（十五）：爬取网站音乐素材

Python爬虫新手入门教学（十六）：爬取好看视频小视频

Python爬虫新手入门教学（十七）：爬取yy全站小视频

Python爬虫新手入门教学（十九）：爬取ip代理，构建代理池

Python学习交流群：1039649593

基本开发环境

Python 3.6
Pycharm

Python学习交流群：1039649593

确定目标需求

既然选择爬取视频了，那肯定优先选择小姐姐的视频呀

懂得都懂~

网页数据分析，找寻数据来源

A站视频是m3u8格式，整个视频分为很多小段，一段对应一个ts文件。

所以只需要找到这个m3u8的数据来源就可以获取所有的ts文件。

url链接的请求参数 pkey 是会改变的。但是这个参数是可以在网页源代码中找到的。包括m3u8的请求链接也是在网页源代码中可以获取的。

整体思路

1、请求视频地址，获取源代码中的m3u8的url地址。

2、请求m3u8的地址，获取所有的ts文件地址

3、保存ts文件并且合并ts文件成mp4视频格式

实现代码

import requests
import re
from tqdm import tqdm
import os
def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title
def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response
def save(name, video, title):
    path = f'{name}\\'
    if not os.path.exists(path):
        os.makedirs(path)
    with open(path + title + '.ts', mode='wb') as f:
        f.write(video)
def get_m3u8_url(html_url):
    html_data = get_response(html_url).text
    m3u8_url = re.findall('backupUrl(.*?)\"]', html_data)[0].replace('"', '').split('\\')[-2]
    title = re.findall('"title":"(.*?)"', html_data)[0]
    new_title = change_title(title)
    m3u8_data = get_response(m3u8_url).text
    m3u8_data = re.sub('#EXTM3U', "", m3u8_data)
    m3u8_data = re.sub(r'#EXT-X-VERSION:\d', "", m3u8_data)
    m3u8_data = re.sub(r'#EXT-X-TARGETDURATION:\d', "", m3u8_data)
    m3u8_data = re.sub(r'#EXT-X-MEDIA-SEQUENCE:\d', "", m3u8_data)
    m3u8_data = re.sub(r'#EXT-X-ENDLIST', "", m3u8_data)
    m3u8_data = re.sub(r'#EXTINF:\d\.\d,', "", m3u8_data)
    m3u8 = m3u8_data.split()
    for link in tqdm(m3u8):
        ts_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/hls/' + link
        video = get_response(ts_url).content
        ts_title = link.split('?')[0].split('.')[1]
        save(new_title, video, ts_title)
    print(f'{title}已经下载完成,请验收....')
if __name__ == '__main__':
    video_id = input('请输入你要下载的视频ID：')
    url = f'https://www.acfun.cn/v/{video_id}'
    print('正在下载请稍后.....')
    get_m3u8_url(url)