python网络爬虫入门小程序_python编写爬虫小程序的方法

待我称王封你为后i 2022-10-28 00:54 287阅读 0赞

# coding:utf-8

import urllib

domain = ‘http://www.liaoxuefeng.com‘ #廖雪峰的域名

path = r’C:Userscyhhao2013Desktoptemp’ #html要保存的路径

# 一个html的头文件

input = open(r’C:Userscyhhao2013Desktop.html’, ‘r’)

head = input.read()

# 打开python教程主界面

f =

urllib.urlopen(“http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000“)

home = f.read()

f.close()

# 替换所有空格回车(这样容易好获取url)

geturl = home.replace(“n”, “”)

geturl = geturl.replace(“ “, “”)

# 得到包含url的字符串

list = geturl.split(r’em;”>

# 强迫症犯了，一定要把第一个页面也加进去才完美

list.insert(0,

‘/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000”>’)

# 开始遍历url List

for li in list:

url = li.split(r’”>’)[0]

url = domain + url #拼凑url

print url

f = urllib.urlopen(url)

html = f.read()

# 获得title为了写文件名

title = html.split(“

“)[1]

title = title.split(“ - 廖雪峰的官方网站”)[0]

# 要转一下码，不然加到路径里就悲剧了

title = title.decode(‘utf-8’).replace(“/“, “ “)

# 截取正文

html = html.split(r’’)[1]

html = html.split(r’

您的支持是作者写作最大的动力！

‘)[0]

html = html.replace(r’src=”‘, ‘src=”‘ + domain)

# 加上头和尾组成完整的html

html = head + html+”

发表评论取消回复

表情：

评论列表（有 0 条评论，287人围观）

还没有评论，来说两句吧...

相关阅读

相关用python写一个爬虫小程序

好的，我可以为你写一个 Python 爬虫小程序的示例。首先，我们需要安装一些库，包括 `requests` 和 `BeautifulSoup`。你可以使用以下命令进行安装

太过爱你忘了你带给我的痛/ 2024年03月25日 16:36/ 0 赞/ 209 阅读

相关 Python3网络爬虫快速入门：打造高效爬虫程序

Python3网络爬虫快速入门：打造高效爬虫程序网络爬虫是一种高效获取互联网信息的工具。Python语言优美简洁的语法和强大的库支持，使得编写网络爬虫程序变得非常容易。本文

不念不忘少年蓝@/ 2024年03月25日 01:25/ 0 赞/ 125 阅读

相关 python网络爬虫之如何伪装逃过反爬虫程序的方法

本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看有的时候，我们本来写得好好的

我会带着你远行/ 2023年07月18日 02:59/ 0 赞/ 66 阅读

相关爬虫入门小程序-java

来个小程序，先小爬一下。。。 1.pom文件 <dependencies> <dependency> <

水深无声/ 2022年11月29日 11:26/ 0 赞/ 213 阅读

相关 python网络爬虫入门小程序_python编写爬虫小程序的方法

\ coding:utf-8 import urllib domain = 'http://www.liaoxuefeng.com' \廖雪峰的域名 path = r'C

待我称王封你为后i/ 2022年10月28日 00:54/ 0 赞/ 288 阅读

相关小白如何入门 Python 爬虫？

http://dataunion.org/14510.html “入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不

墨蓝/ 2022年08月10日 05:43/ 0 赞/ 343 阅读

相关网页爬虫小程序

一个简单的网页爬虫程序： / 网页爬虫：得到网页上的邮箱地址得到网页上的时间戳 / public class RegexDemo {

深碍√TFBOYSˉ_/ 2022年06月06日 04:49/ 0 赞/ 254 阅读

相关 Python爬虫2-翻译小程序

1、简介本次博客分享的内容为基于有道在线翻译实现一个实时翻译小程序，本次任务是参考小甲鱼的书《零基础入门学习Python》完成的，书中代码对于当前的有道词典并不适用，使

男娘i/ 2022年05月12日 15:12/ 0 赞/ 308 阅读

相关 Python 爬虫小探

[Python爬虫原理][Python] :[https://www.cnblogs.com/sss4/p/7809821.html][Python] 18个Python爬虫

柔情只为你懂/ 2022年04月16日 05:19/ 0 赞/ 318 阅读

相关 python3 编写原生爬虫 --爬虫入门

> 使用 python3 抓取,csdn [某篇文章][Link 1] 的标题,注释写的很全就不多废话了 coding=utf-8 from urllib i

「爱情、让人受尽委屈。」/ 2022年04月01日 03:40/ 0 赞/ 400 阅读