python网络爬虫入门小程序_python编写爬虫小程序的方法

待我称王封你为后i 2022-10-28 00:54 287阅读 0赞

# coding:utf-8

import urllib

domain = ‘http://www.liaoxuefeng.com‘ #廖雪峰的域名

path = r’C:Userscyhhao2013Desktoptemp’ #html要保存的路径

# 一个html的头文件

input = open(r’C:Userscyhhao2013Desktop.html’, ‘r’)

head = input.read()

# 打开python教程主界面

f =

urllib.urlopen(“http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000“)

home = f.read()

f.close()

# 替换所有空格回车(这样容易好获取url)

geturl = home.replace(“n”, “”)

geturl = geturl.replace(“ “, “”)

# 得到包含url的字符串

list = geturl.split(r’em;”>

# 强迫症犯了,一定要把第一个页面也加进去才完美

list.insert(0,

‘/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000”>’)

# 开始遍历url List

for li in list:

url = li.split(r’”>’)[0]

url = domain + url #拼凑url

print url

f = urllib.urlopen(url)

html = f.read()

# 获得title为了写文件名

title = html.split(“

“)[1]

title = title.split(“ - 廖雪峰的官方网站”)[0]

# 要转一下码,不然加到路径里就悲剧了

title = title.decode(‘utf-8’).replace(“/“, “ “)

# 截取正文

html = html.split(r’’)[1]

html = html.split(r’

您的支持是作者写作最大的动力!

‘)[0]

html = html.replace(r’src=”‘, ‘src=”‘ + domain)

# 加上头和尾组成完整的html

html = head + html+”

发表评论

表情:
评论列表 (有 0 条评论,287人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Python爬虫2-翻译程序

    1、简介 本次博客分享的内容为基于有道在线翻译实现一个实时翻译小程序,本次任务是参考小甲鱼的书《零基础入门学习Python》完成的,书中代码对于当前的有道词典并不适用,使