python爬取链家新房数据 清疚 2022-05-09 02:38 220阅读 0赞 转载:https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 import BeautifulSoup import requests import time import pandas as pd headers = { 'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2;.NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; InfoPath.3; .NET4.0C; .NET4.0E)', 'Accept': 'image/webp,image/*,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate', 'Referer': 'http://www.baidu.com/link?url=_andhfsjjjKRgEWkj7i9cFmYYGsisrnm2A-TN3XZDQXxvGsM9k9ZZSnikW2Yds4s&wd=&eqid=c3435a7d00006bd600000003582bfd1f', 'Connection': 'keep-alive'} page = ('pg') def generate_cityurl(user_in_city): # 生成url cityurl = 'https://' + user_in_city + '.lianjia.com/loupan/' return cityurl # return demjson.encode(res) """ d = json.loads(res.read().decode()).get('data') if d is None: print("城市首页加载完成") return """ def areainfo(url): page = ('pg') for i in range(1, 39): # 获取1-100页的数据 if i == 1: i = str(i) a = (url + page + i + '/') r = requests.get(url=a, headers=headers) print(a) htmlinfo = r.content else: i = str(i) a = (url + page + i + '/') print(a) r = requests.get(url=a, headers=headers) html2 = r.content htmlinfo = htmlinfo + html2 time.sleep(0.5) return htmlinfo hlist = [] def listinfo(listhtml): areasoup = BeautifulSoup(listhtml, 'html.parser') ljhouse = areasoup.find_all('div', attrs={'class': 'resblock-desc-wrapper'}) for house in ljhouse: loupantitle = house.find("div", attrs={"class": "resblock-name"}) loupanname = loupantitle.a.get_text() loupantag = loupantitle.find_all("span") wuye = loupantag[0].get_text() xiaoshouzhuangtai = loupantag[1].get_text() location = house.find("div", attrs={"class": "resblock-location"}).get_text() jishi = house.find("a", attrs={"class": "resblock-room"}).get_text() area = house.find("div", attrs={"class": "resblock-area"}).get_text() tag = house.find("div", attrs={"class": "resblock-tag"}).get_text() jiage = house.find("div", attrs={"class": "resblock-price"}) price = jiage.find("div", attrs={"class": "main-price"}).get_text() total = jiage.find("div", attrs={"class": "second"}) totalprice = "暂无" if total is not None: totalprice = total.get_text() h = {'title': loupanname, 'wuye': wuye, 'xiaoshouzhuangtai': xiaoshouzhuangtai, 'location': location.replace("\n", ""), 'jishi': jishi.replace("\n", ""), 'area': area, 'tag': tag, 'price': price, 'totalprice': totalprice}; hlist.append(h) if __name__ == '__main__': user_in_city = input('输入抓取城市:') url = generate_cityurl(user_in_city) print(url) hlist.append( {'title': "楼盘名称", 'wuye': "物业类型", 'xiaoshouzhuangtai': "销售状态", 'location': "位置", 'jishi': "房型", 'area': "面积", 'tag': "标签", 'price': "单价", 'totalprice': "总价"}) areahtml = areainfo(url) listinfo(areahtml) # houseinfo = houseinfo.append(hlist) houseinfo = pd.DataFrame(hlist, columns=['title', 'wuye', 'xiaoshouzhuangtai', 'location', 'jishi', 'area', 'tag', 'price', 'totalprice']) houseinfo.to_csv('C:\\Users\\czw\\Desktop/链家新房.csv', index=False, encoding="utf_8_sig") \--------------------- 本文来自 瞬间的未来式 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/clyjjczwdd/article/details/79466032?utm\_source=copy
相关 python爬虫之静态网页爬取--猫眼电影/链家二手房 猫眼电影(xpath) 目标 1、地址: 猫眼电影 - 榜单 - top100榜 2、目标: 电影名称、主演、上映时间 步骤 本是古典 何须时尚/ 2023年06月22日 08:25/ 0 赞/ 2 阅读
相关 Python爬虫新手入门教学(三):爬取链家二手房数据 前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 Python爬虫、数据分析、网站开发等案例教程视频免费在线观 港控/mmm°/ 2023年01月11日 03:44/ 0 赞/ 181 阅读
相关 手把手教你Python爬取新房数据 项目背景 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备。 今天以「惠 柔光的暖阳◎/ 2023年01月03日 12:44/ 0 赞/ 262 阅读
相关 Python爬取CAP之家的APP推广信息数据 前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 古城微笑少年丶/ 2022年12月15日 14:17/ 0 赞/ 159 阅读
相关 python爬取全国真实地址_Python小试牛刀之爬取本地城市新房价格和地址 import requests from lxml import etree import re import os headers = \{ 'User-Agent 清疚/ 2022年10月25日 15:28/ 0 赞/ 173 阅读
相关 Python爬虫之链家二手房数据爬取 Python 依赖模块: requests parsel csv 功能要求: ![watermark_type_ZHJvaWRzYW5zZmFs 本是古典 何须时尚/ 2022年09月11日 07:23/ 0 赞/ 350 阅读
相关 Python爬取磁力链信息 更新说明 2017.4.23 本程序使用MySQL数据库存储,使用本程序前请手动修改相关程序开头处的数据库连接语句。 需要requests、bs4、pymysql Bertha 。/ 2022年06月17日 10:22/ 0 赞/ 263 阅读
相关 python爬取链家新房数据 转载:https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 impor 清疚/ 2022年05月09日 02:38/ 0 赞/ 221 阅读
相关 50 行代码爬取链家租房信息 最近自己开始学习数据分析的技术,但数据分析最重要的就是数据。没有数据怎么办?那就自己爬一些数据。大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数 淡淡的烟草味﹌/ 2022年02月02日 03:25/ 0 赞/ 303 阅读
还没有评论,来说两句吧...