【开题报告】基于大数据的北京市租房的数据分析与可视化
作者:mmseoamin日期:2024-02-06

题  目

基于大数据的北京市租房的数据分析与可视化

一、选题的目的、意义、研究现状,本选题研究的基本内容、拟解决的主要问题:

(一)选题的目的及意义

随着一届又一届的大四学生即将毕业并去往一个陌生的城市工作,实现自己的人生价值,在一个陌生的城市居住就成了每一个即将毕业的大四学生面临的一个不可避免的难题。本文以北京为例,拟通过对北京市租房数据进行分析及可视化,帮助更多学生去找到一个心仪的房子。

本文通过爬取北京区域位置数据,房屋面积数据,租金数据等,运用大数据技术采集分析之后,再对得到的结果进行数据可视化处理,在价位,面积,距离等多方面都能够清晰明了的给有需求的学生一个参考意见。

(二)研究现状

    住房是兼具消费品和投资品双重属性的特殊商品,建立住房市场租买选择机制,做好配套工作,可以促进住房梯级消费,引导新就业大学生合理解决住房问题。

邵挺(2020)指出我国住房租赁市场目前具有房源供给短缺、住房品质较差、机 构化比重不高、供应结构不匹配、租赁市场乱象较多、监管体系不健全六个困境,并从 盘活存量房、完善配套政策、完善法律法规、落实租购并举四个方面提出了建议[6]。金占勇和王萌(2021)结合实际案例从住房环境、金融环境、监管环境三个维度 对我国住房租赁市场现存的问题做出了分析,并从以上方面分别提出了规范住房租赁市 场的建议。陈思霓从社会环境、经济环境、政策法制环境这三个方面论证了新就业人员住房保障制度推进的可行性[7]。许帅文等人(2020)对南宁市500名新市民租房需求影响因素进行实证研究,发现房屋周边的娱乐和餐饮配套设施、交通可达性、租金数额、租金缴纳方式、传统购房观念、购房补贴以及购房落户政策等因素是影响其租房需求的显著因素[8]。

综上所述,尽管各个学者对于住房选择的影响因素研究中都涉及到各项个人基本特征因素,然而基于研究的目标群体不同、研究时各地的住房租赁市场的状况不同、生活方式不同等多方面影响,因此照搬各学者的实证结果是有局限性的,可以 适当借鉴作为实证分析时的参考,应结合大学生在北京市住房租赁市场的实际情况,对其租房选择影响因素进行分析。

(三)研究的基本内容

从网上获取北京市租房数据文件,文件包含date、id、title、price、comment_count以及name等特征属性,基于这些值,以python为基础,使用相关模块以及数据可视化技术对租房数据进行研究。具体如下:

  • 爬取数据,数据清洗,提取有用信息增加为新列。数据是以csv格式保存MySQL数据库中,在MySQL调用读取数据在运用ECharts上的模板进行数据可视化,得到可视化图表之后进行数据分析,并提供参考建议。
  • 数据分析。通过可视化展示出各房源的数据、地理位置数据、房屋面积数据与价位数据可视化图表,用以分析出较为合适的决策。
  • ECharts应用。将之前处理好的数据进行进一步的加工处理,然后制作成数据表格,再在ECharts中找到合适的表格,把处理好的数据调用到对应数据表的代码之中进行可视化处理。

此次分析需要使用python相关的数据爬取模块爬取我们所需要的数据,分析得出数据中的价值后使用数据可视化技术对数据进行可视化处理,用于给用户提供参考,获得一些建议使用户得到指导,更加方便用户进行筛选。因此,基于大数据分析与可视化所得结论,可以对用户的决策提供更加有力的支撑具有一定的价值。

(四)拟解决的主要问题

1.爬虫在爬取数据的时候,存在对目标网页因为过多访问被封禁ip的情况

二、选题研究步骤、研究方法及措施: 

(一)选题研究步骤

1.准备阶段:

 (1)收集资料:收集有关爬虫,数据可视化的相关文献。

 (2)整理分析资料。

 (3)撰写开题报告。

2.研究阶段:基于python的模块以及衍生算法研究数据,完成论文初稿。

3.修改完善论文,完成论文终稿。

(二)课题研究方法

1.文献研究法:通过查阅数据分析与机器学习相关文献,对其进行研究与分析,为本文寻找理论支持,学习其中的实用方法,使用文献研究法能了解python以及可视化技术的具体运用方法以及适用场景,帮助确定研究课题基本方向。

2.比较分析法:通过对比不同房源之间各个数据之间的差异,借以了解价格与不同条件的不同房源数据之间的关系,再借此分析其中的关系即比较各个房源数据,查看各个参数对于价位高低的相关程度。

三、选题研究工作进度:

起讫日期

主要工作内容

选题、调研、收集资料

论证、开题、撰写开题报告

实践研究、资料搜集过程

论文写作

中期检查

论文答辩

四、主要参考文献:

[1]许家卓,新就业大学生住房支付能力及保障对策研究 ——以西安市为例[D].西安:西安建筑科技大学,2018.

[2]陈智鑫,面向高校大学生校外租房的成都T公寓公司商业计划书[D].成都:电子科技大学.2022.

[3]史素琼,基于数据分析的路灯数据可视化平台的设计与实现[D].郑州:郑州大学.2021.

[4]汪晗,云输库服务系统设计与实现[D].成都:电子科技大学,2020.

[5]阮少东,闫法奇大数据可视化技术在智慧城市规划中的应用[D].成都:西安城市规划研究院,2022.

[6]邵挺.中国住房租赁市场发展困境与政策突破[J].国际城市规划, 2020,35(06):16-22.

[7]金占勇,王萌.住房租赁市场现存问题分析研究[J].上海房地, 2021(02): 8-10.

[8]许帅文,汪灏,汪夏明,万亚辉.新市民租房需求影响因素研究[J].建筑经济, 2020,41(03):104-108.

整体思路

一、项目背景与目标

随着城市化进程的加速和人口流动性的增加,租房市场逐渐成为人们关注的焦点。北京市作为中国的首都,租房市场尤为活跃。然而,租房市场存在诸多问题,如价格混乱、房源信息不对称等。为了解决这些问题,本项目旨在利用大数据技术对北京市租房数据进行深入分析,并通过可视化手段呈现分析结果,为租房双方提供决策支持。

二、项目内容与功能

  1. 数据收集:收集北京市各区的租房数据,包括房源信息、租金、地理位置等。
  2. 数据清洗:对收集到的数据进行清洗和预处理,去除异常值、缺失值和重复数据。
  3. 数据分析:利用统计学和机器学习等方法对租房数据进行深入分析,包括价格趋势、房源供需关系、热门区域等。
  4. 数据可视化:通过图表、地图等方式将分析结果进行可视化展示,包括租金分布图、房源热力图等。
  5. 决策支持:为租房双方提供决策支持,包括推荐合适的房源和租金预测等。

三、技术方案与实现

  1. 数据收集:利用爬虫技术从各大租房网站和数据平台收集数据。
  2. 数据清洗:使用Python的Pandas库进行数据清洗和预处理。
  3. 数据分析:采用R语言进行数据分析,利用ggplot2、dplyr等库进行数据可视化。
  4. 数据挖掘:使用Python的Scikit-learn库进行数据挖掘和机器学习,如线性回归、决策树等。
  5. 数据存储:使用MySQL数据库进行数据存储,利用Python的PyMySQL库进行数据交互。
  6. 可视化展示:使用JavaScript的D3.js库进行前端可视化展示,与Python进行数据交互。

四、项目流程与安排

  1. 第一阶段(1-2个月):确定项目需求和目标,设计数据收集方案,并开始收集数据。同时,进行技术准备和可行性评估。
  2. 第二阶段(2-4个月):进行数据清洗和预处理,去除异常值、缺失值和重复数据。同时,进行初步的数据分析和可视化展示。
  3. 第三阶段(4-6个月):深入进行数据分析,挖掘数据中的规律和趋势。同时,优化可视化效果,提高交互性和用户体验。
  4. 第四阶段(6-8个月):对分析结果进行归纳和总结,撰写技术报告和论文。同时,准备项目答辩和成果展示。
  5. 第五阶段(8-9个月):进行项目答辩和成果展示,回答评审老师的提问和质疑。同时,对项目进行总结和反思,为未来工作提供参考。

五、预期成果与评估

  1. 完成北京市各区的租房数据的收集和分析工作,并形成详细的数据报告。
  2. 通过可视化手段展示分析结果,为租房双方提供决策支持。
  3. 挖掘数据中的规律和趋势,为未来租房市场的发展提供参考。
  4. 撰写技术报告和论文,为相关领域的研究提供借鉴和参考。
  5. 准备项目答辩和成果展示,展示项目成果和实践经验。

六、风险评估与对策

  1. 数据收集困难:由于租房数据的来源广泛且复杂,可能面临数据收集困难的问题。对策:多渠道收集数据,包括官方数据、租房网站、社交媒体等。同时,对数据进行去重和清洗,保证数据的质量和准确性。
  2. 技术实现难度:由于涉及的大数据处理和分析技术较为复杂,可能面临技术实现难度的问题。对策:选择成熟可靠的技术方案,并进行技术预研和可行性评估。同时,加强团队成员的技术培训和学习,提高技术水平和解决问题的能力。