
数据分析
文章平均质量分 89
数据分析专栏旨在探讨如何运用现代数据科学技术来解析复杂的数据集,揭示隐藏在数据背后的模式和趋势。本专栏覆盖了从数据获取、清洗、处理到分析和可视化的全过程,涉及多种领域,如地理空间数据、人口统计学等。
图说交通
深耕于交通规划领域,数据分析/gis/sql/python作为辅助分析手段。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于上海图书馆用户与借阅数据解析读者群体特征
本报告基于上海图书馆开放数据竞赛提供的10万余条读者借阅数据,结合大数据分析方法,对上海图书馆读者群体的行为特征进行了系统性研究。数据显示,女性读者占比略高于男性,本科及以上学历者占据主导地位,反映出高学历人群对图书馆资源的高度依赖。尽管绝大多数读者为中国国籍,但来自美国、加拿大和日本等地的国际读者也显示出上海作为国际化大都市的文化吸引力。值得注意的是,许多读者在分馆办证却选择前往资源更为丰富的上海图书馆总馆借阅图书,体现出总馆在服务与资源上的显著优势。原创 2025-07-07 21:10:28 · 1634 阅读 · 0 评论 -
全国空气质量监测站点数据分析:从原始数据到空间可视化
本篇文章研究利用学者王晓磊公开分享的全国城市空气质量历史数据,结合地理信息系统(GIS)技术,深入分析了主要城市的空气质量状况。原始数据按日划分存储,每文件记录一天内全国各监测站点逐时的空气质量指标值,如PM2.5、PM10、SO₂等共15项关键指标。此外,还提供了包含各站点经纬度坐标的文件,便于空间分析。通过将AQI数据与站点列表关联,并在ArcGIS中使用“显示XY数据”功能,实现了站点数据的可视化。采用分级色彩符号系统展示AQI值的空间分布,揭示了空气污染的空间差异性和变化规律。原创 2025-06-10 21:36:18 · 2197 阅读 · 0 评论 -
从地铁客流讲开来:十二城日常地铁客运量特征
本文讨论了2024年10月28日至12月1日期间,包括北上广深四个超一线在内的12座城市地铁客运量在五个完整周内的显著周期性波动。数据显示,工作日客流量明显高于周末,地铁主要承担通勤任务,尤其是在超一线城市中,长距离通勤需求使地铁成为上班族首选。周五因提前下班和社交活动形成一周客流高峰,相比之下,重庆、武汉、西安和南京等旅游城市周末客流量高于工作日,受游客增加及居民放松生活方式影响。苏州、合肥、郑州等地公共交通系统尚在发展,地铁覆盖范围有限,导致日均客运量较低。原创 2024-12-20 21:34:58 · 1899 阅读 · 0 评论 -
Python应用指南:高德拥堵延时指数
本文介绍了如何利用高德地图的驾车路径规划API,结合Python脚本自动化监测上海花木路和芳甸路的交通状况,生成24小时的拥堵延时指数和平均速度数据,并绘制路线规划图。具体而言,本文通过每5分钟记录一次数据的方式,实现了对指定路段的全天候监测,从而能够全面了解早晚高峰的分布情况和平均道路运行速度等直观的路况数据。此外,本文还讨论了高德拥堵延时指数在交通管理、城市规划和公众信息服务中的实际应用,旨在为城市交通管理和研究提供实用的方法和工具。原创 2024-11-21 22:11:47 · 2522 阅读 · 1 评论 -
基于地铁刷卡数据分析与可视化——以杭州市为例(二)
本文通过Python脚本对2019年1月8日至1月14日北京地铁A、B、C三条线路的进站客流数据进行了详细分析。首先,计算了每条线路在全天24小时内各站点的平均进站客流量,并绘制了折线图展示各站点的客流量变化趋势。接着,进一步分析了早晚高峰时段的15分钟客流峰值分布情况,发现早高峰主要集中在08:00-08:30,晚高峰集中在17:15-18:00。最后,通过计算每条线路各站点的平均进站客流,找出了每条线路进站客流前10名的站点。原创 2024-11-08 21:03:33 · 2672 阅读 · 6 评论 -
充电桩基础设施的时空大数据分析:以深圳市为例(一)
本文对深圳市电动汽车充电基础设施的时空分布进行了深入分析。对2022年6月19日至7月18日和2022年9月至2023年9月期间的公共充电桩数据,包括充电桩的实时状态、位置、数量、占用情况及价格等详细信息进行可视化分析,研究现深圳市充电站分布存在显著不均衡性。旨在为优化充电基础设施布局、提升充电服务质量和推动电动汽车技术发展提供科学依据。原创 2024-11-11 21:55:18 · 4107 阅读 · 1 评论 -
充电桩基础设施的时空大数据分析:以深圳市为例(二)
本文从深圳市充电桩的使用率、供需关系及其对价格的影响入手,通过数据分析揭示了充电桩使用模式的变化和用户的充电行为。研究表明,充电桩的使用率在一天中呈现明显的波峰和波谷,尤其是夜间低谷电价时段,充电桩使用量显著增加。春节期间,由于大量人口返乡,充电桩使用量出现明显下降。通过分析2022年9月1日至2023年8月31日的充电桩累计充电量分布,发现充电需求高的地区往往存在较密集的充电桩,有效分散了充电压力。然而,仍有一些标红区域因充电桩数量不足,导致充电需求得不到充分满足。原创 2024-11-16 20:16:39 · 2754 阅读 · 0 评论 -
基于地铁刷卡数据分析与可视化——以杭州市为例(一)
本文分析了2019年1月8日至1月14日杭州市地铁刷卡数据,重点关注工作日的早晚高峰分布情况。数据涵盖3条线路81个地铁站,共7000万条记录。通过路网地图的可视化,展示了各线路站点的连接关系。选择2019年1月8日(周一)的数据进行详细分析,结果显示早高峰集中在7:00-9:00,晚高峰集中在17:00-19:00,且进站晚高峰的峰值比出站晚高峰早约一小时。进一步分析表明,A线的客流量最大,其次是B线和C线,早晚高峰的波动形态基本一致。这些结果有助于理解通勤人群的出行模式,为地铁运营和管理提供参考。原创 2024-10-30 21:49:47 · 2827 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(十一)
本文基于中规院2024年度《中国主要城市共享单车、电单车骑行报告》,分析了吕厝站100米范围内共享单车订单的目的地覆盖范围。通过核密度分析和订单起终点直线距离统计,发现订单终点主要集中在轨道出入口周边,平均出行距离为886米,表明共享单车主要用于短途出行。分析显示,吕厝站的共享单车高峰使用时段在早上的6:00-8:00,订单数量最多,出行目的地的最小几何范围最大。随着时间推移,订单数量和出行目的地的最小几何范围逐渐减小。本文建议优化站点布局、提升用户体验和加强政策支持,以更好地满足城市居民的出行需求。原创 2024-10-11 21:10:46 · 1780 阅读 · 0 评论 -
Python应用指南:利用高德地图API获取地铁站点出入口坐标
本文介绍了如何利用高德地图API获取地铁站出入口的POI数据,并将其处理成便于分析的格式。主要步骤包括:1) 通过高德坐标拾取器生成查询范围的矩形坐标;2) 将大矩形分割成多个小网格,以规避API请求限制,获取每个网格内的POI数据;3) 将获取的GeoJSON数据合并成CSV文件,便于后续处理;4) 对CSV文件中的坐标进行分列,并将坐标从高德坐标系(GCJ-02)转换为国际通用的WGS84坐标系。通过这些步骤,我们可以高效地获取和处理地铁站出入口的详细信息,为城市规划和交通研究提供数据支持。原创 2024-10-10 20:47:40 · 1544 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(十)
本文探讨了厦门市吕厝地铁站各个出入口的共享单车使用情况,通过分析订单起点数据,揭示了地铁站出入口布局对共享单车使用模式的影响。研究采用了两种方法获取出入口坐标:一是通过高德地图手动检索并转换为WGS84坐标系;二是利用高德地图API获取POI数据。统计结果显示,8号口、1号口、6号口和10号口的共享单车订单数量均超过100单,分别占总订单的20.1%、18.5%、17.6%和12.9%,表明这些出入口附近的人流量较大,需求较高。而4号口、2号口、5号口、12号口和3号口的使用量相对较少。原创 2024-10-09 20:59:41 · 2233 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(九)
本文以厦门市吕厝地铁站为例,探讨其800米范围内的综合发展情况。通过POI数据分析,吕厝站周边不仅拥有丰富的生活服务和公司企业资源,还具备一定的商务和住宅区,以及发达的交通设施。尽管医疗保健设施相对较少,但整体上仍是一个综合功能区。路网密度计算显示,吕厝站800米范围内的路网密度为15.53 km/km²,高于思明区平均水平,反映了其作为交通枢纽的高需求。公共交通站点500米覆盖率达到100%,确保了便利的交通连接。共享单车订单分布分析表明,主干道和商业区的使用频率最高,反映了这些区域的人流量大。原创 2024-09-30 21:11:59 · 2143 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(八)
本文基于POI数据,运用优劣解距离法(TOPSIS)对厦门市地铁站的发展情况进行综合评价。TOPSIS是一种多属性决策分析方法,通过计算每个备选方案与理想解和负理想解的距离,评估各个方案的优劣。首先,将不同属性值转换成统一的优化方向,然后通过最大最小值归一化方法进行标准化处理。接着,确定每个属性的理想解和负理想解,计算每个站点与理想解和负理想解的欧氏距离。最后,计算每个站点的相对接近度并进行排序,选择相对接近度最大的站点作为最优方案。结果显示,前10名站点中有7座属于1号线,2号线和3号线各一座。这些站点的原创 2024-09-26 21:39:26 · 2000 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(七)
本文基于POI数据,使用K均值聚类算法对厦门市岛内地铁站站点进行了分类分析。研究使用IBM SPSS Statistics 27.0软件及SPSSPRO在线平台进行数据处理和聚类分析。通过手肘法则确定最佳聚类数量为3类。结果显示,类别1主要以企业办公为主导,生活服务设施丰富但公司企业POI数量较少,适合居住;类别2为混合功能性站点,POI功能分布均衡,适合多种需求;类别3为商业生活服务为主导型站点,生活服务和公司企业POI数量均较高,适合既有居住需求又有工作需求的人群。研究发现,先建成的站点周边业态更为成熟原创 2024-09-25 21:42:20 · 1568 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(六)
本文基于2020年高德地图API平台获取的POI数据,研究了厦门市地铁站点的功能混合度。POI数据包括名称、大小类、地理坐标等,并将火星坐标系GCJ-02转换为WGS-84坐标系。选取了六大类POI(生活服务、医疗保健服务、商务住宅、科教文化服务、交通设施服务、公司企业)进行分析,研究范围涵盖厦门的三条地铁线,影响区设定为800米缓冲区。信息熵用于度量功能类型的分布情况,高信息熵表示功能类型分布均匀,低信息熵表示分布集中。原创 2024-09-24 20:44:02 · 2495 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(五)
本文介绍了如何将电子围栏数据转换成可用的图层数据。通过解析包含坐标点的CSV文件,使用Python脚本将每个电子围栏的坐标点转换为多边形,并保存为Shapefile格式。这些多边形在ArcGIS中展示了电子围栏在路网和地铁站周边的分布情况。进一步,通过计算每个电子围栏区域的中心点并进行核密度分析,生成了共享单车在岛内不同区域的集中程度图。结合人口栅格数据和共享单车订单数据,发现三者在空间上高度重合,表明共享单车的投放策略与人口分布和使用需求紧密相关。原创 2024-09-20 20:46:14 · 3293 阅读 · 1 评论 -
城市脉络下的空间句法:中介中心性、接近中心性与绕行率的深度解析
本文深入探讨了sDNA“整体分析”(Integral Analysis)中的关键指标,包括中介中心性(Betweenness)、接近中心性(Closeness Centrality)和绕行率(Diversion Ratio)。中介中心性衡量网络中节点或边的重要性,通过分析厦门市的路网中介中心性值分布,发现海沧大桥、集美大桥等重要交通枢纽的中介中心性值最高,是交通拥堵的高发路段。接近中心性关注节点快速到达其他节点的能力,分析结果显示岛内中心区域的接近中心性值最高,交通便捷,适合布局公共服务设施。原创 2024-09-19 20:51:04 · 2033 阅读 · 0 评论 -
城市脉络下的空间句法:整合度与选择度的深度解析
本文深入探讨了空间句法中的关键概念——整合度与选择度,并详细解析了它们在城市规划中的应用。整合度(Integration)衡量的是空间元素在整个系统中的中心性和可达性,而选择度(Choice)则反映了一定区域内空间单元作为最短路径被穿行的频率。文中通过sDNA软件工具的具体指标NQPDH(x)和TPBtHn,展示了如何量化分析城市路网的局部与全局特性。结合实际案例,如城市内部与边缘区域的整合度差异,以及重要交通枢纽的选择度分析,揭示了这些指标在预测人流分布与交通拥堵方面的潜力。原创 2024-09-18 20:20:43 · 5527 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(四)
本文介绍了厦门市共享单车与地铁接驳距离的分析结果。研究发现,在地铁站周边600米范围内,共享单车订单量最为集中,超出此范围订单量急剧减少。不同时间段内,用户的容忍度存在差异,早晨7点至8点的通勤高峰时段,用户对距离的要求更高,倾向于在500米内找到共享单车;而在6点和9点时段,用户则更愿意在更大范围内寻找车辆。通过对大样本数据的分析,本文揭示了用户行为模式。此外,本文还考虑了厦门市地铁线路覆盖密度较低等因素对用户行为的影响,并指出当前分析基于有限样本数据,可能存在一定的局限性。原创 2024-09-14 20:41:33 · 1485 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(三)
本文介绍了2020年12月21日上午06:00-10:00期间共享单车订单数据的分析结果。通过对订单时长和距离的统计,发现在去除时长为0的订单并限定最远订单时长为1小时30分钟的情况下,5分钟以内的订单占比为19.3%,5-10分钟的订单比例达到最高的22.4%,而15-20分钟的订单量仅占6.5%,之后形成明显的长尾效应。订单时长的计算方法是通过最早和最晚记录时间的差值除以60秒得出。原创 2024-09-11 20:21:02 · 1263 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(二)
本文通过创建1000m×1000m的渔网对人口分布数据进行分区,分析了共享单车出发地与人口分布之间的关系。研究发现,在2020年12月21日上午06:00至10:00这一时间段内,居住人口密度较高的地区也是共享单车热门出发地,两者呈现出较高的正相关性。此外,岛内(湖里区和思明区)的共享单车使用率较高,这不仅与当地居民的出行需求有关,也与政府的投放政策紧密相连。通过对出发地和目的地的核密度分析,进一步证实了这一结论。原创 2024-09-09 20:37:19 · 1805 阅读 · 0 评论 -
共享单车轨迹数据分析:以厦门市共享单车数据为例(一)
本文通过分析2021数字中国创新大赛公布的厦门市2020年12月21日上午06:00至10:00的数据为例,展示了这段时间内共有78860条记录,平均每小时近2万笔订单,反映出厦门市对共享单车的高需求。分析发现,湖里区和思明区的轨迹线密集,表明岛内共享单车出行更受欢迎。早高峰期间,大部分用户在6:00至6:59出行,显示出较强的出行需求。此外,出发地和目的地分布显示短距离出行为主,湖里区和思明区为主要使用区域。分小时的出发地分布情况也显示出湖里区、思明区及周边区域为热点出发地。原创 2024-09-07 20:17:09 · 2029 阅读 · 1 评论 -
最新OpenStreetMap POI数据(附下载教程)
本文介绍了如何利用OpenStreetMap(OSM)的POI(Point of Interest)数据进行地理信息分析。OSM POI数据涵盖各种兴趣点,如餐馆、酒店、公交站和学校等,对地图绘制、路径规划及其他地理分析任务极为有用。本文提供了最新的OSM POI数据下载地址(Index of /results/osm-to-csv/poi),并特别指出国外城市的POI数据质量较高。通过下载并导入ArcGIS Pro,展示了如何查看和利用这些数据中的关键标签,如经纬度坐标、实体名称、地址信息和联系方式等。原创 2024-09-07 20:05:49 · 6372 阅读 · 3 评论 -
基于python的百度迁徙迁入、迁出数据分析(五)
本文分析了2024年5月1日至5月5日期间上海的迁徙数据,重点探讨了节假日迁徙特征。数据显示,上海的迁出客流呈现出“一超多强”的格局,其中苏州以15.67%的迁出比例稳居首位,形成明显的“一超”城市,而南通、杭州、嘉兴、湖州等城市则构成了“多强”梯队。迁入上海的城市同样呈现出类似的格局,苏州依然是迁入比例最高的城市。整体上看,长江三角洲城市群内的城市占据了迁徙前20名中的绝大多数席位,显示出长三角城市间的紧密联系。原创 2024-07-31 20:21:25 · 1464 阅读 · 0 评论 -
基于python的百度迁徙迁入、迁出数据分析(六)
本文分析了2024年5月1日至5月5日期间苏州市与上海市之间的迁徙数据,结果显示苏州与上海的迁徙联系紧密,互为首选迁入迁出城市。苏州的迁徙格局呈现出“一超多强”的特征,其中上海是最主要的迁徙目的地。此外,北京也成为了苏州迁入迁出城市前20名的守门员,这部分客流主要由商务出行构成。上海大都市圈的概念进一步强化了这些城市之间的联系,尽管迁徙倾向性和都市圈定义有所区别,但苏州、南通等地与上海的迁徙联系依然十分紧密。原创 2024-08-01 19:53:26 · 1636 阅读 · 1 评论 -
从地铁客流讲开来:客流统计与清分释义
本文介绍了地铁系统的常见客流统计指标及其计算方法,包括进站客流、出站客流、换乘客流、客运量、集散量和乘降量等,并详细解释了非换乘站和换乘站的日客运量计算公式。通过示例展示了如何计算单个车站、单条线路以及整个线网的日客运量。此外,还概述了地铁客流清分的概念和几种常用的清分算法,如最短路径法、多路径选择概率法、基于乘客出行路径的清分方法以及综合清分模型原创 2024-08-03 17:07:57 · 2867 阅读 · 0 评论 -
从地铁客流讲开来:地铁客运量特征
本文分析了深圳地铁客运量数据,数据来源于“地铁观察”作者提供的公开数据。通过对2024年5月25日至8月2日的每日客流量进行分析,总结了周内客流特征,发现周五为客流高峰,周末则显著下降。提出了周变系数和月变系数的概念,用于描述不同日期间的客流变化程度,有助于预测未来的客流趋势。分析显示,工作日与周末的客流差异约为18.6%,揭示了部分人群周末不选择地铁出行的特点。结合深圳市2023年统计公报数据,推测常住非户籍人口占比较大,这部分人群在周末可能更倾向于采用其他交通方式出行。原创 2024-08-03 21:52:01 · 2090 阅读 · 0 评论 -
从地铁客流讲开来:超一线城市的客运量特征
本文通过分析2024年端午节期间北上广深四座超一线城市的地铁客运量数据,揭示了周末效应和节假日对地铁客流的影响。所有城市均表现出周五高峰、周六及周日显著下降的趋势。其中,北京和上海在端午节期间地铁客运量下降更为明显,这与两市较早形成的环线网络和限行政策有关,导致市民更多依赖地铁出行。此外,地铁客运量与城市常住人口呈正相关,但当人口规模超过2000万后,每增加单位人口带来的客运量增长开始减缓。广州和深圳因地理位置接近,其客流特征更为相似,而北京和上海则表现出类似的客流模式。原创 2024-08-04 16:06:42 · 923 阅读 · 0 评论 -
OpenCellID 数据集应用:全球移动通信基站(2G-5G)信息的探索与利用
OpenCellID是一个社区维护的项目,提供全球移动通信基站信息的开放数据集,适用于研究人员、开发者和组织。数据集包括GSM、CDMA、UMTS、LTE和5G NR等不同技术标准的基站信息。用户可通过注册获取API token后搜索和下载特定国家的基站数据,例如中国(MCC:460)的2G-5G基站位置信息。下载的数据可用于改进位置服务、优化网络连接等应用。尽管数据较为全面,但部分地区的基站信息可能存在缺失。原创 2024-08-06 19:59:04 · 3554 阅读 · 10 评论 -
基于python的百度迁徙迁入、迁出数据分析(九)
本文通过分析近三次全国人口普查数据及2024年上半年百度迁徙数据,探讨了上海大都市圈的人口虹吸效应。在过去十年中,上海大都市圈各城市人口综合增长率稳定,显示出协同发展趋势。2024年上半年的百度迁徙数据显示,宁波、苏州、上海、南通、常州等城市出现人口净迁出,而无锡、嘉兴、舟山、湖州等城市为人口净迁入,这表明在当前统计周期内这些城市的“推力”与“拉力”与人口虹吸型城市的直观印象有所不同。人口迁移模式的变化可能受到多种因素的影响,包括统计口径等因素。原创 2024-08-13 19:43:01 · 933 阅读 · 0 评论 -
基于python的百度迁徙迁入、迁出数据分析(八)
本文通过分析2019年至2024年期间上海迁出人口的百度迁徙数据,探讨了重大公共卫生事件对人口迁徙模式的影响。2020年武汉封城导致上海迁出人口规模强度短期内达到新峰值后迅速下降。2021年和2022年,随着疫情防控常态化,迁徙强度虽有所恢复但仍低于疫情前水平。2023年和2024年,迁徙强度基本恢复到疫情前的状态,显示出疫情防控措施放宽后,人们的生活和出行习惯正在逐步恢复正常。春节期间迁徙强度峰值通常出现在春节前2-3天,随后迅速下降,春节假期结束后逐渐达到平稳波动状态。原创 2024-08-13 19:43:15 · 1213 阅读 · 0 评论 -
基于python的百度迁徙迁入、迁出数据分析(十)
本文通过分析百度迁徙数据,探讨了2024年2月1日至8月1日期间宁波、苏州、上海、南通、常州等地的迁徙特征。以上海为例,观察到迁出人口有四个显著波峰,分别对应春节期间、清明节、五一劳动节和端午节。迁出峰值普遍高于迁入峰值约7%,表明较多人群选择短途出游。在非节假日时段,上海的迁徙数据也显示出规律性,特别是6月最后一周和7月第一周。以湖州为例,分析了其作为迁入大于迁出城市的特征,指出湖州的人口增长主要得益于人口净流入,尤其是节假日期间,净流入客流几乎为迁出客流的两倍,反映了湖州作为旅游目的地的吸引力。原创 2024-08-14 21:09:53 · 1549 阅读 · 0 评论