基于多源数据的公交客流走廊OD获取方法与流程

专利2024-05-12  89


基于多源数据的公交客流走廊od获取方法
技术领域
1.本发明涉及一种数据处理技术,特别涉及一种基于多源数据的公交客流走廊od获取方法。


背景技术:

2.城市里的公交客流走廊为集中了高强度公交运输能力且承担了主要公交客流的走廊,可以很大程度地提高城市公交集约化,对城市的蓬勃发展具有特别的意义。公交客流走廊往往会采取公交专用道作为提升公交运营服务与品质的重要措施。上海在快步实施公交专用道的建设过程中,由于部分线路配套与调整衔接措施的不完善,发生了局部专用道上行驶的公交车数量缺乏、公交线路数不够或者客流走廊上的公交客流变化不大的情况,造成了一定的舆论争议。
3.为了维持公交客流走廊的地位,继续通过建设公交专用道来逐渐扩大公交走廊可以集聚公交客流的作用,且为了提高公交运营的服务质量,上海巴士集团从沪太路公交专用道起,就积极主动实施公交专用道的配套线路调整计划,获得了不错的成效。为了可以进一步复制成功案例,吸取总结经验并予以大力推广,则需要保障公交客流走廊上配套线路调整方案的有效性、可操作性与必要性,还需要结合上海公交多源数据的使用,利用获得的公交客流走廊od(origin,destination起讫点)数据,生成公交站点上下客量、公交客流走廊断面客流量、关键公交od对等客流指标有依据地分析公交客流走廊上的客流情况,进行详尽的数据支撑工作。
4.公交客流走廊od可以使用的上海多源公交数据包括公交gps数据、公交ic卡数据、公交电子路单数据、公交矢量数据等。其中公交ic卡数据目前使用的是第二代上海ic卡数据,存在的问题就是公交gps中的车辆编号没有与ic卡使用的pos机进行关联,这导致要结合使用公交gps数据与公交ic卡数据时,需要首先将编号进行关联。
5.目前有关公交客流走廊与公交od方面的研究存在的问题有:1、大部分研究只关注如何获取公交od,将公交客流走廊与公交od相结合研究的内容较少,缺乏系统性的联系,而实际公交od应用中,往往会针对公交客流走廊进行客流分析,这就需要两者结合;2、很多研究因为条件所限只使用ic卡与gps数据进行研究,缺少其他多源数据的融合互补,导致获得的结果偏差;3、上海公交od处理比较复杂,gps中的车辆编号没有与ic卡使用的pos机进行关联,具有独特性,而专门针对上海公交客流od处理的研究却较少。


技术实现要素:

6.针对公交客流多源大数据支撑公交线路调整的问题,提出了一种基于多源数据的公交客流走廊od获取方法。
7.本发明的技术方案为:一种基于多源数据的公交客流走廊od获取方法,具体包括如下步骤:
8.1)数据预处理:数据每条含上下行线路对应的公交gps数据、公交ic卡数据以及公
交矢量站点数据以及公交电子路单数据,其中公交ic卡数据包括pos机编号、卡号和刷卡时间,公交矢量站点数据包括公交路线上各个站点位置信息,公交电子路单包括线路上下行时间区间,多种来源数据通过线路编号进行关联;还包括公交gps数据进行清洗,从公交矢量站点数据提取出公交物理站点;
9.2)在步骤1)基础上对公交上车点o进行处理:依次包括筛选站点周围的公交gps点、公交gps上下行修正、筛选停靠站公交gps点、计算公交gps站点停留时间区间、计算ic卡刷卡时间区间、建立线路对应车辆的时间区间编码、车辆编号匹配车辆pos机、确定刷卡记录对应的上车站点o;
10.3)在步骤2)基础上对公交下车点d进行处理:基于出行链对公交出行进行分类,分为同一公交线路的上下行、不同公交线路的换乘、公交与轨交之间的换乘三类;
11.4)根据公交线路站点,结合步骤2)和3)的数据信息,集聚成公交物理站点od;
12.5)对已有公交客流走廊沿线的物理站点并进行标记,同时将公交物理站点od连线,并对每个公交物理站点od与公交客流走廊关系进行od分类,用于公交客流走廊线路调整。
13.进一步,所述步骤1)中的公交gps数据清洗具体方法如下:根据公交gps数据包的解析规则进行数据解析,核对每个字段的数据格式准确性;清洗时间空值或坐标空值;对瞬时车速超过120km/h,方位角超过360度数据进行删除;对数据定位明显不准数据的进行清洗;同线路同车时的时间或坐标相同时进行清洗,保留一个,其余删除;公交gps数据只保留在指定城市结果。
14.进一步,所述步骤1)中的公交物理站点获取具体方法如下:
15.将公交矢量站点投影打断公交矢量线路,获得在公交线路矢量点中对应的公交站点坐标;在组成公交线路的所有矢量点中利用点坐标计算每一个点与前一个点的方位角,得到线路走向,从而获得途径每个站点的线路方向;根据相同的站点名称与相同的站点线路方向以及站点坐标的geohash值进行站点聚类,从而得到公交物理站点以及公交线路站点与公交物理站点的对应关系。
16.进一步,所述步骤2)中的公交gps上下行修正具体方法如下:
17.根据筛选站点周围的公交gps点确定每个公交gps点距离最近的公交站点,由于存在修正公交gps点的偏移,在此基本上对公交gps上下行进行以下两种修正:
18.第一种:当公交电子路单中存在该条线路的数据时,根据每个班次的实际发车时间与实际到达时间组成的时间区间来判断每个公交gps点对应时间是否在这个范围里,从而确定该公交gps点对应的是公交上行站点还是下行站点;
19.第二种:当公交电子路单中不存在该条线路的数据时,计算第i个时刻公交gps点与公交某个方向的首站距离si和末站距离di,当si<s
i+1
且di>d
i+1
则说明公交在向末站运行,反之当si>s
i+1
且di<d
i+1
则说明公交在向首站运行,从而确定该公交gps点对应的是公交上行站点还是下行站点。
20.进一步,所述步骤2)中的计算公交gps站点停留时间区间的方法:在每个站点周围停靠站点的公交gps点时间中筛选出时间下限与上限得到这条线路每辆公交车停靠每个站点的停留时间区间;如车站停留时间没法得到的,采用分位点插值法补充,即在两个车站之间漏n站,则在时间上求n等分点作为每个车站停留时间的中点,该中点向两侧扩充时间范
围作为该站的停留时间区间,扩充的时间范围不超过等分时间段长度的一半。
21.进一步,所述步骤2)中的计算ic卡刷卡时间区间方法:根据公交电子路单每个班次的实际发车时间与实际到达时间组成的时间区间,或无电子路单数据时用修正过上下行的首末站点停留时间区间得到的这个班次的时间范围来划分每个pos机对应ic卡刷卡时间记录;针对每个班次内的ic卡刷卡时间,进行kmeans聚类,聚类个数等于这个班次内停靠站点个数;根据每个聚类刷卡时间的下限与上限可以得到对应的ic卡刷卡时间区间。
22.进一步,所述步骤2)中的车辆编号匹配车辆pos机方法:对一条线路建立一个行为所有车辆编号,共i行,列为所有pos机,共j列的矩阵,矩阵每个元素(i,j)为第i辆车停留时间区间编码与第j个pos机刷卡时间区间编码的jaccard系数,jaccard系数计算公式为:其中m
11
表示两条字符串相同位数上均为1的长度,m
01
表示两条字符串相同位数上一个为0,一个为1的长度,m
10
表示两条字符串相同位数上一个为1,一个为0的长度;当车辆数多于pos机个数时,每次在所有辆车停留时间区间中筛选停留时间最少的这辆车并在矩阵中予以剔除该行,直到车辆数等于pos机数;当车辆数少于pos机个数时,每次在所有pos机刷卡时间区间中筛选刷卡量最少的这个pos机并在矩阵中予以剔除该列,直到车辆数等于pos机数;当车辆数等于pos机个数时,采用运筹学的指派问题的方法将车辆与pos机一一匹配。
23.进一步,所述步骤3)中出行三类的分类方法:
24.首先公交下车点处理有3种假设:
[0025]“下一次出行”假设:同一位乘客在当天下一次乘车的上车点靠近上一次乘车的下车点;
[0026]“最后一次出行”假设:针对“下一次出行”假设进行补全,即同一位乘客当天最后一次乘车的下车点靠近当天第一次乘车的上车点。
[0027]“往返出行”假设:同一位乘客当天相邻两次乘坐同一线路的不同上下行时,前一次乘车的上车点另一方向的对称站点是后一次乘车下车点,前一次乘车的下车点另一方向的对称站点是后一次乘车的上车点;
[0028]
同一公交线路的上下行换乘类型判断:根据假设,将已经匹配过上车点的ic卡刷卡数据根据卡号与时间的顺序进行排序,这天最后一条记录的后续相邻记录则关联到该天的第一条记录,形成一个出行链闭环;当相邻两条记录为同一线路的上下行并且上车点是已知时,根据同一线路上下行对称的站点就能找到相对应的下车点;
[0029]
不同公交线路的换乘类型判断:同一张卡根据出行链的时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录;当相邻两条记录为不同线路的上下行,且刷卡时间差在换乘时间范围之内,有刷卡优惠且优惠类型是公交与公交换乘的优惠时,存在不同公交线路的换乘;当这两条线路可以同站换乘时,则该换乘站点即为对应下车点;当不存在同站换乘时,基于刷卡时间的间隔、步行换乘时间的阈值、等车时间的阈值以及后一条记录的上车点来查找这两条线路符合换乘条件最近的换乘站点作为相应的下车点;
[0030]
公交与轨交之间的换乘类型判断:同一张卡根据出行链时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录;当相邻两条记录的刷卡类型为公交
与轨交类型,且刷卡时间差在换乘时间范围之内,有换乘优惠且优惠类型是公交换乘地铁或地铁换乘公交的优惠时,存在公交与轨交的换乘;当前条记录为公交,且后条记录为轨交进站时,根据已知的轨交站点周边最近的公交车站可以找到相应的下车点;当前条记录为轨交出站,且后条记录为公交时,则同样能获得相应的上车点。
[0031]
进一步,所述步骤5)中od分类方法:
[0032]
第一类od点均在客流走廊上:公交od的物理站点均在公交客流走廊沿线;
[0033]
第二类o或d点在客流走廊上:公交od的物理站点只有o点或d点在公交客流走廊沿线;
[0034]
第三类od点均不在客流走廊上:此时又可以分为:
[0035]
od途径走廊:公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊相交;
[0036]
od与走廊无关:公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊不相交。
[0037]
本发明的有益效果在于:本发明基于多源数据的公交客流走廊od获取方法,为公交线路管理提供数据支撑,为客流走廊分析提供依据。
附图说明
[0038]
图1本发明基于多源数据的公交客流走廊od获取方法流程图;
[0039]
图2本发明涉及的jaccard系数示意图;
[0040]
图3本发明下车点同一公交线路的上下行处理示意图;
[0041]
图4a本发明下车点不同公交线路的换乘处理示意图一;
[0042]
图4b本发明下车点不同公交线路的换乘处理示意图二;
[0043]
图5a本发明下车点公交与轨交之间的换乘处理示意图;
[0044]
图5b本发明上车点公交与轨交之间的换乘处理示意图;
[0045]
图6a本发明公交客流走廊od类型示意图一;
[0046]
图6b本发明公交客流走廊od类型示意图二;
[0047]
图6c本发明公交客流走廊od类型示意图三;
[0048]
图7本发明公交客流走廊od分布示意图。
具体实施方式
[0049]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0050]
如图1所示流程图,先数据预处理,然后筛选站点周围的公交gps点,公交gps上下行修正,筛选停靠站公交gps点,计算公交gps站点停留时间区间,计算ic卡刷卡时间区间,时间区间编码,车辆编号匹配车辆pos机,获取上车点o(起点)。接着根据同一公交线路的上下行、不同公交线路的换乘以及公交与轨交之间的换乘获取公交下车点d(终点),最后集聚成公交物理站点od,再基于od点均在客流走廊上、o或d点在客流走廊上以及od点均不在客流走廊上得到公交客流走廊od,结果可以为公交客流走廊分析提供依据。
[0051]
本发明提供了一种基于多源数据的公交客流走廊od获取方法,实现的步骤如下:
[0052]
1、公交上车点o处理。根据关联过的线路编号依次提取每条线路(含上下行)对应的公交gps数据(公交实时位置数据、车牌号)、公交ic卡数据(pos机编号、卡号、刷卡时间、刷卡金额)以及公交矢量站点数据(公交路线上站点位置信息)公交电子路单数据(上下行时间区间),然后针对每条线路进行以下处理:
[0053]
1)筛选站点周围的公交gps点。根据站点周围50米建立缓冲区,提取站点周围的公交gps点,确定每个公交gps点距离最近的公交站点。
[0054]
2)公交gps上下行修正。上一步由于公交gps的偏移,对应的公交站点可能会存在上下行站点匹配错误,因此需要进行相应修正。这里修正分为2种:
[0055]
(1)当公交电子路单中存在该条线路的数据时,根据每个班次的实际发车时间与实际到达时间组成的时间区间来判断每个公交gps点对应时间是否在这个范围里,从而确定该公交gps点对应的是公交上行站点还是下行站点。
[0056]
(2)当公交电子路单中不存在该条线路的数据时,计算第i个时刻公交gps点与公交某个方向的首站距离si和末站距离di,当si<s
i+1
且di>d
i+1
则说明公交在向末站运行,反之当si>s
i+1
且di<d
i+1
则说明公交在向首站运行,从而确定了该公交gps点对应的是公交上行站点还是下行站点。
[0057]
3)筛选停靠站公交gps点。根据公交gps的瞬时车速在15km/h以内,平均车速在10km/h以内来判断车辆已经停靠站点,筛选出这部分公交gps点。
[0058]
4)计算公交gps站点停留时间区间。在每个站点周围停靠站点的公交gps点时间中筛选出时间下限与上限得到这条线路每辆公交车停靠每个站点的停留时间区间。部分车站附近的公交gps点因为种种原因,如偏离过大或者车速过快等原因,导致这些车站停留时间没法得到。这时就用分位点插值法补充,即在两个车站之间漏了n站,则在时间上求n等分点作为每个车站停留时间的中点,该中点向两侧扩充一定时间范围作为该站的停留时间区间。扩充的时间范围不超过等分时间段长度的一半。后续根据刷卡记录匹配相应的站点停留时间区间即可知上车点o。
[0059]
5)计算ic卡刷卡时间区间。根据公交电子路单每个班次的实际发车时间与实际到达时间组成的时间区间,或无电子路单数据时用修正过上下行的首末站点停留时间区间得到的这个班次的时间范围来划分每个pos机对应ic卡刷卡时间记录。为了将ic卡每条刷卡记录进行分类,从而便于后续匹配到相应的上车站点,因此针对每个班次内的ic卡刷卡时间,进行kmeans聚类,聚类个数等于这个班次内停靠站点个数。根据每个聚类刷卡时间的下限与上限可以得到对应的ic卡刷卡时间区间。
[0060]
6)时间区间编码。为了便于时间区间的后续匹配比较,将一天划分为2880段,每段有2个状态,1表示这段属于公交gps站点停留时间区间或ic卡刷卡时间区间,0表示不属于。将这条线路所有车辆对应的公交gps站点停留时间区间与所有pos机对应的ic卡刷卡时间区间分别编码得到每条长度为2880,值为0与1的字符串。
[0061]
7)车辆编号匹配车辆pos机。为了将站点停留时间区间与刷卡时间区间进行关联,首先需要将车辆编号匹配车辆pos机。对一条线路建立一个行为所有车辆编号(共i行),列为所有pos机(共j列)的矩阵,矩阵每个元素(i,j)为第i辆车停留时间区间编码与第j个pos机刷卡时间区间编码的jaccard系数。如图2所示,jaccard系数计算公式为:
其中m
11
表示两条字符串相同位数上均为1的长度,m
01
表示两条字符串相同位数上一个为0,一个为1的长度,m
10
表示两条字符串相同位数上一个为1,一个为0的长度。由于pos机编号与公交车的车牌是没有固定的绑定关系,同一线路的车辆与pos机因为线路编号更新不及时等原因,两者数量未必相等。当车辆数多于pos机个数时,每次在所有辆车停留时间区间中筛选停留时间最少的这辆车并在矩阵中予以剔除该行,直到车辆数等于pos机数;当车辆数少于pos机个数时,每次在所有pos机刷卡时间区间中筛选刷卡量最少的这个pos机并在矩阵中予以剔除该列,直到车辆数等于pos机数;当车辆数等于pos机个数时,采用运筹学的指派问题的方法可以将车辆与pos机一一匹配。
[0062]
8)获取上车点o。根据前面获取车辆编号与车辆pos机的匹配关系,将该线路pos机每条刷卡记录的刷卡时间匹配到对应车辆时间距离最近的站点停留时间区间,从而确定这条刷卡记录的上车站点o。
[0063]
2、公交下车点d处理。公交下车点处理有3种假设:
[0064]
1)“下一次出行”假设:同一位乘客在当天下一次乘车的上车点靠近上一次乘车的下车点。
[0065]
2)“最后一次出行”假设:针对“下一次出行”假设进行补全,即同一位乘客当天最后一次乘车的下车点靠近当天第一次乘车的上车点。
[0066]
3)“往返出行”假设:同一位乘客当天相邻两次乘坐同一线路的不同上下行时,前一次乘车的上车点另一方向的对称站点是后一次乘车下车点,前一次乘车的下车点另一方向的对称站点是后一次乘车的上车点。
[0067]
在这3种假设的前提上,获取下车点基于出行链根据公交出行类型主要分为3类:
[0068]
1)同一公交线路的上下行,如图3所示。根据假设,将已经匹配过上车点的ic卡刷卡数据根据卡号与时间的顺序进行排序,这天最后一条记录的后续相邻记录则关联到该天的第一条记录,形成一个出行链闭环。当相邻两条记录为同一线路的上下行并且上车点是已知时,根据同一线路上下行对称的站点就能找到相对应的下车点。
[0069]
2)不同公交线路的换乘,如图4a、4b所示。同一张卡根据出行链的时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录。当相邻两条记录为不同线路的上下行,且刷卡时间差在换乘时间范围之内,有刷卡优惠且优惠类型是公交与公交换乘的优惠时,存在不同公交线路的换乘。当这两条线路可以同站换乘时,则该换乘站点即为对应下车点。当不存在同站换乘时,基于刷卡时间的间隔、步行换乘时间的阈值、等车时间的阈值以及后一条记录的上车点来查找这两条线路符合换乘条件最近的换乘站点作为相应的下车点。
[0070]
3)公交与轨交之间的换乘。如图5a、5b所示,同一张卡根据出行链时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录。当相邻两条记录的刷卡类型为公交与轨交类型,且刷卡时间差在换乘时间范围之内,有换乘优惠且优惠类型是公交换乘地铁或地铁换乘公交的优惠时,存在公交与轨交的换乘。当前条记录为公交,且后条记录为轨交进站时,根据已知的轨交站点周边最近的公交车站可以找到相应的下车点;当前条记录为轨交出站,且后条记录为公交时,则同样能获得相应的上车点。
[0071]
实际处理公交客流走廊od时一般使用一周的公交gps数据、公交ic卡数据以及公
交电子路单。为了提高处理效率,可以将经过处理的ic数据合并后得到的一周ic卡数据,根据刷卡卡号切分成独立的出行链,每1000个卡号对应的出行链数据为一组,各组根据处理下车点的不同情况可以并行计算处理。
[0072]
3、公交物理站点(现实中的站台)od处理。基于前面获得的上车点o与下车点d可以得到公交线路站点od。根据公交线路站点与公交物理站点的关系,可以将公交线路站点od集聚成公交物理站点od。
[0073]
4、公交客流走廊od处理。筛选出已知公交客流走廊沿线的物理站点并进行标记,同时将公交物理站点od连线。根据公交客流走廊od的特点可以分为以下几种情况:
[0074]
1)od点均在客流走廊上,如图6a所示。公交od的物理站点均在公交客流走廊沿线。
[0075]
2)o或d点在客流走廊上,如图6b所示。公交od的物理站点只有o点或d点在公交客流走廊沿线。
[0076]
3)od点均不在客流走廊上,如图6c所示。此时又可以分为:
[0077]
(1)od途径走廊。公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊相交。
[0078]
(2)od与走廊无关。公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊不相交。
[0079]
将公交物理站点od根据以上几种情况分别处理汇总成od矩阵,即可得到相应类型的公交客流走廊物理站点od。用于公交客流走廊线路调整。
[0080]
在实施本发明前,还需要预先进行数据预处理,包括这几个方面:
[0081]
1、线路编号关联。本发明使用的公交gps与公交电子路单数据来源运管处,公交ic卡为来自公交卡公司的第二代ic卡数据,公交矢量数据则来自互联网,三者关于线路编号的值各不相同。需要将这三种数据来源的线路编号进行关联。
[0082]
2、公交对称站点获取。在匹配下车点同一公交线路的上下行的时候需要使用公交站点上下行信息,获取一个方向对称的另一方向的站点。对称站点的获取方法为计算线路某一方向站点与另一方向所有站点中距离最近的站点即为对称站点。
[0083]
3、公交物理站点获取。公交od对应的是公交线路站点,不是公交实际物理站点,公交客流走廊od需要将公交线路站点od集聚到物理站点上。公交物理站点获取方法为:
[0084]
1)将公交矢量站点投影打断公交矢量线路,获得在公交线路矢量点中对应的公交站点坐标。
[0085]
2)在组成公交线路的所有矢量点中利用点坐标计算每一个点与前一个点的方位角,得到线路走向,从而获得途径每个站点的线路方向。
[0086]
3)根据相同的站点名称与相同的站点线路方向以及站点坐标的geohash值进行站点聚类,从而得到公交物理站点以及公交线路站点与公交物理站点的对应关系。
[0087]
4、公交gps清洗。步骤为:
[0088]
1)根据公交gps数据包的解析规则进行数据解析,核对每个字段的数据格式进行审核。
[0089]
2)清洗时间空值或坐标空值。
[0090]
3)瞬时车速超过120km/h,方位角超过360度或数据定位明显不准的进行清洗。
[0091]
4)同线路同车时的时间或坐标相同时进行清洗,保留后一个,清洗当前。
[0092]
5)公交gps只保留在指定城市如上海的结果。
[0093]
本发明将公交客流走廊与公交od进行联系,研究了如何获取公交客流走廊od;融合了多源数据,包括公交gps数据、公交ic卡数据、公交电子路单数据、公交矢量数据等多源上海公交数据,可以将多源数据取长补短,提高od获取的质量;本发明专门针对上海公交数据的特点,将gps中的车辆编号与ic卡使用的pos机进行关联,从而能为上海公交客流走廊分析提供数据支撑。
[0094]
本发明方法可以对公交客流走廊od分析提供数据支撑,例如根据公交客流走廊物理站点od对的大小以及od集聚到走廊断面的流量,来判断线路哪些区段是客流集聚较多的,属于重要保障区段,在线路调整时需要保留相应线路走向或者新增途径线路来疏解客流。结合站点上下客量的分析,对于那些客流量很小、不重要的线路区段,为了运营收益,可以采取缩线、调整线路首末站等措施,甚至进行撤线,减少走廊上的重复线路,从而将这部分客流转移至相邻线路。当客流走廊od呈现分区域集中分布的特点时,还可以将贯通的线路拆分成多条线路,进行分区间运营,提高运营效率。如图7所示,以共和新路公交客流走廊为例,通过得到的公交客流走廊od可知,目前共和新路早高峰相关od总量为6.06万,剔除与走廊无关量后余2.53万,其中占比最多的为o或d点在走廊上的站点od,有58.06%,其次是od途径走廊的站点od,有31.69%,而od点均在走廊上的站点od仅4.28%。共和新路客流走廊承担了相关线路客流的41.81%,其中有近三分之二的客流在走廊上有上下客,因此必要执行“一路一骨干”的方法,即通过减少走廊上的重复线路,将客流吸引至主干线,同时用鱼骨状的线路进行接驳衔接,帮助将客流集聚至走廊。
[0095]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:
1.一种基于多源数据的公交客流走廊od获取方法,其特征在于,具体包括如下步骤:1)数据预处理:数据每条含上下行线路对应的公交gps数据、公交ic卡数据以及公交矢量站点数据以及公交电子路单数据,其中公交ic卡数据包括pos机编号、卡号和刷卡时间,公交矢量站点数据包括公交路线上各个站点位置信息,公交电子路单包括线路上下行时间区间,多种来源数据通过线路编号进行关联;还包括公交gps数据进行清洗,从公交矢量站点数据提取出公交物理站点;2)在步骤1)基础上对公交上车点o进行处理:依次包括筛选站点周围的公交gps点、公交gps上下行修正、筛选停靠站公交gps点、计算公交gps站点停留时间区间、计算ic卡刷卡时间区间、建立线路对应车辆的时间区间编码、车辆编号匹配车辆pos机、确定刷卡记录对应的上车站点o;3)在步骤2)基础上对公交下车点d进行处理:基于出行链对公交出行进行分类,分为同一公交线路的上下行、不同公交线路的换乘、公交与轨交之间的换乘三类;4)根据公交线路站点,结合步骤2)和3)的数据信息,集聚成公交物理站点od;5)对已有公交客流走廊沿线的物理站点并进行标记,同时将公交物理站点od连线,并对每个公交物理站点od与公交客流走廊关系进行od分类,用于公交客流走廊线路调整。2.根据权利要求1所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤1)中的公交gps数据清洗具体方法如下:根据公交gps数据包的解析规则进行数据解析,核对每个字段的数据格式准确性;清洗时间空值或坐标空值;对瞬时车速超过120km/h,方位角超过360度数据进行清洗;对数据定位明显不准数据的进行清洗;同线路同车时的时间或坐标相同时进行清洗,保留一个,其余删除;公交gps数据只保留在指定城市结果。3.根据权利要求1所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤1)中的公交物理站点获取具体方法如下:将公交矢量站点投影打断公交矢量线路,获得在公交线路矢量点中对应的公交站点坐标;在组成公交线路的所有矢量点中利用点坐标计算每一个点与前一个点的方位角,得到线路走向,从而获得途径每个站点的线路方向;根据相同的站点名称与相同的站点线路方向以及站点坐标的geohash值进行站点聚类,从而得到公交物理站点以及公交线路站点与公交物理站点的对应关系。4.根据权利要求1、2或3所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤2)中的公交gps上下行修正具体方法如下:根据筛选站点周围的公交gps点确定每个公交gps点距离最近的公交站点,由于存在修正公交gps点的偏移,在此基本上对公交gps上下行进行以下两种修正:第一种:当公交电子路单中存在该条线路的数据时,根据每个班次的实际发车时间与实际到达时间组成的时间区间来判断每个公交gps点对应时间是否在这个范围里,从而确定该公交gps点对应的是公交上行站点还是下行站点;第二种:当公交电子路单中不存在该条线路的数据时,计算第i个时刻公交gps点与公交某个方向的首站距离s
i
和末站距离d
i
,当s
i
<s
i+1
且d
i
>d
i+1
则说明公交在向末站运行,反之当s
i
>s
i+1
且d
i
<d
i+1
则说明公交在向首站运行,从而确定该公交gps点对应的是公交上行站点还是下行站点。5.根据权利要求1、2或3所述基于多源数据的公交客流走廊od获取方法,其特征在于,
所述步骤2)中的计算公交gps站点停留时间区间的方法:在每个站点周围停靠站点的公交gps点时间中筛选出时间下限与上限得到这条线路每辆公交车停靠每个站点的停留时间区间;如车站停留时间没法得到的,采用分位点插值法补充,即在两个车站之间漏n站,则在时间上求n等分点作为每个车站停留时间的中点,该中点向两侧扩充时间范围作为该站的停留时间区间,扩充的时间范围不超过等分时间段长度的一半。6.根据权利要求1、2或3所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤2)中的计算ic卡刷卡时间区间方法:根据公交电子路单每个班次的实际发车时间与实际到达时间组成的时间区间,或无电子路单数据时用修正过上下行的首末站点停留时间区间得到的这个班次的时间范围来划分每个pos机对应ic卡刷卡时间记录;针对每个班次内的ic卡刷卡时间,进行kmeans聚类,聚类个数等于这个班次内停靠站点个数;根据每个聚类刷卡时间的下限与上限可以得到对应的ic卡刷卡时间区间。7.根据权利要求1、2或3所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤2)中的车辆编号匹配车辆pos机方法:对一条线路建立一个行为所有车辆编号,共i行,列为所有pos机,共j列的矩阵,矩阵每个元素(i,j)为第i辆车停留时间区间编码与第j个pos机刷卡时间区间编码的jaccard系数,jaccard系数计算公式为:其中m
11
表示两条字符串相同位数上均为1的长度,m
01
表示两条字符串相同位数上一个为0,一个为1的长度,m
10
表示两条字符串相同位数上一个为1,一个为0的长度;当车辆数多于pos机个数时,每次在所有辆车停留时间区间中筛选停留时间最少的这辆车并在矩阵中予以剔除该行,直到车辆数等于pos机数;当车辆数少于pos机个数时,每次在所有pos机刷卡时间区间中筛选刷卡量最少的这个pos机并在矩阵中予以剔除该列,直到车辆数等于pos机数;当车辆数等于pos机个数时,采用运筹学的指派问题的方法将车辆与pos机一一匹配。8.根据权利要求1、2或3所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤3)中出行三类的分类方法:首先公交下车点处理有3种假设:“下一次出行”假设:同一位乘客在当天下一次乘车的上车点靠近上一次乘车的下车点;“最后一次出行”假设:针对“下一次出行”假设进行补全,即同一位乘客当天最后一次乘车的下车点靠近当天第一次乘车的上车点。“往返出行”假设:同一位乘客当天相邻两次乘坐同一线路的不同上下行时,前一次乘车的上车点另一方向的对称站点是后一次乘车下车点,前一次乘车的下车点另一方向的对称站点是后一次乘车的上车点;同一公交线路的上下行换乘类型判断:根据假设,将已经匹配过上车点的ic卡刷卡数据根据卡号与时间的顺序进行排序,这天最后一条记录的后续相邻记录则关联到该天的第一条记录,形成一个出行链闭环;当相邻两条记录为同一线路的上下行并且上车点是已知时,根据同一线路上下行对称的站点就能找到相对应的下车点;不同公交线路的换乘类型判断:同一张卡根据出行链的时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录;当相邻两条记录为不同线路的上下行,
且刷卡时间差在换乘时间范围之内,有刷卡优惠且优惠类型是公交与公交换乘的优惠时,存在不同公交线路的换乘;当这两条线路可以同站换乘时,则该换乘站点即为对应下车点;当不存在同站换乘时,基于刷卡时间的间隔、步行换乘时间的阈值、等车时间的阈值以及后一条记录的上车点来查找这两条线路符合换乘条件最近的换乘站点作为相应的下车点;公交与轨交之间的换乘类型判断:同一张卡根据出行链时间顺序排列,这天最后一条记录的后续相邻记录则关联到该天的第一条记录;当相邻两条记录的刷卡类型为公交与轨交类型,且刷卡时间差在换乘时间范围之内,有换乘优惠且优惠类型是公交换乘地铁或地铁换乘公交的优惠时,存在公交与轨交的换乘;当前条记录为公交,且后条记录为轨交进站时,根据已知的轨交站点周边最近的公交车站可以找到相应的下车点;当前条记录为轨交出站,且后条记录为公交时,则同样能获得相应的上车点。9.根据权利要求1所述基于多源数据的公交客流走廊od获取方法,其特征在于,所述步骤5)中od分类方法:第一类od点均在客流走廊上:公交od的物理站点均在公交客流走廊沿线;第二类o或d点在客流走廊上:公交od的物理站点只有o点或d点在公交客流走廊沿线;第三类od点均不在客流走廊上:此时又可以分为:od途径走廊:公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊相交;od与走廊无关:公交od的物理站点均不在公交客流走廊沿线且公交物理站点od连线与公交客流走廊不相交。

技术总结
本发明涉及一种基于多源数据的公交客流走廊OD获取方法,采用公交GPS数据、公交IC卡数据、公交电子路单数据、公交矢量数据多源上海公交数据来获取公交客流走廊OD。处理流程为:先数据预处理,然后筛选站点周围的GPS点,GPS上下行修正,筛选停靠站GPS点,计算GPS站点停留时间区间,计算IC卡刷卡时间区间,时间区间编码,车辆编号匹配POS机,获取上车点O。接着根据同一公交线路的上下行、不同公交线路的换乘以及公交与轨交之间的换乘获取公交下车点D,最后集聚成公交物理站点OD,再基于OD点均在客流走廊上、O或D点在客流走廊上以及OD点均不在客流走廊上得到公交客流走廊OD,结果可以为公交客流走廊分析提供依据。交客流走廊分析提供依据。交客流走廊分析提供依据。


技术研发人员:阎逸飞
受保护的技术使用者:上海交通规划设计研究院有限公司
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8100.html

最新回复(0)