如何处理片段式停车数据

  统计/机器学习 数据预处理 时间序列 数据可视化 应用场景    浏览次数:3590        分享
0

我现在有停车场的停车数据,大体的数据如下:


df <- data.frame("carpark_No" = c("A1", "A2", "B3", "C9", "A1", "B3"), 
                 "entry_date" = c("1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019"), 
                 "entry_time" = c("8:30am", "9:00am", "10:35am", "9:33am", "7:50pm", "8:01am"), 
                 "exit_date" = c("2/6/2019", "1/6/2019", "3/6/2019", "1/6/2019", "2/6/2019", "1/6/2019"), 
                 "exit_time" = c("5:30pm", "9:00pm", "4:35am", "6:00pm", "9:00am", "1:00pm"))


注释:

carpark_No: 停车场号码,区分不同的停车场

entry_date: 每辆车进入停车场的日期

entry_time: 每辆车进入停车场的时间

exit_date: 每辆车出停车场的日期

exit_time: 每辆车出停车场的时间


总的数据非常多,每一行代表一辆车进出停车场,目前我想先从停车位的占有率来入手,占有率 = 真实占有车位/总车位数, 对于真实占有车位的话,只能按时间段来算(对“点时间”和“进入时间”和“出去时间”进行对比),但是我现在有的数据是5年的,所以非常多,把时间段定的太小不太现实,希望大神能指点下,如何进行分析,除了占有率以外,其他的应用也可以,希望大家给出意见,非常感谢!

 

yangkewen123321   2019-09-18 21:33



   3个回答 
2

这个数据集感觉挺有意思的。占用率可以从两个方向看:

1)每个停车场每年的占用率,每个停车场可以得到5个数据点

2)每个停车场每个小时的占用率,然后每个停车场可以得到24个数据点

除了占用率,还有进入停车场时间点,和出停车场时间点。可以做个直方图,横坐标是24个小时,从0到23,纵坐标是比重。

还有,你可以做平均停车时长的计算,就是两个时间相减,同样也可以做直方图。

SofaSofa数据科学社区DS面试题库 DS面经

matt   2019-09-18 22:50

非常感谢你的回复! 你说的两个方向我很赞同,我首先考虑要做的就是每年的比较,因为数据是五年的,想看一下大概的趋势,但是每年的跨度很大,我现在有的数据是“进入时间”和“出去的时间”,要计算每年的占有率,还是要先计算每天的占有率先。 问题1,要计算每天的占有率,我需要知道真实占有车位的数目,这个用数据算的话,是无法直接得到的,因为同一个停车位,一天之内,会有不同的车停在上面,上一辆车走了以后,过一段时间就会有下一辆车,这样如果是group_by(停车场)%>% tally()算出来的就是一天内进进出出的所有车的数目,一般来说是大于总停车位的,因此,我需要一个算法,确定一个更小的时间段内,真实占有停车位数目。 问题二, 如果我得到了每一天的占有率数目,如何得到每一年的占有率,一般我想到的就是做一个平均数,sum/365,但是还有没有其他更好的方法呢,比如去分析每一个停车场的分布(boxplot)等等 希望各位前辈可以指点我一下,我刚开始做数据,对于大方向有些茫然。感谢 - yangkewen123321   2019-09-19 08:45
1

我觉得你可以用采样的方法来估计占有率。

比如你想估计停车场A1在2019年1月5日上午9点到10点的占用率,你可以采样3个时间点

t1 = 2019-01-05 09:15am, t2 = 2019-01-05 09:30am, t3 = 2019-01-05 09:45am

然后你再计算entry_date_entry_time <= t1 <= exit_date_exit_time的行数,这个行数就是t1时刻在A1停车场内的车辆的数量。同理,你也可以计算t2,t3时刻的占用率。

t1,t2,t3三个点的均值可以作为整个9点到10点时间段的估计值。

这样计算量会小很多。

SofaSofa数据科学社区DS面试题库 DS面经

卡里昂   2019-10-04 13:00

0

这个问题和你的挺类似的,参考一下吧

How To Calculate Occupancy Rate. (Parking)

SofaSofa数据科学社区DS面试题库 DS面经

u_u   2019-09-20 14:26



  相关讨论

lstm可以用来做产量销量预测吗

逻辑回归评分卡案例中的处理过程无法实现对多个特征进行分箱

cvr和ctr的区别是什么?

想请教机器学习能不能解决一个问题

关于一个视频任务的分类和解决问题探讨

火车站晚点预测

评分卡模型是什么?

商业数据模型中lead score是什么意思?

互联网或者业界中的“数据治理”是什么意思?

fatigue model是什么模型?

  随便看看

micro和macro F1 score分别是什么意思?

python直方图y轴显示占比,而不是绝对数值

推荐系统算法里的cold start是什么意思?

为啥Xgboost比GradientBoost好那么多?

训练神经网络中经常提到的epoch是什么意思