共享单车数据分析和共享单车用户行为分析PPT
从数据分析,到数据展示,完成一个完整数据分析项目的全部过程
影响骑车人数的因素有哪些?
3.1导入数据源
3.2.查看各字段数据类型、缺失值
训练集和测试集没有缺失值
3.3 查看数据集信息
数据说明:
将训练集和测试集放一起处理
选择子集、列表重命名本例不需要
4.1删除重复值
合并后出现缺失值:主要是casual - 未注册用户租借数量、 registered - 注册用户租借数量考虑到目前都是注册用户才能使用共享单车,我们删除casual和registered
4.2 处理缺失值没有缺失值
我们删除casual和registered
(count)这里一列是我们的标签,用来做机器学习预测的,不需要处理这一列
4.3 特征提取(一致化处理)
4.3.1数据分类
onehot编码的优点可以总结如下:
对于sex这样 处理后 只两个的特征的 暂时不作 onehot编码处理
4.3.2 数值类型数据不用处理
4.3.4 处理分类数据
我们这里只处理:季节和天气
bikeDf['season'].head()
天气
4.4异常值处理
无异常值
5.1 特征选择
特征值选择
6.1使用热力图分析特征值与
分析得出:
6.1租车人数在各特征值下的箱线图
分析得出:1、租车人数在150左右2、一天中,出现两个用车高峰,一个是上午8点、一个是下午17点。分析原因可能是早晚高峰出行,导致用车人数增多。3、秋季与夏季天气温暖租车量较高,春天最少4、2012年相比2011年,租车人数中位数上升,共享单车出行方式市场越好5、天气好时的用车中位数明显高于坏天气的中位数
6.2查看温度、体感温度、湿度与风速的分布情况
full_X_1[full_X_1["windspeed"]!=0]["windspeed"].describe()
temp(实际温度) 主要分布在10到20atemp(体感温度) 主要分布在20-30humidity(湿度)主要分布在40-80windspeed_rfr(风速)主要分布在5-10
可视化并观察数据
6.3整体观察
时间hour 出现两个峰值时间year 租车数量逐年提升月份month 租车数量集中在5-10月季节season 租车重数在秋天天气wheather 天气好坏直接影响租车数量风速windspeed 与count成负相关湿度humidity 租车数量集中在50温度temp 租车数量集中在20-30体表温度atemp 猪车数量集中在20-30
6.4逐项分析 折线图
分析:
6.4.2 温度对租赁数量的影响先观察温度的走势
分析:
2-4月租车人数逐月提升
6-10达到峰值并趋于平缓
10月后租车人数出现下降
6.4.3 天气
分析:
租车人数受天气好坏影响很大
6.4.4 风速
观察一下租赁人数随风速变化趋势,考虑到风速特别大的时候很少,如果取平均值会出现异常,所以按风速对租赁数量取最大值。
分析:
大于20租车数量降低,小于20租车人数始终保持在较高数量
6.4.5湿度humidity
分析:
湿度为20租车人数出现峰值,大于20之后随之降低
6.4.6温度temp
分析:
0-35度租车数量随着温度的升高而增加
35度后租车人数随温度的升高而减少
6.4.6体表温度atemp
分析:
0-40度租车数量随着体表温度的升高而增加
40度后租车人数随体表温度的升高而减少
7.1 建立训练数据集和测试数据集
7.2 训练模型
随机森林回归
7.3评估模型
1、时间hour :每天上下班时间是两个用车高峰,而中午也会有一个小高峰,一个是上午8点、一个是下午17点2、时间year :租车数量逐年提升3、月份month 、季节season 租车数量集中在5-10月,租车重数在夏天和秋天
4、天气wheather :天气好坏直接影响租车数量5、风速windspeed :大于20租车数量降低,小于20租车人数始终保持在较高数量6、湿度humidity :湿度为20租车人数出现峰值,大于20之后随之降低7、温度temp :