数据挖掘的第一步,当我们手中拿到一份数据,当然是对数据进行观察与预处理了。本文主要对这两个方面做一个个人的总结。 import 掉包? 第0步,调包。。 通常numpy、pandas、scipy、seaborn已经matplotlib是必须的 为防止烦人的warning,还需要 12 import warningswarnings.filterwarnings('ignore') 因为我们不管warning只管error,哈哈 seaborn的设置颜色格式 1 sns.set_style('whitegrid') 以及 1 %matplotlib inline 观察与可视化 一般来说,我们应该首先观察标签的分布以及特征的分布,对于前者通常使用pandas Dataframe的columns,对于后者则是value_counts()和describe()来展示。如 1 df_train.columns 1 int_level = train_df['interest_level'].value_counts() 1 df_train['SalePrice'].describe() describe()会给出标签的各种数值信息,如 123456789 count 1460.000000mean 180921.195890std 79442.502883min 34900.00000025% 129975.00000050% 163000.00000075% 214000.000000max 755000.000000Name: SalePrice, dtype: float64 同时也可以借助于seaborn图来显示 1 sns.distplot(df_train['SalePrice']); 接下来可以看看标签的偏度和峰度(skewness and kurtosis) 12 print("Skewness: %f" % df_train['SalePrice'].skew())print("Kurtosis: %f" % …
数据挖掘流程:数据可视化与预处理 Read More »