處理大數據集的建議

最近的一些比賽如 1.及時刪除無用變量並垃圾回收 通常我們在特徵工程中會涉及大量的轉換操作,產生很多的中間變量等,除了使用 1 2 3 4 5 6 7 8 temp = pd.read_csv( #do something to the file temp[ #delete when no longer needed del #collect residual garbage gc.collect() 2.預定義數據類型 pandas一般會自己推斷數據類型,不過傾向於使用耗費空間大的,如下面例子所示,預定義數據類型節省了超過一半的空間。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 …

處理大數據集的建議 Read More »