python pandas 性能优化小技巧

行循环操作

针对每一行进行的操作,会触发Python解释器开销,速度非常慢;
可以采用 numpy 向量化操作,提升速度

选用适当的数据类型

pandas 默认使用高精度类型,这就导致无效内存占用过高;
对于精度要求不高的数据,可以在加载数据的时候调整下数据类型,把高精度调整为合适的低精度。

重复的字符串可以用 category 代替 object 类型。

分块加载

采用 pandas 自带的 chunksize 参数分块加载数据。