Streaming Pipeline in Python - 2

除了上一篇文章中提到的几个问题,在使用Generator Expression的过程中,还遇到了一个bug。
Read more

Streaming Pipeline in Python - 1

最近用python 2.7做数据处理。数据说大不大,说小不小,千万级别。显然用Hadoop是大材小用。可由于每笔数据都是一个很大的json对象,处理起来很耗内存。单机加到8GB,依旧会出现OOM。不过还好此类问题有成熟的解决方案“流水线式的数据处理”:每次从文件读一笔记录数据,处理一笔数据,把处理结果持久化,相应的对象实例(内存)被回收。方案成熟易实现。先把代码列在下面,然后再解释其中遇到的坑。
Read more