学分高考 web前端

Pandas如何分块处理大文件？

发布时间: 2022-05-17 17:45:01

Pandas如何分块处理大文件？在处理快手的用户数据时，碰到600M的txt文本，用sublime打开蹦了，用pandas.read_table()去读竟然花了小2分钟，打开有3千万行数据。仅仅是打开，要处理的话不知得多费劲。

解决：读取文件的函数有两个参数：chunksize、iterator。原理分多次不一次性把文件数据读入内存中。

1.指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。

指定chunksize分块读取文件
对文件进行了划分，分成若干个子文件分别处理(to_csv也同样有chunksize参数)

2.指定iterator=True

指定iterator=True
直接看pandas文档相关的内容。

温馨提示：

本文【Pandas如何分块处理大文件？】由作者教培参考提供。该文观点仅代表作者本人，学分高考系信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。

上一篇: 博学谷线上零基础大数据培训班课程大纲内容学什么？

下一篇: 大数据在电子商务的应用有哪些？

相关阅读

教培参考

教育培训行业知识型媒体

相关I T

长沙芙蓉区推荐的web前端线下

济南济阳区推荐的web前端线下培

青岛市南区推荐的web前端线下培

青岛李沧区推荐的web前端线下培

武汉新洲区推荐的web前端线下培

上海浦东新区推荐的web前端线下

广州从化区推荐的web前端线下培

深圳龙岗区推荐的web前端线下培

天津东丽区推荐的web前端线下培

天津宝坻区推荐的web前端线下培

教育资讯

1

县域普通高中振兴有哪些重点举措

2

教育部等六部门联合印发《县域普

3

广西2025年高考录取工作结束顺

4

西藏征集志愿第10号公告

5

黑龙江2025年高考录取工作结束

6

6月7日，2025年全国高考正式拉开

7

倒计时96天！2025年全国高考统考

8

2025年陕西省高考综合改革适应性

9

湖南2025年高考报名将于2024年10

10

2024年全国各省高考人数统计一览

互动交流

微信扫码关注公众号

获取更多考试热门资料

我们采用的作品包括内容和图片部分来源于网络用户投稿，我们不确定投稿用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的权利，请联系我站将及时删除。

内容侵权、违法和不良信息举报

Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号