当前位置：首页python > 正文

pandas如何读取大型. csv文件(10^7行)?

作者：野牛程序员：2023-11-21 12:21:58python阅读 2774

使用Pandas读取大型CSV文件时，可以考虑使用以下一些技巧来提高性能和降低内存消耗：

指定数据类型：在读取CSV文件时，可以通过dtype参数指定列的数据类型，这有助于减少内存使用。例如，将整数列指定为int32或int64，将浮点数列指定为float32或float64。
```
dtypes = {'column1': 'int32', 'column2': 'float32'}
df = pd.read_csv('large_file.csv', dtype=dtypes)
```
分块读取：使用chunksize参数按块读取文件，这样可以一次性处理文件的一部分，而不是将整个文件加载到内存中。

chunk_size = 10000  # 选择适当的块大小
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)
for chunk in chunks:
    # 处理每个块的数据

选择需要的列：如果只需要文件中的部分列，可以在读取时指定usecols参数，只选择需要的列，从而减少内存使用。
```
columns = ['column1', 'column2']
df = pd.read_csv('large_file.csv', usecols=columns)
```
调整内存设置：可以使用low_memory参数来控制是否使用低内存模式。但请注意，这可能会导致Pandas警告，因为它将根据文件的前几行来猜测每列的数据类型。

df = pd.read_csv('large_file.csv', low_memory=False)

使用dask库：如果文件非常大，考虑使用dask库，它提供了并行处理大型数据集的能力。
```
import dask.dataframe as dd

df = dd.read_csv('large_file.csv')
```

以上是一些可以处理大型CSV文件的方法。选择适当的方法取决于具体需求和计算环境。

野牛程序员教少儿编程与信息学奥赛-微信|电话：15892516892

野牛程序员教少儿编程与信息学竞赛-微信|电话：15892516892

上一篇：pandas中的read_csv参数详解
下一篇：arduino 控制led灯，按一下按钮闪烁，再按一下按钮关闭

相关推荐

最新推荐

热门点击