Python如何读取数据量百万级的CSV文件数据?

作者：野牛程序员：2023-11-21 12:15:23python阅读 2996

使用Python读取百万级的CSV文件数据时，可以考虑以下几种方法：

使用pandas库：

import pandas as pd

chunk_size = 100000  # 指定每次读取的行数
csv_file = 'your_file.csv'

# 使用chunksize参数分块读取
chunks = pd.read_csv(csv_file, chunksize=chunk_size)

for chunk in chunks:
    # 处理每个块的数据
    process_data(chunk)

使用csv模块：

import csv

csv_file = 'your_file.csv'

with open(csv_file, 'r') as file:
    reader = csv.reader(file)
    for row in reader:
        # 处理每一行的数据
        process_data(row)

使用Dask：Dask是一个用于并行计算的工具，它可以处理比内存更大的数据集。它的接口类似于pandas，但是可以处理分布式计算。
```
import dask.dataframe as dd

csv_file = 'your_file.csv'
df = dd.read_csv(csv_file)

# 处理数据
process_data(df.compute())
```

使用numpy（适用于数值计算）：如果你主要进行数值计算，可以使用numpy来处理数据。

import numpy as np

csv_file = 'your_file.csv'

# 使用numpy的genfromtxt方法
data = np.genfromtxt(csv_file, delimiter=',', names=True, dtype=None)

# 处理数据
process_data(data)

选择适合需求的方法，考虑文件大小、系统内存等因素。如果数据量非常大，可能需要考虑分布式计算框架，如Apache Spark。

野牛程序员教少儿编程与信息学奥赛-微信|电话：15892516892

Python如何读取数据量百万级的CSV文件数据?

相关推荐

最新推荐

热门点击