python读取hdfs上的csv文件
作者:野牛程序员:2023-07-19 08:24:21python阅读 2987
要在Python中读取HDFS上的CSV文件,可以使用PySpark来实现。PySpark是Apache Spark的Python API,它提供了访问和操作分布式文件系统(如HDFS)的功能。以下是一个使用PySpark读取HDFS上的CSV文件的示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder \\
.appName("Read CSV from HDFS") \\
.getOrCreate()
# 读取CSV文件
df = spark.read.csv("hdfs://<HDFS地址>/<CSV文件路径>")
# 显示数据框架内容
df.show()
# 关闭SparkSession
spark.stop()在代码中,需要将<HDFS地址>替换为你的HDFS集群的地址,<CSV文件路径>替换为你要读取的CSV文件的路径。然后,使用spark.read.csv()方法来读取CSV文件并将其加载到Spark数据框架(DataFrame)中。最后,可以使用df.show()来显示数据框架的内容。
确保已经安装了PySpark,并使用正确的HDFS地址和CSV文件路径进行替换。还可以根据需要进一步处理和操作数据框架。
野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892

- 上一篇:python获取csv列名
- 下一篇:python打开csv文件的表格
