如何阅读pyspark中的特定列？

我是新来的pyspark。我想从输入文件中读取特定的列。我知道如何在熊猫中做到这一点如何阅读pyspark中的特定列？

df=pd.read_csv('file.csv',usecols=[0,1,2])

但是在pyspark中有没有类似于这个操作的功能？

来源

2017-05-29 Mohamed Thasin ah

读一个CSV文件通常不是直线前进的@ zlidime的回答暗示。

如果该行在列内容中有;个字符会怎么样？然后你需要解析引号，并且事先知道引用字符是什么。或者，您可能想要跳过标题，或者解析它以获取列名称。

相反，如前所述here可以使用dataframes

df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("te2.csv")

以及查询的列，您可以使用：

df.col("col_1").cast("int")

来源

2017-05-29 12:55:50 ChatterOne

嗨，你可以使用地图来选择特定的列

from pyspark import SQLContext 
from pyspark import SparkConf, SparkContext 
conf = SparkConf().setAppName("ReadCSV") 
sc = SparkContext(conf=conf) 
sqlctx = SQLContext(sc) 
df=sc.textFile("te2.csv") \ 
    .map(lambda line: line.split(";")) \ 
    .map(lambda line: (line[0],line[3])) \ 
    .toDF()

来源

2017-05-29 11:29:46 zlidime

如何阅读pyspark中的特定列？

回答

相关问题