PySpark - 在数据框中求和一列并将结果返回为 int

PySpark - Sum a column in dataframe and return results as int(PySpark - 在数据框中求和一列并将结果返回为 int)
本文介绍了PySpark - 在数据框中求和一列并将结果返回为 int的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着跟版网的小编来一起学习吧!

问题描述

我有一个带有一列数字的 pyspark 数据框.我需要对该列求和,然后将结果返回为 python 变量中的 int.

I have a pyspark dataframe with a column of numbers. I need to sum that column and then have the result return as an int in a python variable.

df = spark.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "Number"])

我执行以下操作来对列求和.

I do the following to sum the column.

df.groupBy().sum()

但我得到了一个数据框.

But I get a dataframe back.

+-----------+
|sum(Number)|
+-----------+
|        130|
+-----------+

我会将 130 作为存储在变量中的 int 返回,以便在程序中的其他位置使用.

I would 130 returned as an int stored in a variable to be used else where in the program.

result = 130

推荐答案

最简单的方法真的:

df.groupBy().sum().collect()

但是操作很慢:避免groupByKey,你应该使用RDD和reduceByKey:

But it is very slow operation: Avoid groupByKey, you should use RDD and reduceByKey:

df.rdd.map(lambda x: (1,x[1])).reduceByKey(lambda x,y: x + y).collect()[0][1]

我尝试了更大的数据集并测量了处理时间:

I tried on a bigger dataset and i measured the processing time:

RDD 和 ReduceByKey:2.23 秒

RDD and ReduceByKey : 2.23 s

GroupByKey:30.5 秒

GroupByKey: 30.5 s

这篇关于PySpark - 在数据框中求和一列并将结果返回为 int的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持跟版网!

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

patching a class yields quot;AttributeError: Mock object has no attributequot; when accessing instance attributes(修补类会产生“AttributeError:Mock object has no attribute;访问实例属性时)
How to mock lt;ModelClassgt;.query.filter_by() in Flask-SqlAlchemy(如何在 Flask-SqlAlchemy 中模拟 lt;ModelClassgt;.query.filter_by())
FTPLIB error socket.gaierror: [Errno 8] nodename nor servname provided, or not known(FTPLIB 错误 socket.gaierror: [Errno 8] nodename nor servname provided, or not known)
Weird numpy.sum behavior when adding zeros(添加零时奇怪的 numpy.sum 行为)
Why does the #39;int#39; object is not callable error occur when using the sum() function?(为什么在使用 sum() 函数时会出现 int object is not callable 错误?)
How to sum in pandas by unique index in several columns?(如何通过几列中的唯一索引对 pandas 求和?)