Python pyspark DataFrame.values用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.values 的用法。

用法: property DataFrame.values

返回 DataFrame 或系列的 Numpy 表示形式。

警告

我们建议改用DataFrame.to_numpy() 或Series.to_numpy()。

注意

仅当生成的 NumPy ndarray 预计很小时才应使用此方法，因为所有数据都加载到驱动程序的内存中。

numpy.ndarray

例子：

所有列都具有相同类型(例如 int64)的 DataFrame 会生成相同类型的数组。

>>> df = ps.DataFrame({'age':    [ 3,  29],
...                    'height': [94, 170],
...                    'weight': [31, 115]})
>>> df
   age  height  weight
0    3      94      31
1   29     170     115
>>> df.dtypes
age       int64
height    int64
weight    int64
dtype: object
>>> df.values
array([[  3,  94,  31],
       [ 29, 170, 115]])

具有混合类型列(例如 str/object、int64、float32)的 DataFrame 会生成容纳这些混合类型(例如 object)的最广泛类型的 ndarray。

>>> df2 = ps.DataFrame([('parrot',   24.0, 'second'),
...                     ('lion',     80.5, 'first'),
...                     ('monkey', np.nan, None)],
...                   columns=('name', 'max_speed', 'rank'))
>>> df2.dtypes
name          object
max_speed    float64
rank          object
dtype: object
>>> df2.values
array([['parrot', 24.0, 'second'],
       ['lion', 80.5, 'first'],
       ['monkey', nan, None]], dtype=object)

对于系列，

>>> ps.Series([1, 2, 3]).values
array([1, 2, 3])

>>> ps.Series(list('aabc')).values
array(['a', 'a', 'b', 'c'], dtype=object)

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.values。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

返回：

例子：