Python pyspark RandomRDDs.normalVectorRDD用法及代碼示例

本文簡要介紹 pyspark.mllib.random.RandomRDDs.normalVectorRDD 的用法。

用法: static normalVectorRDD(sc, numRows, numCols, numPartitions=None, seed=None)

生成由包含 i.i.d 的向量組成的 RDD。從標準正態分布中抽取的樣本。

1.1.0 版中的新函數。

參數：

sc：SparkContext: SparkContext 用於創建 RDD。
numRows：int: RDD 中的向量數。
numCols：int: 每個向量中的元素數。
numPartitions：整數，可選: RDD 中的分區數(默認值：sc.defaultParallelism)。
seed：整數，可選: 隨機種子(默認值：隨機長整數)。

pyspark.RDD: 帶有包含 i.i.d 的向量的向量的 RDD。樣本 ~ N(0.0, 1.0) 。

例子：

>>> import numpy as np
>>> mat = np.matrix(RandomRDDs.normalVectorRDD(sc, 100, 100, seed=1).collect())
>>> mat.shape
(100, 100)
>>> abs(mat.mean() - 0.0) < 0.1
True
>>> abs(mat.std() - 1.0) < 0.1
True

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.random.RandomRDDs.normalVectorRDD。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：