當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark RDD.countApproxDistinct用法及代碼示例


本文簡要介紹 pyspark.RDD.countApproxDistinct 的用法。

用法:

RDD.countApproxDistinct(relativeSD=0.05)

返回 RDD 中不同元素的近似數量。

參數

relativeSD浮點數,可選

相對準確度。較小的值會創建需要更多空間的計數器。它必須大於 0.000017。

注意

使用的算法基於streamlib的實現“實踐中的 HyperLogLog:最先進的基數估計算法的算法工程”,可在此處獲得.

例子

>>> n = sc.parallelize(range(1000)).map(str).countApproxDistinct()
>>> 900 < n < 1100
True
>>> n = sc.parallelize([i % 20 for i in range(1000)]).countApproxDistinct()
>>> 16 < n < 24
True

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.RDD.countApproxDistinct。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。