當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R ggplot2 stat_ecdf 計算經驗累積分布


經驗累積分布函數 (ECDF) 提供了另一種分布可視化。與依賴密度的其他可視化(如 geom_histogram() )相比,ECDF 不需要任何調整參數,並且可以處理連續變量和分類變量。缺點是它需要更多的訓練才能準確解釋,並且底層的視覺任務更具挑戰性。

用法

stat_ecdf(
  mapping = NULL,
  data = NULL,
  geom = "step",
  position = "identity",
  ...,
  n = NULL,
  pad = TRUE,
  na.rm = FALSE,
  show.legend = NA,
  inherit.aes = TRUE
)

參數

mapping

aes() 創建的一組美學映射。如果指定且inherit.aes = TRUE(默認),它將與繪圖頂層的默認映射組合。如果沒有繪圖映射,則必須提供mapping

data

該層要顯示的數據。有以下三種選擇:

如果默認為 NULL ,則數據繼承自 ggplot() 調用中指定的繪圖數據。

data.frame 或其他對象將覆蓋繪圖數據。所有對象都將被強化以生成 DataFrame 。請參閱fortify() 將為其創建變量。

將使用單個參數(繪圖數據)調用function。返回值必須是 data.frame ,並將用作圖層數據。可以從 formula 創建 function (例如 ~ head(.x, 10) )。

geom

用於顯示數據的幾何對象,可以作為 ggproto Geom 子類,也可以作為命名去除 geom_ 前綴的幾何對象的字符串(例如 "point" 而不是 "geom_point" )

position

位置調整,可以是命名調整的字符串(例如 "jitter" 使用 position_jitter ),也可以是調用位置調整函數的結果。如果需要更改調整設置,請使用後者。

...

其他參數傳遞給 layer() 。這些通常是美學,用於將美學設置為固定值,例如 colour = "red"size = 3 。它們也可能是配對的 geom/stat 的參數。

n

如果為 NULL,則不進行插值。如果不為 NULL,則這是要插值的點數。

pad

如果 TRUE ,用附加點 (-Inf, 0) 和 (Inf, 1) 填充 ecdf

na.rm

如果是FALSE(默認值),則刪除缺失值並發出警告。如果TRUE默默地刪除缺失值。

show.legend

合乎邏輯的。該層是否應該包含在圖例中? NA(默認值)包括是否映射了任何美學。 FALSE 從不包含,而 TRUE 始終包含。它也可以是一個命名的邏輯向量,以精細地選擇要顯示的美學。

inherit.aes

如果 FALSE ,則覆蓋默認美學,而不是與它們組合。這對於定義數據和美觀的輔助函數最有用,並且不應繼承默認繪圖規範的行為,例如borders()

細節

該統計依賴於美學分配來猜測哪個變量用作輸入以及哪個變量用作輸出。必須提供 x 或 y,並且其中之一必須未使用。 ECDF 將根據給定的美學進行計算,並在未使用的美學上進行輸出。

計算變量

這些是由層的 'stat' 部分計算的,可以使用 delayed evaluation 訪問。

  • after_stat(ecdf)
    累積密度對應於x.

  • after_stat(y)
    [Superseded]為了向後兼容。

例子

set.seed(1)
df <- data.frame(
  x = c(rnorm(100, 0, 3), rnorm(100, 0, 10)),
  g = gl(2, 100)
)
ggplot(df, aes(x)) +
  stat_ecdf(geom = "step")


# Don't go to positive/negative infinity
ggplot(df, aes(x)) +
  stat_ecdf(geom = "step", pad = FALSE)


# Multiple ECDFs
ggplot(df, aes(x, colour = g)) +
  stat_ecdf()

源代碼:R/stat-ecdf.R

相關用法


注:本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Compute empirical cumulative distribution。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。