箱线图简洁地显示了连续变量的分布。它可视化五个汇总统计数据(中位数、两个铰链和两个胡须),以及所有"outlying" 点。
用法
geom_boxplot(
  mapping = NULL,
  data = NULL,
  stat = "boxplot",
  position = "dodge2",
  ...,
  outlier.colour = NULL,
  outlier.color = NULL,
  outlier.fill = NULL,
  outlier.shape = 19,
  outlier.size = 1.5,
  outlier.stroke = 0.5,
  outlier.alpha = NULL,
  notch = FALSE,
  notchwidth = 0.5,
  varwidth = FALSE,
  na.rm = FALSE,
  orientation = NA,
  show.legend = NA,
  inherit.aes = TRUE
)
stat_boxplot(
  mapping = NULL,
  data = NULL,
  geom = "boxplot",
  position = "dodge2",
  ...,
  coef = 1.5,
  na.rm = FALSE,
  orientation = NA,
  show.legend = NA,
  inherit.aes = TRUE
)
参数
- mapping
 - 
由
aes()创建的一组美学映射。如果指定且inherit.aes = TRUE(默认),它将与绘图顶层的默认映射组合。如果没有绘图映射,则必须提供mapping。 - data
 - 
该层要显示的数据。有以下三种选择:
如果默认为
NULL,则数据继承自ggplot()调用中指定的绘图数据。data.frame或其他对象将覆盖绘图数据。所有对象都将被强化以生成 DataFrame 。请参阅fortify()将为其创建变量。将使用单个参数(绘图数据)调用
function。返回值必须是data.frame,并将用作图层数据。可以从formula创建function(例如~ head(.x, 10))。 - position
 - 
位置调整,可以是命名调整的字符串(例如
"jitter"使用position_jitter),也可以是调用位置调整函数的结果。如果需要更改调整设置,请使用后者。 - ...
 - 
其他参数传递给
layer()。这些通常是美学,用于将美学设置为固定值,例如colour = "red"或size = 3。它们也可能是配对的 geom/stat 的参数。 - outlier.colour, outlier.color, outlier.fill, outlier.shape, outlier.size, outlier.stroke, outlier.alpha
 - 
异常值的默认美学。设置为
NULL以继承用于盒子的美学。万一您同时指定了美国和英国的颜色拼写,则美国拼写优先。
有时隐藏异常值可能很有用,例如将原始数据点叠加在箱线图上时。隐藏异常值可以通过设置
outlier.shape = NA来实现。重要的是,这不会删除离群值,而只是隐藏它们,因此为 y 轴计算的范围将与显示的离群值和隐藏的离群值相同。 - notch
 - 
如果
FALSE(默认)制作标准箱线图。如果是TRUE,则绘制缺口箱线图。缺口用于比较组;如果两个盒子的缺口不重叠,则表明中位数显著不同。 - notchwidth
 - 
对于缺口箱线图,缺口相对于主体的宽度(默认为
notchwidth = 0.5)。 - varwidth
 - 
如果
FALSE(默认)制作标准箱线图。如果是TRUE,则绘制框的宽度与组中观测值数量的平方根成正比(可能使用weight美学进行加权)。 - na.rm
 - 
如果
FALSE,则默认缺失值将被删除并带有警告。如果TRUE,缺失值将被静默删除。 - orientation
 - 
层的方向。默认值 (
NA) 自动根据美学映射确定方向。万一失败,可以通过将orientation设置为"x"或"y"来显式给出。有关更多详细信息,请参阅方向部分。 - show.legend
 - 
合乎逻辑的。该层是否应该包含在图例中?
NA(默认值)包括是否映射了任何美学。FALSE从不包含,而TRUE始终包含。它也可以是一个命名的逻辑向量,以精细地选择要显示的美学。 - inherit.aes
 - 
如果
FALSE,则覆盖默认美学,而不是与它们组合。这对于定义数据和美观的辅助函数最有用,并且不应继承默认绘图规范的行为,例如borders()。 - geom, stat
 - 
用于覆盖
geom_boxplot()和stat_boxplot()之间的默认连接。 - coef
 - 
晶须的长度为 IQR 的倍数。默认为 1.5。
 
方向
该几何体以不同的方式对待每个轴,因此可以有两个方向。通常,方向很容易从给定映射和使用的位置比例类型的组合中推断出来。因此,ggplot2 默认情况下会尝试猜测图层应具有哪个方向。在极少数情况下,方向不明确,猜测可能会失败。在这种情况下,可以直接使用 orientation 参数指定方向,该参数可以是 "x" 或 "y" 。该值给出了几何图形应沿着的轴,"x" 是您期望的几何图形的默认方向。
统计汇总
下铰链和上铰链对应于第一和第三四分位数(第 25 个和第 75 个百分位数)。这与 boxplot() 函数使用的方法略有不同,并且对于小样本可能会很明显。有关如何计算 boxplot() 铰链位置的更多信息,请参阅boxplot.stats()。
上须线从铰链延伸到最大值,距离铰链不超过 1.5 * IQR(其中 IQR 是 inter-quartile 范围,或第一和第三四分位数之间的距离)。下部须线从铰链延伸至铰链的至多 1.5 * IQR 的最小值。超出晶须末端的数据称为 "outlying" 点,并单独绘制。
在缺口箱形图中,缺口延伸 1.58 * IQR / sqrt(n) 。这为比较中位数提供了大约 95% 的置信区间。请参阅McGill 等人。 (1978)了解更多细节。
美学
geom_boxplot() 理解以下美学(所需的美学以粗体显示):
- 
x或者y - 
lower或者xlower - 
upper或者xupper - 
middle或者xmiddle - 
ymin或者xmin - 
ymax或者xmax - 
alpha - 
colour - 
fill - 
group - 
linetype - 
linewidth - 
shape - 
size - 
weight 
在 vignette("ggplot2-specs") 中了解有关设置这些美学的更多信息。
计算变量
这些是由层的 'stat' 部分计算的,可以使用 delayed evaluation 访问。 stat_boxplot() 提供以下变量,其中一些取决于方向:
- 
after_stat(width)
箱线图的宽度。 - 
after_stat(ymin)或者after_stat(xmin)
下须须 = 大于或等于下须须的最小观测值 - 1.5 * IQR。 - 
after_stat(lower)或者after_stat(xlower)
下铰链,25% 分位数。 - 
after_stat(notchlower)
凹口下缘 = 中位数 - 1.58 * IQR /sqrt(n)。 - 
after_stat(middle)或者after_stat(xmiddle)
中位数,50% 分位数。 - 
after_stat(notchupper)
缺口上边 = 中位数 + 1.58 * IQR /sqrt(n)。 - 
after_stat(upper)或者after_stat(xupper)
上铰链,75% 分位数。 - 
after_stat(ymax)或者after_stat(xmax)
上胡须 = 小于或等于上胡须的最大观测值 + 1.5 * IQR。 
也可以看看
geom_quantile() 用于连续 x ,geom_violin() 用于更丰富的分布显示,geom_jitter() 用于小数据的有用技术。
例子
p <- ggplot(mpg, aes(class, hwy))
p + geom_boxplot()
# Orientation follows the discrete axis
ggplot(mpg, aes(hwy, class)) + geom_boxplot()
p + geom_boxplot(notch = TRUE)
#> Notch went outside hinges
#> ℹ Do you want `notch = FALSE`?
#> Notch went outside hinges
#> ℹ Do you want `notch = FALSE`?
p + geom_boxplot(varwidth = TRUE)
p + geom_boxplot(fill = "white", colour = "#3366FF")
# By default, outlier points match the colour of the box. Use
# outlier.colour to override
p + geom_boxplot(outlier.colour = "red", outlier.shape = 1)
# Remove outliers when overlaying boxplot with original data points
p + geom_boxplot(outlier.shape = NA) + geom_jitter(width = 0.2)
# Boxplots are automatically dodged when any aesthetic is a factor
p + geom_boxplot(aes(colour = drv))
# You can also use boxplots with continuous x, as long as you supply
# a grouping variable. cut_width is particularly useful
ggplot(diamonds, aes(carat, price)) +
  geom_boxplot()
#> Warning: Continuous x aesthetic
#> ℹ did you forget `aes(group = ...)`?
ggplot(diamonds, aes(carat, price)) +
  geom_boxplot(aes(group = cut_width(carat, 0.25)))
# Adjust the transparency of outliers using outlier.alpha
ggplot(diamonds, aes(carat, price)) +
  geom_boxplot(aes(group = cut_width(carat, 0.25)), outlier.alpha = 0.1)
# \donttest{
# It's possible to draw a boxplot with your own computations if you
# use stat = "identity":
set.seed(1)
y <- rnorm(100)
df <- data.frame(
  x = 1,
  y0 = min(y),
  y25 = quantile(y, 0.25),
  y50 = median(y),
  y75 = quantile(y, 0.75),
  y100 = max(y)
)
ggplot(df, aes(x)) +
  geom_boxplot(
   aes(ymin = y0, lower = y25, middle = y50, upper = y75, ymax = y100),
   stat = "identity"
 )
# }
相关用法
- R ggplot2 geom_bar 条形图
 - R ggplot2 geom_bin_2d 二维 bin 计数热图
 - R ggplot2 geom_blank 什么也不画
 - R ggplot2 geom_qq 分位数-分位数图
 - R ggplot2 geom_spoke 由位置、方向和距离参数化的线段
 - R ggplot2 geom_quantile 分位数回归
 - R ggplot2 geom_text 文本
 - R ggplot2 geom_ribbon 函数区和面积图
 - R ggplot2 geom_hex 二维箱计数的六边形热图
 - R ggplot2 geom_jitter 抖动点
 - R ggplot2 geom_point 积分
 - R ggplot2 geom_linerange 垂直间隔:线、横线和误差线
 - R ggplot2 geom_path 连接观察结果
 - R ggplot2 geom_violin 小提琴情节
 - R ggplot2 geom_dotplot 点图
 - R ggplot2 geom_errorbarh 水平误差线
 - R ggplot2 geom_function 将函数绘制为连续曲线
 - R ggplot2 geom_polygon 多边形
 - R ggplot2 geom_histogram 直方图和频数多边形
 - R ggplot2 geom_tile 矩形
 - R ggplot2 geom_segment 线段和曲线
 - R ggplot2 geom_density_2d 二维密度估计的等值线
 - R ggplot2 geom_map 参考Map中的多边形
 - R ggplot2 geom_density 平滑密度估计
 - R ggplot2 geom_abline 参考线:水平、垂直和对角线
 
注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 A box and whiskers plot (in the style of Tukey)。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。
