本文简要介绍 python 语言中 scipy.stats.ttest_ind
的用法。
用法:
scipy.stats.ttest_ind(a, b, axis=0, equal_var=True, nan_policy='propagate', permutations=None, random_state=None, alternative='two-sided', trim=0, *, keepdims=False)#
计算两个独立分数样本的平均值的T-test。
这是对 2 个独立样本具有相同平均(预期)值的零假设的检验。此测试假定默认情况下总体具有相同的方差。
- a, b: array_like
数组必须具有相同的形状,除了对应于轴的维度(默认情况下为第一个)。
- axis: int 或无,默认值:0
如果是 int,则计算统计量的输入轴。输入的每个axis-slice(例如行)的统计信息将出现在输出的相应元素中。如果
None
,输入将在计算统计数据之前被分解。- equal_var: 布尔型,可选
如果为 True(默认),则执行假设总体方差相等的标准独立 2 样本检验 [1]。如果为 False,请执行 Welch 的 t-test,它不假定人口方差相等 [2]。
- nan_policy: {‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
:如果计算统计数据的轴切片(例如行)中存在NaN,则输出的相应条目将为 NaN。omit
: 计算时将省略NaNs。如果计算统计数据的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
:如果存在 NaN,则会引发ValueError
。
- permutations: 非负 int、np.inf 或 None(默认),可选
如果为 0 或无(默认),则使用 t 分布计算 p 值。否则,排列是将用于使用排列检验估计 p 值的随机排列数。如果排列等于或超过合并数据的不同分区的数量,则改为执行精确测试(即每个不同分区仅使用一次)。详细信息请参见注释。
- random_state: {无,整数,
numpy.random.Generator
, numpy.random.RandomState
}, optional如果种子是无(或np.random), 这
numpy.random.RandomState
使用单例。如果种子是一个 int,一个新的RandomState
使用实例,播种种子.如果种子已经是一个Generator
或者RandomState
实例然后使用该实例。用于生成排列的伪随机数生成器状态(仅在排列不是 None 时使用)。
- alternative: {‘双面’,‘less’, ‘greater’},可选
定义备择假设。可以使用以下选项(默认为“双面”):
“双面”:样本的分布均值不相等。
‘less’:第一个样本的分布平均值小于第二个样本的分布平均值。
‘greater’:第一个样本的分布平均值大于第二个样本的分布平均值。
- trim: 浮点数,可选
如果非零,则执行修剪(Yuen's)t-test。定义要从输入样本的每一端修剪的元素比例。如果为 0(默认值),则不会从任一侧修剪任何元素。每个尾部的修剪元素的数量是修剪的底乘以元素的数量。有效范围为 [0, .5)。
- keepdims: 布尔值,默认值:假
如果将其设置为 True,则缩小的轴将作为尺寸为 1 的尺寸留在结果中。使用此选项,结果将针对输入数组正确广播。
- result:
TtestResult
具有以下属性的对象:
- 统计 浮点数或 ndarray
t-statistic。
- p值 浮点数或 ndarray
与给定替代方案相关的 p 值。
- df 浮点数或 ndarray
t-statistic 计算中使用的自由度数。对于排列t-test,这始终是NaN。
该对象还具有以下方法:
- confidence_interval(confidence_level=0.95)
计算给定置信水平下总体均值差异的置信区间。置信区间在
namedtuple
中返回,其中包含字段low
和high
。当执行排列t-test时,不计算置信区间,并且字段low
和high
包含NaN。
- result:
参数 ::
返回 ::
注意:
假设我们观察到两个独立的样本,例如花瓣长度,我们正在考虑这两个样本是来自同一种群(例如,同一种类的花或具有相似花瓣特征的两个物种)还是两个不同的种群。
t-test 量化两个样本算术平均值之间的差异。 p 值量化观察到一个或多个极值的概率,假设零假设(样本是从具有相同总体均值的总体中抽取)为真。 p 值大于所选阈值(例如 5% 或 1%)表明我们的观察结果不太可能是偶然发生的。因此,我们不拒绝总体均值相等的原假设。如果 p 值小于我们的阈值,那么我们就有证据反对平等总体均值的原假设。
默认情况下,p 值是通过将观测数据的 t-statistic 与理论 t 分布进行比较来确定的。当
1 < permutations < binom(n, k)
时,其中k
是观察的数量a,n
是观察的总数a和b, 和binom(n, k)
是二项式系数(n
选择k
),
数据被汇集(连接),随机分配到任一组a或者b,并计算t-statistic。此过程重复执行(排列次),生成原假设下 t-statistic 的分布,并将观测数据的 t-statistic 与该分布进行比较以确定 p 值。具体来说,报告的 p 值是 “achieved significance level” (ASL),如 4.4 中定义[3]。请注意,还有其他使用随机排列检验来估计 p 值的方法;对于其他选项,请参阅更一般的scipy.stats.permutation_test.
当
permutations >= binom(n, k)
时,将执行精确测试:数据以每种不同的方式在组之间仅分区一次。置换检验的计算成本可能很高,并且不一定比分析检验更准确,但它并未对基础分布的形状做出强有力的假设。
使用修剪通常称为修剪t-test。有时称为 Yuen 的 t-test,它是 Welch 的 t-test 的扩展,不同之处在于在计算方差时使用缩尾均值,在计算统计量时使用修剪样本量。如果基础分布是长尾的或被异常值污染的,建议进行修剪 [4]。
统计量计算为
(np.mean(a) - np.mean(b))/se
,其中se
是标准误。因此,当样本均值为a大于样本均值b当样本均值为a小于样本均值b.从 SciPy 1.9 开始,
np.matrix
输入(不建议用于新代码)在执行计算之前转换为np.ndarray
。在这种情况下,输出将是标量或适当形状的np.ndarray
而不是 2Dnp.matrix
。同样,虽然屏蔽数组的屏蔽元素被忽略,但输出将是标量或np.ndarray
而不是带有mask=False
的屏蔽数组。参考:
[3]埃夫隆和 T. Hastie。计算机时代统计推断。 (2016 年)。
[4]Yuen, Karen K.“针对不平等总体方差的两个样本修剪 t”。生物计量学,卷。 61,没有。 1,1974 年,第 165-170 页。 JSTOR,www.jstor.org/stable/2334299。访问日期:2021 年 3 月 30 日。
[5]袁凯伦 (Karen K.) 和 W. J. 迪克森 (W. J. Dixon)。 “两个样本修剪 t 的近似行为和性能。”生物计量学,卷。 60,没有。 2,1973 年,第 369-374 页。 JSTOR,www.jstor.org/stable/2334550。访问日期:2021 年 3 月 30 日。
例子:
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng()
用相同方法的样本进行测试:
>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng) >>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng) >>> stats.ttest_ind(rvs1, rvs2) Ttest_indResult(statistic=-0.4390847099199348, pvalue=0.6606952038870015) >>> stats.ttest_ind(rvs1, rvs2, equal_var=False) Ttest_indResult(statistic=-0.4390847099199348, pvalue=0.6606952553131064)
ttest_ind
低估了不等方差的 p:>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng) >>> stats.ttest_ind(rvs1, rvs3) Ttest_indResult(statistic=-1.6370984482905417, pvalue=0.1019251574705033) >>> stats.ttest_ind(rvs1, rvs3, equal_var=False) Ttest_indResult(statistic=-1.637098448290542, pvalue=0.10202110497954867)
当
n1 != n2
时,等方差 t-statistic 不再等于不等方差 t-statistic:>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng) >>> stats.ttest_ind(rvs1, rvs4) Ttest_indResult(statistic=-1.9481646859513422, pvalue=0.05186270935842703) >>> stats.ttest_ind(rvs1, rvs4, equal_var=False) Ttest_indResult(statistic=-1.3146566100751664, pvalue=0.1913495266513811)
T-test 具有不同的均值、方差和 n:
>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng) >>> stats.ttest_ind(rvs1, rvs5) Ttest_indResult(statistic=-2.8415950600298774, pvalue=0.0046418707568707885) >>> stats.ttest_ind(rvs1, rvs5, equal_var=False) Ttest_indResult(statistic=-1.8686598649188084, pvalue=0.06434714193919686)
在执行置换测试时,更多的置换通常会产生更准确的结果。使用
np.random.Generator
来确保重现性:>>> stats.ttest_ind(rvs1, rvs5, permutations=10000, ... random_state=rng) Ttest_indResult(statistic=-2.8415950600298774, pvalue=0.0052994700529947)
取这两个样本,其中一个有一个极端的尾巴。
>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3) >>> b = (1.1, 2.9, 4.2)
使用修剪关键字执行修剪(元)t-test。例如,使用 20% 的修整,
trim=.2
, 测试将减少一个 (np.floor(trim*len(a))
) 每个样本尾部的元素a.对样品没有影响b因为np.floor(trim*len(b))
为 0。>>> stats.ttest_ind(a, b, trim=.2) Ttest_indResult(statistic=3.4463884028073513, pvalue=0.01369338726499547)
相关用法
- Python SciPy stats.ttest_ind_from_stats用法及代码示例
- Python SciPy stats.ttest_rel用法及代码示例
- Python SciPy stats.ttest_1samp用法及代码示例
- Python SciPy stats.theilslopes用法及代码示例
- Python SciPy stats.triang用法及代码示例
- Python SciPy stats.t用法及代码示例
- Python SciPy stats.tvar用法及代码示例
- Python SciPy stats.trim_mean用法及代码示例
- Python SciPy stats.tsem用法及代码示例
- Python SciPy stats.truncpareto用法及代码示例
- Python SciPy stats.tmean用法及代码示例
- Python SciPy stats.truncweibull_min用法及代码示例
- Python SciPy stats.trim1用法及代码示例
- Python SciPy stats.tmin用法及代码示例
- Python SciPy stats.trimboth用法及代码示例
- Python SciPy stats.tmax用法及代码示例
- Python SciPy stats.truncexpon用法及代码示例
- Python SciPy stats.truncnorm用法及代码示例
- Python SciPy stats.tukeylambda用法及代码示例
- Python SciPy stats.trapezoid用法及代码示例
- Python SciPy stats.tstd用法及代码示例
- Python SciPy stats.tiecorrect用法及代码示例
- Python SciPy stats.tukey_hsd用法及代码示例
- Python SciPy stats.anderson用法及代码示例
- Python SciPy stats.iqr用法及代码示例
注:本文由纯净天空筛选整理自scipy.org大神的英文原创作品 scipy.stats.ttest_ind。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。