本文簡要介紹 python 語言中 scipy.stats.normaltest
scipy.stats.normaltest(a, axis=0, nan_policy='propagate')#
此函數檢驗樣本來自正態分布的原假設。它基於 D'Agostino 和 Pearson 的 [1]、[2] 檢驗,該檢驗結合了偏斜和峰態以產生對正態性的綜合檢驗。
- a: array_like
- axis: int 或無,可選
計算測試的軸。默認值為 0。如果沒有,則計算整個數組 a。
- nan_policy: {‘propagate’, ‘raise’, ‘omit’},可選
定義當輸入包含 nan 時如何處理。以下選項可用(默認為‘propagate’):
‘propagate’: returns nan
‘raise’: throws an error
‘omit’: performs the calculations ignoring nan values
- statistic: 浮點數或數組
s^2 + k^2
返回的 z-score ,k
返回的 z-score 。- pvalue: 浮點數或數組
假設檢驗的 2 邊卡方概率。
參數 ::
返回 ::
[1] (1,2)D'Agostino, R. B. (1971),“中等和大樣本量的正態性綜合檢驗”,Biometrika,58,341-348
[2] (1,2)D'Agostino, R. 和 Pearson, E. S. (1973),“偏離常態的測試”,Biometrika, 60, 613-622
[3]夏皮羅,S.S. 和威爾克,M.B. (1965)。正態性方差檢驗分析(完整樣本)。生物計量學,52(3/4),591-611。
[4]B. Phipson 和 G. K. Smyth。 “排列 P 值不應該為零:隨機抽取排列時計算精確的 P 值。”遺傳學和分子生物學中的統計應用 9.1 (2010)。
[5]帕納吉奧塔科斯,D.B. (2008)。 p 值在生物醫學研究中的值。開放心血管醫學雜誌,2, 97。
中。>>> import numpy as np >>> x = np.array([148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236])
[1] 和 [2] 的正態性檢驗首先根據樣本偏度和峰度計算統計量。
>>> from scipy import stats >>> res = stats.normaltest(x) >>> res.statistic 13.034263121192582
(該測試警告我們的樣本觀測值太少,無法執行測試。我們將在示例末尾返回這一點。)因為正態分布具有零偏度和零(“excess” 或 “Fisher”)峰度,對於從正態分布中抽取的樣本,該統計值往往較低。
>>> import matplotlib.pyplot as plt >>> dist = stats.chi2(df=2) >>> stat_vals = np.linspace(0, 16, 100) >>> pdf = dist.pdf(stat_vals) >>> fig, ax = plt.subplots(figsize=(8, 5)) >>> def plot(ax): # we'll re-use this ... ax.plot(stat_vals, pdf) ... ax.set_title("Normality Test Null Distribution") ... ax.set_xlabel("statistic") ... ax.set_ylabel("probability density") >>> plot(ax) >>> plt.show()
比較通過 p 值進行量化:零分布中大於或等於統計觀測值的值的比例。
>>> fig, ax = plt.subplots(figsize=(8, 5)) >>> plot(ax) >>> pvalue = dist.sf(res.statistic) >>> annotation = (f'p-value={pvalue:.6f}\n(shaded area)') >>> props = dict(facecolor='black', width=1, headwidth=5, headlength=8) >>> _ = ax.annotate(annotation, (13.5, 5e-4), (14, 5e-3), arrowprops=props) >>> i = stat_vals >= res.statistic # index more extreme statistic values >>> ax.fill_between(stat_vals[i], y1=0, y2=pdf[i]) >>> ax.set_xlim(8, 16) >>> ax.set_ylim(0, 0.01) >>> plt.show()
>>> res.pvalue 0.0014779023013100172
如果 p 值為 “small” - 也就是說,如果從正態分布總體中采樣數據產生統計數據的極值的概率較低 - 這可以作為反對零假設的證據另一種選擇:權重不是從正態分布中得出的。注意:
將被視為 “small” 的值的閾值是在分析數據之前應做出的選擇 [4],同時考慮誤報(錯誤地拒絕零假設)和漏報(未能拒絕假設)的風險。錯誤的原假設)。
可以提供更準確的(盡管是隨機的)精確 p 值的近似值。>>> def statistic(x, axis): ... # Get only the `normaltest` statistic; ignore approximate p-value ... return stats.normaltest(x, axis=axis).statistic >>> res = stats.monte_carlo_test(x, stats.norm.rvs, statistic, ... alternative='greater') >>> fig, ax = plt.subplots(figsize=(8, 5)) >>> plot(ax) >>> ax.hist(res.null_distribution, np.linspace(0, 25, 50), ... density=True) >>> ax.legend(['aymptotic approximation (many observations)', ... 'Monte Carlo approximation (11 observations)']) >>> ax.set_xlim(0, 14) >>> plt.show()
>>> res.pvalue 0.0082 # may vary
此外,盡管具有隨機性,以這種方式計算的 p 值可用於精確控製原假設的錯誤拒絕率 [5]。
- Python SciPy stats.norminvgauss用法及代碼示例
- Python SciPy stats.norm用法及代碼示例
- Python SciPy stats.nbinom用法及代碼示例
- Python SciPy stats.nchypergeom_wallenius用法及代碼示例
- Python SciPy stats.nakagami用法及代碼示例
- Python SciPy stats.nct用法及代碼示例
- Python SciPy stats.ncf用法及代碼示例
- Python SciPy stats.ncx2用法及代碼示例
- Python SciPy stats.nchypergeom_fisher用法及代碼示例
- Python SciPy stats.nhypergeom用法及代碼示例
- Python SciPy stats.anderson用法及代碼示例
- Python SciPy stats.iqr用法及代碼示例
- Python SciPy stats.genpareto用法及代碼示例
- Python SciPy stats.skewnorm用法及代碼示例
- Python SciPy stats.cosine用法及代碼示例
- Python SciPy stats.directional_stats用法及代碼示例
- Python SciPy stats.invwishart用法及代碼示例
- Python SciPy stats.bartlett用法及代碼示例
- Python SciPy stats.levy_stable用法及代碼示例
- Python SciPy stats.page_trend_test用法及代碼示例
- Python SciPy stats.itemfreq用法及代碼示例
- Python SciPy stats.exponpow用法及代碼示例
- Python SciPy stats.gumbel_l用法及代碼示例
- Python SciPy stats.chisquare用法及代碼示例
- Python SciPy stats.semicircular用法及代碼示例
注:本文由純淨天空篩選整理自scipy.org大神的英文原創作品 scipy.stats.normaltest。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。