當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python dask_ml.model_selection.train_test_split用法及代碼示例

用法:

dask_ml.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=None, blockwise=True, convert_mixed_types=False, **options)

將數組拆分為隨機訓練和測試矩陣。

參數

*arraysDask Arrays、DataFrames 或 Series 的序列

非 dask 對象將傳遞給 sklearn.model_selection.train_test_split()

test_size浮點數或整數,默認 0.1
train_sizefloat 或 int,可選
random_stateint,RandomState 實例或無,可選(默認=無)

如果是int,random_state是隨機數生成器使用的種子;如果是RandomState實例,random_state是隨機數生成器;如果沒有,隨機數生成器是 np.random 使用的 RandomState 實例。

shuffle布爾值,默認無

拆分前是否打亂數據。

blockwise布爾值,默認為真。

是僅在塊內打亂數據(True),還是允許在塊之間打亂數據(False)。塊之間的混洗可能會更加昂貴,尤其是在分布式環境中。

默認值為 True ,數據僅在塊內混洗。對於 Dask Arrays,設置 blockwise=False 以在塊之間混洗數據。對於 Dask DataFrames,當前不支持 blockwise=False,將引發 ValueError

convert_mixed_types布爾值,默認為 False

當數組包含混合類型時,是否將 dask DataFrames 和 Series 轉換為 dask Arrays。這會導致一些計算來確定每個塊的長度。

返回

splitting列表,長度=2 * len(數組)

包含 train-test 輸入拆分的列表

例子

>>> import dask.array as da
>>> from dask_ml.datasets import make_regression
>>> X, y = make_regression(n_samples=125, n_features=4, chunks=50,
...                        random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=0)
>>> X_train
dask.array<concatenate, shape=(113, 4), dtype=float64, chunksize=(45, 4)>
>>> X_train.compute()[:2]
array([[ 0.12372191,  0.58222459,  0.92950511, -2.09460307],
       [ 0.99439439, -0.70972797, -0.27567053,  1.73887268]])

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask_ml.model_selection.train_test_split。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。