Python dask_ml.model_selection.train_test_split用法及代碼示例

用法:
dask_ml.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=None, blockwise=True, convert_mixed_types=False, **options)

將數組拆分為隨機訓練和測試矩陣。

參數：

*arrays：Dask Arrays、DataFrames 或 Series 的序列

非 dask 對象將傳遞給 sklearn.model_selection.train_test_split() 。

test_size：浮點數或整數，默認 0.1

train_size：float 或 int，可選

random_state：int，RandomState 實例或無，可選(默認=無)

如果是int，random_state是隨機數生成器使用的種子；如果是RandomState實例，random_state是隨機數生成器；如果沒有，隨機數生成器是 np.random 使用的 RandomState 實例。

shuffle：布爾值，默認無

拆分前是否打亂數據。

blockwise：布爾值，默認為真。

是僅在塊內打亂數據(True)，還是允許在塊之間打亂數據(False)。塊之間的混洗可能會更加昂貴，尤其是在分布式環境中。

默認值為 True ，數據僅在塊內混洗。對於 Dask Arrays，設置 blockwise=False 以在塊之間混洗數據。對於 Dask DataFrames，當前不支持 blockwise=False，將引發 ValueError。

convert_mixed_types：布爾值，默認為 False

當數組包含混合類型時，是否將 dask DataFrames 和 Series 轉換為 dask Arrays。這會導致一些計算來確定每個塊的長度。

splitting：列表，長度=2 * len(數組): 包含 train-test 輸入拆分的列表

例子：

>>> import dask.array as da
>>> from dask_ml.datasets import make_regression

>>> X, y = make_regression(n_samples=125, n_features=4, chunks=50,
...                        random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=0)
>>> X_train
dask.array<concatenate, shape=(113, 4), dtype=float64, chunksize=(45, 4)>
>>> X_train.compute()[:2]
array([[ 0.12372191,  0.58222459,  0.92950511, -2.09460307],
       [ 0.99439439, -0.70972797, -0.27567053,  1.73887268]])

相關用法

注：本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask_ml.model_selection.train_test_split。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：