用法:
dask_ml.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=None, blockwise=True, convert_mixed_types=False, **options)
將數組拆分為隨機訓練和測試矩陣。
- *arrays:Dask Arrays、DataFrames 或 Series 的序列
非 dask 對象將傳遞給
sklearn.model_selection.train_test_split()
。- test_size:浮點數或整數,默認 0.1
- train_size:float 或 int,可選
- random_state:int,RandomState 實例或無,可選(默認=無)
如果是int,random_state是隨機數生成器使用的種子;如果是RandomState實例,random_state是隨機數生成器;如果沒有,隨機數生成器是
np.random
使用的 RandomState 實例。- shuffle:布爾值,默認無
拆分前是否打亂數據。
- blockwise:布爾值,默認為真。
是僅在塊內打亂數據(True),還是允許在塊之間打亂數據(False)。塊之間的混洗可能會更加昂貴,尤其是在分布式環境中。
默認值為
True
,數據僅在塊內混洗。對於 Dask Arrays,設置blockwise=False
以在塊之間混洗數據。對於 Dask DataFrames,當前不支持blockwise=False
,將引發ValueError
。- convert_mixed_types:布爾值,默認為 False
當數組包含混合類型時,是否將 dask DataFrames 和 Series 轉換為 dask Arrays。這會導致一些計算來確定每個塊的長度。
- splitting:列表,長度=2 * len(數組)
包含 train-test 輸入拆分的列表
參數:
返回:
例子:
>>> import dask.array as da >>> from dask_ml.datasets import make_regression
>>> X, y = make_regression(n_samples=125, n_features=4, chunks=50, ... random_state=0) >>> X_train, X_test, y_train, y_test = train_test_split(X, y, ... random_state=0) >>> X_train dask.array<concatenate, shape=(113, 4), dtype=float64, chunksize=(45, 4)> >>> X_train.compute()[:2] array([[ 0.12372191, 0.58222459, 0.92950511, -2.09460307], [ 0.99439439, -0.70972797, -0.27567053, 1.73887268]])
相關用法
- Python dask_ml.model_selection.GridSearchCV用法及代碼示例
- Python dask_ml.model_selection.IncrementalSearchCV用法及代碼示例
- Python dask_ml.model_selection.HyperbandSearchCV用法及代碼示例
- Python dask_ml.model_selection.RandomizedSearchCV用法及代碼示例
- Python dask_ml.metrics.mean_squared_log_error用法及代碼示例
- Python dask_ml.metrics.r2_score用法及代碼示例
- Python dask_ml.metrics.mean_squared_error用法及代碼示例
- Python dask_ml.metrics.accuracy_score用法及代碼示例
- Python dask_ml.metrics.mean_absolute_error用法及代碼示例
- Python dask_ml.metrics.log_loss用法及代碼示例
- Python dask_ml.wrappers.ParallelPostFit用法及代碼示例
- Python dask_ml.feature_extraction.text.CountVectorizer用法及代碼示例
- Python dask_ml.preprocessing.MinMaxScaler用法及代碼示例
- Python dask_ml.preprocessing.Categorizer用法及代碼示例
- Python dask_ml.linear_model.LinearRegression用法及代碼示例
- Python dask_ml.wrappers.Incremental用法及代碼示例
- Python dask_ml.preprocessing.OrdinalEncoder用法及代碼示例
- Python dask_ml.feature_extraction.text.FeatureHasher用法及代碼示例
- Python dask_ml.preprocessing.LabelEncoder用法及代碼示例
- Python dask_ml.ensemble.BlockwiseVotingClassifier用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask_ml.model_selection.train_test_split。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。