用法:
dask_ml.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=None, blockwise=True, convert_mixed_types=False, **options)
将数组拆分为随机训练和测试矩阵。
- *arrays:Dask Arrays、DataFrames 或 Series 的序列
非 dask 对象将传递给
sklearn.model_selection.train_test_split()
。- test_size:浮点数或整数,默认 0.1
- train_size:float 或 int,可选
- random_state:int,RandomState 实例或无,可选(默认=无)
如果是int,random_state是随机数生成器使用的种子;如果是RandomState实例,random_state是随机数生成器;如果没有,随机数生成器是
np.random
使用的 RandomState 实例。- shuffle:布尔值,默认无
拆分前是否打乱数据。
- blockwise:布尔值,默认为真。
是仅在块内打乱数据(True),还是允许在块之间打乱数据(False)。块之间的混洗可能会更加昂贵,尤其是在分布式环境中。
默认值为
True
,数据仅在块内混洗。对于 Dask Arrays,设置blockwise=False
以在块之间混洗数据。对于 Dask DataFrames,当前不支持blockwise=False
,将引发ValueError
。- convert_mixed_types:布尔值,默认为 False
当数组包含混合类型时,是否将 dask DataFrames 和 Series 转换为 dask Arrays。这会导致一些计算来确定每个块的长度。
- splitting:列表,长度=2 * len(数组)
包含 train-test 输入拆分的列表
参数:
返回:
例子:
>>> import dask.array as da >>> from dask_ml.datasets import make_regression
>>> X, y = make_regression(n_samples=125, n_features=4, chunks=50, ... random_state=0) >>> X_train, X_test, y_train, y_test = train_test_split(X, y, ... random_state=0) >>> X_train dask.array<concatenate, shape=(113, 4), dtype=float64, chunksize=(45, 4)> >>> X_train.compute()[:2] array([[ 0.12372191, 0.58222459, 0.92950511, -2.09460307], [ 0.99439439, -0.70972797, -0.27567053, 1.73887268]])
相关用法
- Python dask_ml.model_selection.GridSearchCV用法及代码示例
- Python dask_ml.model_selection.IncrementalSearchCV用法及代码示例
- Python dask_ml.model_selection.HyperbandSearchCV用法及代码示例
- Python dask_ml.model_selection.RandomizedSearchCV用法及代码示例
- Python dask_ml.metrics.mean_squared_log_error用法及代码示例
- Python dask_ml.metrics.r2_score用法及代码示例
- Python dask_ml.metrics.mean_squared_error用法及代码示例
- Python dask_ml.metrics.accuracy_score用法及代码示例
- Python dask_ml.metrics.mean_absolute_error用法及代码示例
- Python dask_ml.metrics.log_loss用法及代码示例
- Python dask_ml.wrappers.ParallelPostFit用法及代码示例
- Python dask_ml.feature_extraction.text.CountVectorizer用法及代码示例
- Python dask_ml.preprocessing.MinMaxScaler用法及代码示例
- Python dask_ml.preprocessing.Categorizer用法及代码示例
- Python dask_ml.linear_model.LinearRegression用法及代码示例
- Python dask_ml.wrappers.Incremental用法及代码示例
- Python dask_ml.preprocessing.OrdinalEncoder用法及代码示例
- Python dask_ml.feature_extraction.text.FeatureHasher用法及代码示例
- Python dask_ml.preprocessing.LabelEncoder用法及代码示例
- Python dask_ml.ensemble.BlockwiseVotingClassifier用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.model_selection.train_test_split。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。