当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask_ml.model_selection.train_test_split用法及代码示例


用法:

dask_ml.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=None, blockwise=True, convert_mixed_types=False, **options)

将数组拆分为随机训练和测试矩阵。

参数

*arraysDask Arrays、DataFrames 或 Series 的序列

非 dask 对象将传递给 sklearn.model_selection.train_test_split()

test_size浮点数或整数,默认 0.1
train_sizefloat 或 int,可选
random_stateint,RandomState 实例或无,可选(默认=无)

如果是int,random_state是随机数生成器使用的种子;如果是RandomState实例,random_state是随机数生成器;如果没有,随机数生成器是 np.random 使用的 RandomState 实例。

shuffle布尔值,默认无

拆分前是否打乱数据。

blockwise布尔值,默认为真。

是仅在块内打乱数据(True),还是允许在块之间打乱数据(False)。块之间的混洗可能会更加昂贵,尤其是在分布式环境中。

默认值为 True ,数据仅在块内混洗。对于 Dask Arrays,设置 blockwise=False 以在块之间混洗数据。对于 Dask DataFrames,当前不支持 blockwise=False,将引发 ValueError

convert_mixed_types布尔值,默认为 False

当数组包含混合类型时,是否将 dask DataFrames 和 Series 转换为 dask Arrays。这会导致一些计算来确定每个块的长度。

返回

splitting列表,长度=2 * len(数组)

包含 train-test 输入拆分的列表

例子

>>> import dask.array as da
>>> from dask_ml.datasets import make_regression
>>> X, y = make_regression(n_samples=125, n_features=4, chunks=50,
...                        random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=0)
>>> X_train
dask.array<concatenate, shape=(113, 4), dtype=float64, chunksize=(45, 4)>
>>> X_train.compute()[:2]
array([[ 0.12372191,  0.58222459,  0.92950511, -2.09460307],
       [ 0.99439439, -0.70972797, -0.27567053,  1.73887268]])

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.model_selection.train_test_split。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。