用法:
dask_ml.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(- 10.0, 10.0), shuffle=True, random_state=None, chunks=None)
生成用于聚类的各向同性高斯斑点。
这可用于在机器集群上生成非常大的 Dask 数组。在分布式模式下使用 Dask 时,客户端机器只需要分配单个块的数据。
- n_samples:int 或array-like,可选(默认=100)
如果是 int,则它是在集群之间平均分配的点的总数。如果array-like,则序列的每个元素表示每个簇的样本数。
- n_features:int,可选(默认=2)
每个样本的特征数。
- centers:int 或形状数组 [n_centers, n_features],可选
(默认=无)要生成的中心数,或固定的中心位置。如果 n_samples 是一个 int 并且中心是 None,则生成 3 个中心。如果 n_samples 为 array-like,则中心必须为 None 或长度等于 n_samples 长度的数组。
- cluster_std:浮点数或浮点数序列,可选(默认=1.0)
聚类的标准差。
- center_box:一对浮点数(最小,最大),可选(默认=(-10.0,10.0))
随机生成中心时每个聚类中心的边界框。
- shuffle:布尔值,可选(默认 = True)
Shuffle[洗牌]样本。
- random_state:int,RandomState 实例或无(默认)
确定数据集创建的随机数生成。跨多个函数调用传递一个 int 以实现可重现的输出。请参阅词汇表。
- chunks:整数,元组
如何对数组进行分块。必须是以下形式之一: - 像 1000 这样的块大小。 - 像 (1000, 1000) 这样的块状。 - 沿所有维度的所有块的显式大小,例如
((1000, 1000, 500), (400, 400))。
- X:形状数组 [n_samples, n_features]
生成的样本。
- y:形状数组 [n_samples]
每个样本的集群成员的整数标签。
参数:
返回:
例子:
>>> from dask_ml.datasets import make_blobs >>> X, y = make_blobs(n_samples=100000, chunks=10000) >>> X dask.array<..., shape=(100000, 2), dtype=float64, chunksize=(10000, 2)> >>> y dask.array<concatenate, shape=(100000,), dtype=int64, chunksize=(10000,)>
相关用法
- Python dask_ml.datasets.make_counts用法及代码示例
- Python dask_ml.decomposition.PCA用法及代码示例
- Python dask_ml.decomposition.TruncatedSVD.__init__用法及代码示例
- Python dask_ml.wrappers.ParallelPostFit用法及代码示例
- Python dask_ml.feature_extraction.text.CountVectorizer用法及代码示例
- Python dask_ml.preprocessing.MinMaxScaler用法及代码示例
- Python dask_ml.preprocessing.Categorizer用法及代码示例
- Python dask_ml.linear_model.LinearRegression用法及代码示例
- Python dask_ml.wrappers.Incremental用法及代码示例
- Python dask_ml.metrics.mean_squared_log_error用法及代码示例
- Python dask_ml.model_selection.GridSearchCV用法及代码示例
- Python dask_ml.preprocessing.OrdinalEncoder用法及代码示例
- Python dask_ml.feature_extraction.text.FeatureHasher用法及代码示例
- Python dask_ml.preprocessing.LabelEncoder用法及代码示例
- Python dask_ml.ensemble.BlockwiseVotingClassifier用法及代码示例
- Python dask_ml.model_selection.train_test_split用法及代码示例
- Python dask_ml.feature_extraction.text.HashingVectorizer用法及代码示例
- Python dask_ml.preprocessing.PolynomialFeatures用法及代码示例
- Python dask_ml.linear_model.LogisticRegression用法及代码示例
- Python dask_ml.xgboost.train用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.datasets.make_blobs。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。