用法:
class dask_ml.wrappers.Incremental(estimator=None, scoring=None, shuffle_blocks=True, random_state=None, assume_equal_chunks=True, predict_meta=None, predict_proba_meta=None, transform_meta=None)
Metaestimator 用於將 Dask Arrays 逐塊饋送到估計器。
這個包裝器在 Dask 對象和實現
partial_fit
API。這些增量學習者可以訓練批量數據。這非常適合 Dask 的阻塞數據結構。注意
此 meta-estimator 不適用於 larger-than-memory 數據集上的超參數優化。為此,請參閱
IncrementalSearchCV
或HyperbandSearchCV
。請參閱scikit-learn 文檔中的list of incremental learners,了解實現
partial_fit
API 的估算器列表。請注意,Incremental
不僅限於這些類,它適用於實現partial_fit
的任何估計器,包括那些在 scikit-learn 本身之外定義的估計器。調用
Incremental.fit()
使用 Dask 數組會將 Dask 數組或數組的每個塊傳遞給estimator.partial_fit
依次.與
ParallelPostFit
一樣,擬合後可用的方法(例如Incremental.predict()
等)都是並行和延遲的。estimator_
屬性是在調用fit
期間實際使用的estimator
的克隆。在訓練期間學習的所有屬性都可以直接在Incremental
上使用。- estimator:估計器
任何支持 scikit-learn
partial_fit
API 的對象。- scoring:字符串或可調用,可選
單個字符串(參見評分參數:定義模型評估規則)或可調用的(見從度量函數定義你的評分策略) 來評估對測試集的預測。
為了評估多個指標,或者給出一個(唯一的)字符串列表,或者給出一個名稱作為鍵、可調用對象作為值的字典。
請注意,使用自定義記分器時,每個記分器應返回一個值。返回值列表/數組的度量函數可以包裝到多個記分器中,每個記分器返回一個值。
有關示例,請參閱指定多個指標進行評估。
警告
如果沒有,則使用估計器的默認記分器(如果可用)。大多數 scikit-learn 估計器會將大型 Dask 數組轉換為單個 NumPy 數組,這可能會耗盡您的工作人員的內存。您可能希望始終指定
scoring
。- random_state:int 或 numpy.random.RandomState,可選
確定如何Shuffle[洗牌]塊的隨機對象。
- shuffle_blocks:布爾值,默認為真
確定是在隨機選擇的 Dask 數組塊(默認)上調用
partial_fit
,還是按順序排列。這不控製塊之間的洗牌或洗牌每個塊。- predict_meta: pd.Series, pd.DataFrame, np.array deafult: None(infer):
與估計器
predict
調用的輸出類型匹配的空pd.Series
,pd.DataFrame
,np.array
。對於某些估算器使用dask.dataframe
和dask.array
而言,此元是必需的- predict_proba_meta: pd.Series, pd.DataFrame, np.array deafult: None(infer):
與估計器
predict_proba
調用的輸出類型匹配的空pd.Series
,pd.DataFrame
,np.array
。對於某些估算器使用dask.dataframe
和dask.array
而言,此元是必需的- transform_meta: pd.Series, pd.DataFrame, np.array deafult: None(infer):
與估計器
transform
調用的輸出類型匹配的空pd.Series
,pd.DataFrame
,np.array
。對於某些估算器使用dask.dataframe
和dask.array
而言,此元是必需的
- estimator_:估計器
在
.fit
調用期間實際適合的estimator
的克隆。
參數:
屬性:
例子:
>>> from dask_ml.wrappers import Incremental >>> from dask_ml.datasets import make_classification >>> import sklearn.linear_model >>> X, y = make_classification(chunks=25) >>> est = sklearn.linear_model.SGDClassifier() >>> clf = Incremental(est, scoring='accuracy') >>> clf.fit(X, y, classes=[0, 1])
在網格搜索中使用時,在底層估計器的參數名稱前加上
estimator__
。>>> from sklearn.model_selection import GridSearchCV >>> param_grid = {"estimator__alpha": [0.1, 1.0, 10.0]} >>> gs = GridSearchCV(clf, param_grid) >>> gs.fit(X, y, classes=[0, 1])
相關用法
- Python dask_ml.wrappers.ParallelPostFit用法及代碼示例
- Python dask_ml.feature_extraction.text.CountVectorizer用法及代碼示例
- Python dask_ml.preprocessing.MinMaxScaler用法及代碼示例
- Python dask_ml.preprocessing.Categorizer用法及代碼示例
- Python dask_ml.linear_model.LinearRegression用法及代碼示例
- Python dask_ml.metrics.mean_squared_log_error用法及代碼示例
- Python dask_ml.model_selection.GridSearchCV用法及代碼示例
- Python dask_ml.preprocessing.OrdinalEncoder用法及代碼示例
- Python dask_ml.feature_extraction.text.FeatureHasher用法及代碼示例
- Python dask_ml.preprocessing.LabelEncoder用法及代碼示例
- Python dask_ml.ensemble.BlockwiseVotingClassifier用法及代碼示例
- Python dask_ml.model_selection.train_test_split用法及代碼示例
- Python dask_ml.decomposition.PCA用法及代碼示例
- Python dask_ml.feature_extraction.text.HashingVectorizer用法及代碼示例
- Python dask_ml.preprocessing.PolynomialFeatures用法及代碼示例
- Python dask_ml.linear_model.LogisticRegression用法及代碼示例
- Python dask_ml.xgboost.train用法及代碼示例
- Python dask_ml.linear_model.PoissonRegression用法及代碼示例
- Python dask_ml.preprocessing.StandardScaler用法及代碼示例
- Python dask_ml.preprocessing.QuantileTransformer用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask_ml.wrappers.Incremental。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。