用法:
cuml.model_selection.train_test_split(X, y=None, test_size: Optional[Union[float, int]] = None, train_size: Optional[Union[float, int]] = None, shuffle: bool = True, random_state: Optional[Union[int, cupy.random._generator.RandomState, numpy.random.mtrand.RandomState]] = None, stratify=None)
將設備數據劃分為四個整理的對象,模仿 Scikit-learn 的 train_test_split 。
- X:cudf.DataFrame 或 cuda_array_interface 兼容設備數組
要拆分的數據,具有形狀(n_samples,n_features)
- y:str、cudf.Series 或 cuda_array_interface 兼容設備陣列
數據的標簽集,可以是一係列形狀 (n_samples) 或 X 中包含標簽的列的字符串標簽(如果它是 cuDF DataFrame)
- train_size:float 或 int,可選
如果是float,表示要分配給訓練集的數據的比例[0, 1]。如果是 int,則表示要分配給訓練集的實例數。默認為 0.8
- shuffle:布爾型,可選
拆分前是否對輸入進行混洗
- random_state:int、CuPy RandomState 或 NumPy RandomState 可選
如果 shuffle 為真,則為生成器播種。默認不播種
- stratify: cudf.Series or cuda_array_interface compliant device array,:
可選參數。傳遞時,輸入將使用此列拆分以啟動。默認=無
- X_train, X_test, y_train, y_test:cudf.DataFrame 或 array-like 對象
如果 X 和 y 是 cuDF 對象,則分區數據幀。如果
y
作為列名提供,則從X
中刪除該列。如果 X 和 y 是 Numba 設備陣列,則分區 numba 設備陣列。任何其他輸入的分區 CuPy 數組。
參數:
返回:
例子:
import cudf from cuml.model_selection import train_test_split # Generate some sample data df = cudf.DataFrame({'x': range(10), 'y': [0, 1] * 5}) print(f'Original data: {df.shape[0]} elements') # Suppose we want an 80/20 split X_train, X_test, y_train, y_test = train_test_split(df, 'y', train_size=0.8) print(f'X_train: {X_train.shape[0]} elements') print(f'X_test: {X_test.shape[0]} elements') print(f'y_train: {y_train.shape[0]} elements') print(f'y_test: {y_test.shape[0]} elements') # Alternatively, if our labels are stored separately labels = df['y'] df = df.drop(['y'], axis=1) # we can also do X_train, X_test, y_train, y_test = train_test_split(df, labels, train_size=0.8)
輸出:
Original data: 10 elements X_train: 8 elements X_test: 2 elements y_train: 8 elements y_test: 2 elements
相關用法
- Python cuml.metrics.pairwise_distances.pairwise_distances用法及代碼示例
- Python cuml.multiclass.OneVsRestClassifier用法及代碼示例
- Python cuml.metrics.roc_auc_score用法及代碼示例
- Python cuml.metrics.pairwise_distances.sparse_pairwise_distances用法及代碼示例
- Python cuml.multiclass.OneVsOneClassifier用法及代碼示例
- Python cuml.metrics.precision_recall_curve用法及代碼示例
- Python cuml.metrics.log_loss用法及代碼示例
- Python cuml.multiclass.MulticlassClassifier用法及代碼示例
- Python cuml.neighbors.KNeighborsClassifier用法及代碼示例
- Python cuml.ensemble.RandomForestRegressor用法及代碼示例
- Python cuml.svm.SVC用法及代碼示例
- Python cuml.svm.SVR用法及代碼示例
- Python cuml.Lasso用法及代碼示例
- Python cuml.tsa.ARIMA.predict用法及代碼示例
- Python cuml.preprocessing.LabelBinarizer用法及代碼示例
- Python cuml.random_projection.GaussianRandomProjection用法及代碼示例
- Python cuml.MBSGDRegressor用法及代碼示例
- Python cuml.experimental.preprocessing.PolynomialFeatures用法及代碼示例
- Python cuml.PCA用法及代碼示例
- Python cuml.feature_extraction.text.HashingVectorizer用法及代碼示例
注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cuml.model_selection.train_test_split。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。