本文簡要介紹python語言中 sklearn.datasets.load_boston
的用法。
用法:
sklearn.datasets.load_boston(*, return_X_y=False)
已棄用:
load_boston
在 1.0 中已棄用,並將在 1.2 中刪除。波士頓房價數據集存在倫理問題。您可以參考此函數的文檔以獲取更多詳細信息。
因此,scikit-learn 維護者強烈反對使用此數據集,除非代碼的目的是研究和教育數據科學和機器學習中的倫理問題。
在這種特殊情況下,您可以從原始來源獲取數據集:
import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2]
替代數據集包括加利福尼亞住房數據集(即
fetch_california_housing
)和 Ames 住房數據集。您可以按如下方式加載數據集:from sklearn.datasets import fetch_california_housing housing = fetch_california_housing()
對於加利福尼亞住房數據集和:
from sklearn.datasets import fetch_openml housing = fetch_openml(name="house_prices", as_frame=True)
用於 Ames 住房數據集。
加載並返回 boston house-prices 數據集(回歸)。
樣品總數
506
Dimensionality
13
Features
真實的,積極的
Targets
真正的 5. - 50.
在用戶指南中閱讀更多信息。
警告
波士頓房價數據集存在道德問題:正如[1]中所調查的,該數據集的作者設計了一個不可逆變量“B”,假設種族self-segregation對房價有積極影響[2]。此外,創建該數據集的研究目標是研究空氣質量的影響,但它沒有充分證明這一假設的有效性。
因此,scikit-learn 維護者強烈反對使用此數據集,除非代碼的目的是研究和教育數據科學和機器學習中的倫理問題。
在這種特殊情況下,您可以從原始來源獲取數據集:
import pandas as pd # doctest: +SKIP import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2]
替代數據集包括加州住房數據集 [3](即
fetch_california_housing
)和艾姆斯住房數據集 [4]。您可以按如下方式加載數據集:from sklearn.datasets import fetch_california_housing housing = fetch_california_housing()
對於加利福尼亞住房數據集和:
from sklearn.datasets import fetch_openml housing = fetch_openml(name="house_prices", as_frame=True) # noqa
用於 Ames 住房數據集。
- return_X_y:布爾,默認=假
如果為 True,則返回
(data, target)
而不是 Bunch 對象。有關data
和target
對象的更多信息,請參見下文。
- data:sklearn.utils.Bunch
類似字典的對象,具有以下屬性。
- 數據:ndarray 形狀 (506, 13)
數據矩陣。
- 目標:ndarray 形狀 (506,)
回歸目標。
- 文件名:str
波士頓 csv 數據集的物理位置。
- DESCR:str
數據集的完整說明。
- feature_names:ndarray
特征名稱
- (data, target):如果
return_X_y
為真,則為元組
參數:
返回:
注意:
參考:
例子:
>>> import warnings >>> from sklearn.datasets import load_boston >>> with warnings.catch_warnings(): ... # You should probably not use this dataset. ... warnings.filterwarnings("ignore") ... X, y = load_boston(return_X_y=True) >>> print(X.shape) (506, 13)
相關用法
- Python sklearn load_breast_cancer用法及代碼示例
- Python sklearn load_svmlight_file用法及代碼示例
- Python sklearn load_iris用法及代碼示例
- Python sklearn load_digits用法及代碼示例
- Python sklearn load_sample_image用法及代碼示例
- Python sklearn load_wine用法及代碼示例
- Python sklearn load_sample_images用法及代碼示例
- Python sklearn log_loss用法及代碼示例
- Python sklearn lasso_path用法及代碼示例
- Python sklearn label_binarize用法及代碼示例
- Python sklearn laplacian_kernel用法及代碼示例
- Python sklearn label_ranking_average_precision_score用法及代碼示例
- Python sklearn lars_path用法及代碼示例
- Python sklearn lars_path_gram用法及代碼示例
- Python sklearn jaccard_score用法及代碼示例
- Python sklearn WhiteKernel用法及代碼示例
- Python sklearn CalibrationDisplay.from_predictions用法及代碼示例
- Python sklearn VotingRegressor用法及代碼示例
- Python sklearn gen_batches用法及代碼示例
- Python sklearn ExpSineSquared用法及代碼示例
- Python sklearn MDS用法及代碼示例
- Python sklearn adjusted_rand_score用法及代碼示例
- Python sklearn MLPClassifier用法及代碼示例
- Python sklearn train_test_split用法及代碼示例
- Python sklearn RandomTreesEmbedding用法及代碼示例
注:本文由純淨天空篩選整理自scikit-learn.org大神的英文原創作品 sklearn.datasets.load_boston。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。