本文简要介绍python语言中 sklearn.datasets.load_boston
的用法。
用法:
sklearn.datasets.load_boston(*, return_X_y=False)
已弃用:
load_boston
在 1.0 中已弃用,并将在 1.2 中删除。波士顿房价数据集存在伦理问题。您可以参考此函数的文档以获取更多详细信息。
因此,scikit-learn 维护者强烈反对使用此数据集,除非代码的目的是研究和教育数据科学和机器学习中的伦理问题。
在这种特殊情况下,您可以从原始来源获取数据集:
import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2]
替代数据集包括加利福尼亚住房数据集(即
fetch_california_housing
)和 Ames 住房数据集。您可以按如下方式加载数据集:from sklearn.datasets import fetch_california_housing housing = fetch_california_housing()
对于加利福尼亚住房数据集和:
from sklearn.datasets import fetch_openml housing = fetch_openml(name="house_prices", as_frame=True)
用于 Ames 住房数据集。
加载并返回 boston house-prices 数据集(回归)。
样品总数
506
Dimensionality
13
Features
真实的,积极的
Targets
真正的 5. - 50.
在用户指南中阅读更多信息。
警告
波士顿房价数据集存在道德问题:正如[1]中所调查的,该数据集的作者设计了一个不可逆变量“B”,假设种族self-segregation对房价有积极影响[2]。此外,创建该数据集的研究目标是研究空气质量的影响,但它没有充分证明这一假设的有效性。
因此,scikit-learn 维护者强烈反对使用此数据集,除非代码的目的是研究和教育数据科学和机器学习中的伦理问题。
在这种特殊情况下,您可以从原始来源获取数据集:
import pandas as pd # doctest: +SKIP import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2]
替代数据集包括加州住房数据集 [3](即
fetch_california_housing
)和艾姆斯住房数据集 [4]。您可以按如下方式加载数据集:from sklearn.datasets import fetch_california_housing housing = fetch_california_housing()
对于加利福尼亚住房数据集和:
from sklearn.datasets import fetch_openml housing = fetch_openml(name="house_prices", as_frame=True) # noqa
用于 Ames 住房数据集。
- return_X_y:布尔,默认=假
如果为 True,则返回
(data, target)
而不是 Bunch 对象。有关data
和target
对象的更多信息,请参见下文。
- data:sklearn.utils.Bunch
类似字典的对象,具有以下属性。
- 数据:ndarray 形状 (506, 13)
数据矩阵。
- 目标:ndarray 形状 (506,)
回归目标。
- 文件名:str
波士顿 csv 数据集的物理位置。
- DESCR:str
数据集的完整说明。
- feature_names:ndarray
特征名称
- (data, target):如果
return_X_y
为真,则为元组
参数:
返回:
注意:
参考:
例子:
>>> import warnings >>> from sklearn.datasets import load_boston >>> with warnings.catch_warnings(): ... # You should probably not use this dataset. ... warnings.filterwarnings("ignore") ... X, y = load_boston(return_X_y=True) >>> print(X.shape) (506, 13)
相关用法
- Python sklearn load_breast_cancer用法及代码示例
- Python sklearn load_svmlight_file用法及代码示例
- Python sklearn load_iris用法及代码示例
- Python sklearn load_digits用法及代码示例
- Python sklearn load_sample_image用法及代码示例
- Python sklearn load_wine用法及代码示例
- Python sklearn load_sample_images用法及代码示例
- Python sklearn log_loss用法及代码示例
- Python sklearn lasso_path用法及代码示例
- Python sklearn label_binarize用法及代码示例
- Python sklearn laplacian_kernel用法及代码示例
- Python sklearn label_ranking_average_precision_score用法及代码示例
- Python sklearn lars_path用法及代码示例
- Python sklearn lars_path_gram用法及代码示例
- Python sklearn jaccard_score用法及代码示例
- Python sklearn WhiteKernel用法及代码示例
- Python sklearn CalibrationDisplay.from_predictions用法及代码示例
- Python sklearn VotingRegressor用法及代码示例
- Python sklearn gen_batches用法及代码示例
- Python sklearn ExpSineSquared用法及代码示例
- Python sklearn MDS用法及代码示例
- Python sklearn adjusted_rand_score用法及代码示例
- Python sklearn MLPClassifier用法及代码示例
- Python sklearn train_test_split用法及代码示例
- Python sklearn RandomTreesEmbedding用法及代码示例
注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.datasets.load_boston。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。