当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python sklearn load_boston用法及代码示例


本文简要介绍python语言中 sklearn.datasets.load_boston 的用法。

用法:

sklearn.datasets.load_boston(*, return_X_y=False)

已弃用:load_boston 在 1.0 中已弃用,并将在 1.2 中删除。

波士顿房价数据集存在伦理问题。您可以参考此函数的文档以获取更多详细信息。

因此,scikit-learn 维护者强烈反对使用此数据集,除非代码的目的是研究和教育数据科学和机器学习中的伦理问题。

在这种特殊情况下,您可以从原始来源获取数据集:

import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

替代数据集包括加利福尼亚住房数据集(即 fetch_california_housing )和 Ames 住房数据集。您可以按如下方式加载数据集:

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

对于加利福尼亚住房数据集和:

from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)

用于 Ames 住房数据集。

加载并返回 boston house-prices 数据集(回归)。

样品总数

506

Dimensionality

13

Features

真实的,积极的

Targets

真正的 5. - 50.

在用户指南中阅读更多信息。

警告

波士顿房价数据集存在道德问题:正如[1]中所调查的,该数据集的作者设计了一个不可逆变量“B”,假设种族self-segregation对房价有积极影响[2]。此外,创建该数据集的研究目标是研究空气质量的影响,但它没有充分证明这一假设的有效性。

因此,scikit-learn 维护者强烈反对使用此数据集,除非代码的目的是研究和教育数据科学和机器学习中的伦理问题。

在这种特殊情况下,您可以从原始来源获取数据集:

import pandas as pd  # doctest: +SKIP
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

替代数据集包括加州住房数据集 [3](即 fetch_california_housing )和艾姆斯住房数据集 [4]。您可以按如下方式加载数据集:

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

对于加利福尼亚住房数据集和:

from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)  # noqa

用于 Ames 住房数据集。

参数

return_X_y布尔,默认=假

如果为 True,则返回 (data, target) 而不是 Bunch 对象。有关datatarget 对象的更多信息,请参见下文。

返回

datasklearn.utils.Bunch

类似字典的对象,具有以下属性。

数据ndarray 形状 (506, 13)

数据矩阵。

目标ndarray 形状 (506,)

回归目标。

文件名str

波士顿 csv 数据集的物理位置。

DESCRstr

数据集的完整说明。

feature_namesndarray

特征名称

(data, target)如果return_X_y 为真,则为元组

注意

参考

1

种族主义数据销毁? M卡莱尔,

2

小哈里森、大卫和丹尼尔 L. 鲁宾菲尔德。 “享乐的房价和对清洁空气的需求。”环境经济与管理杂志 5.1 (1978): 81-102。

3

加州住房数据集

4

艾姆斯住房数据集

例子

>>> import warnings
>>> from sklearn.datasets import load_boston
>>> with warnings.catch_warnings():
...     # You should probably not use this dataset.
...     warnings.filterwarnings("ignore")
...     X, y = load_boston(return_X_y=True)
>>> print(X.shape)
(506, 13)

相关用法


注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.datasets.load_boston。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。