當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python sklearn load_boston用法及代碼示例


本文簡要介紹python語言中 sklearn.datasets.load_boston 的用法。

用法:

sklearn.datasets.load_boston(*, return_X_y=False)

已棄用:load_boston 在 1.0 中已棄用,並將在 1.2 中刪除。

波士頓房價數據集存在倫理問題。您可以參考此函數的文檔以獲取更多詳細信息。

因此,scikit-learn 維護者強烈反對使用此數據集,除非代碼的目的是研究和教育數據科學和機器學習中的倫理問題。

在這種特殊情況下,您可以從原始來源獲取數據集:

import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

替代數據集包括加利福尼亞住房數據集(即 fetch_california_housing )和 Ames 住房數據集。您可以按如下方式加載數據集:

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

對於加利福尼亞住房數據集和:

from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)

用於 Ames 住房數據集。

加載並返回 boston house-prices 數據集(回歸)。

樣品總數

506

Dimensionality

13

Features

真實的,積極的

Targets

真正的 5. - 50.

在用戶指南中閱讀更多信息。

警告

波士頓房價數據集存在道德問題:正如[1]中所調查的,該數據集的作者設計了一個不可逆變量“B”,假設種族self-segregation對房價有積極影響[2]。此外,創建該數據集的研究目標是研究空氣質量的影響,但它沒有充分證明這一假設的有效性。

因此,scikit-learn 維護者強烈反對使用此數據集,除非代碼的目的是研究和教育數據科學和機器學習中的倫理問題。

在這種特殊情況下,您可以從原始來源獲取數據集:

import pandas as pd  # doctest: +SKIP
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

替代數據集包括加州住房數據集 [3](即 fetch_california_housing )和艾姆斯住房數據集 [4]。您可以按如下方式加載數據集:

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

對於加利福尼亞住房數據集和:

from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)  # noqa

用於 Ames 住房數據集。

參數

return_X_y布爾,默認=假

如果為 True,則返回 (data, target) 而不是 Bunch 對象。有關datatarget 對象的更多信息,請參見下文。

返回

datasklearn.utils.Bunch

類似字典的對象,具有以下屬性。

數據ndarray 形狀 (506, 13)

數據矩陣。

目標ndarray 形狀 (506,)

回歸目標。

文件名str

波士頓 csv 數據集的物理位置。

DESCRstr

數據集的完整說明。

feature_namesndarray

特征名稱

(data, target)如果return_X_y 為真,則為元組

注意

參考

1

種族主義數據銷毀? M卡萊爾,

2

小哈裏森、大衛和丹尼爾 L. 魯賓菲爾德。 “享樂的房價和對清潔空氣的需求。”環境經濟與管理雜誌 5.1 (1978): 81-102。

3

加州住房數據集

4

艾姆斯住房數據集

例子

>>> import warnings
>>> from sklearn.datasets import load_boston
>>> with warnings.catch_warnings():
...     # You should probably not use this dataset.
...     warnings.filterwarnings("ignore")
...     X, y = load_boston(return_X_y=True)
>>> print(X.shape)
(506, 13)

相關用法


注:本文由純淨天空篩選整理自scikit-learn.org大神的英文原創作品 sklearn.datasets.load_boston。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。