当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python SciPy sparse.csr_matrix用法及代码示例


本文简要介绍 python 语言中 scipy.sparse.csr_matrix 的用法。

用法:

class  scipy.sparse.csr_matrix(arg1, shape=None, dtype=None, copy=False)#

压缩稀疏行矩阵。

这可以通过多种方式实例化:

csr_matrix(D)

其中 D 是二维 ndarray

csr_matrix(S)

与另一个稀疏数组或矩阵 S (相当于 S.tocsr())

csr_matrix((M, N), [dtype])

构造一个形状为 (M, N) 的空矩阵 dtype 是可选的,默认为 dtype='d'。

csr_matrix((数据, (row_ind, col_ind)), [形状=(M, N)])

其中 datarow_indcol_ind 满足关系 a[row_ind[k], col_ind[k]] = data[k]

csr_matrix((数据,索引,indptr),[形状=(M,N)])

是标准的 CSR 表示,其中行 i 的列索引存储在 indices[indptr[i]:indptr[i+1]] 中,并且它们的相应值存储在 data[indptr[i]:indptr[i+1]] 中。如果未提供 shape 参数,则从索引数组中推断出矩阵维度。

注意

稀疏矩阵可用于算术运算:它们支持加法、减法、乘法、除法和矩阵幂。

CSR 格式的优点

  • 高效算术运算 CSR + CSR、CSR * CSR 等

  • 高效的行切片

  • 快速矩阵向量积

CSR 格式的缺点

  • 慢速列切片操作(考虑 CSC)

  • 稀疏结构的更改代价高昂(考虑 LIL 或 DOK)

规范格式

  • 在每行中,索引按列排序。

  • 没有重复的条目。

例子

>>> import numpy as np
>>> from scipy.sparse import csr_matrix
>>> csr_matrix((3, 4), dtype=np.int8).toarray()
array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]], dtype=int8)
>>> row = np.array([0, 0, 1, 2, 2, 2])
>>> col = np.array([0, 2, 2, 0, 1, 2])
>>> data = np.array([1, 2, 3, 4, 5, 6])
>>> csr_matrix((data, (row, col)), shape=(3, 3)).toarray()
array([[1, 0, 2],
       [0, 0, 3],
       [4, 5, 6]])
>>> indptr = np.array([0, 2, 3, 6])
>>> indices = np.array([0, 2, 2, 0, 1, 2])
>>> data = np.array([1, 2, 3, 4, 5, 6])
>>> csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()
array([[1, 0, 2],
       [0, 0, 3],
       [4, 5, 6]])

重复的条目汇总在一起:

>>> row = np.array([0, 1, 2, 0])
>>> col = np.array([0, 1, 1, 0])
>>> data = np.array([1, 2, 4, 8])
>>> csr_matrix((data, (row, col)), shape=(3, 3)).toarray()
array([[9, 0, 0],
       [0, 2, 0],
       [0, 4, 0]])

作为如何逐步构建 CSR 矩阵的示例,以下代码段从文本构建 term-document 矩阵:

>>> docs = [["hello", "world", "hello"], ["goodbye", "cruel", "world"]]
>>> indptr = [0]
>>> indices = []
>>> data = []
>>> vocabulary = {}
>>> for d in docs:
...     for term in d:
...         index = vocabulary.setdefault(term, len(vocabulary))
...         indices.append(index)
...         data.append(1)
...     indptr.append(len(indices))
...
>>> csr_matrix((data, indices, indptr), dtype=int).toarray()
array([[2, 1, 0, 0],
       [0, 1, 1, 1]])

属性

dtype 类型

矩阵的数据类型

shape 2元组

矩阵的形状

ndim int

维数(始终为 2)

nnz

存储值的数量,包括显式零。

size

存储值的数量。

data

矩阵的CSR格式数据数组

indices

矩阵的 CSR 格式索引数组

indptr

矩阵的CSR格式索引指针数组

has_sorted_indices

索引是否排序

has_canonical_format

数组/矩阵是否具有排序索引并且没有重复项

T

转置。

相关用法


注:本文由纯净天空筛选整理自scipy.org大神的英文原创作品 scipy.sparse.csr_matrix。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。