路线图

有关此路线图的小册子版本，请参见此链接。

背景

PyData/Sparse 的目标是创建实现 ndarray 接口的稀疏容器。传统上，在 PyData 生态系统中，稀疏数组由 scipy.sparse 子模块提供。那里的所有容器都依赖并模拟 numpy.matrix 接口。这意味着它们仅限于二维，并且在 numpy.ndarray 可以工作的地方表现不佳。

PyData/Sparse 正在顺利取代 scipy.sparse，成为 PyData 生态系统中事实上的稀疏数组实现。

主题

更多存储格式
更好的性能/算法
覆盖更多NumPy API
SciPy 集成
Dask 集成以实现高可扩展性
CuPy 集成以实现GPU加速
维护和通用改进

更好的性能/算法

scipy.sparse 中有少数地方的算法不够优化，有时是由于依赖于 NumPy 而 NumPy 不具备这些算法。我们打算改进 NumPy 中的算法，让更广泛的社区有机会使用它们；同时也在 PyData/Sparse 中，以便在最广泛的使用场景中达到最佳效率。

覆盖更多NumPy API

我们的最终目标是覆盖 NumPy 中所有存在能够使稀疏数组优于密集数组的算法的领域。目前，PyData/Sparse 支持归约、逐元素函数以及其他常用函数，例如堆叠、连接和张量积。稀疏数组的常见用途包括线性代数和图论子程序，因此我们计划首先覆盖这些内容。

SciPy 集成

PyData/Sparse 旨在构建容器及其上的基本操作，例如逐元素操作、归约等。我们计划修改 scipy.sparse.csgraph 中当前的图论子程序以支持 PyData/Sparse 数组。线性代数和 scipy.sparse.linalg 亦然。

CuPy 集成以实现GPU加速

CuPy 是一个在 GPU 上实现 NumPy ndarray 接口大部分功能的项目。我们计划与 CuPy 集成，以便在 GPU 上加速稀疏数组。

已完成任务

Dask 集成以实现高可扩展性

Dask 是一个项目，它采用 ndarray 风格的容器，然后允许它们跨多个核心或集群进行扩展。我们计划与 Dask 团队进行更紧密的集成与合作，以确保 Dask 的最大功能与稀疏数组兼容。

目前，与 Dask 的集成通过数组协议得到支持。当更多 NumPy API（例如数组创建函数）通过数组协议可用时，Dask 将自动支持它们。

（部分）SciPy 集成

对 scipy.sparse.linalg 的支持已完成。我们希望未来能增加对 scipy.sparse.csgraph 的支持。

路线图

背景

主题

更多存储格式