数组创建#

介绍#

有6种通用机制用于创建数组:

  1. 从其他 Python 结构(即列表和元组)的转换

  2. 内置的 NumPy 数组创建函数(例如 arange、ones、zeros 等)

  3. 复制、连接或变异现有数组

  4. 从磁盘读取数组,无论是标准格式还是自定义格式

  5. 通过使用字符串或缓冲区从原始字节创建数组

  6. 使用特殊库函数(例如,random)

你可以使用这些方法来创建 ndarrays 或 结构化数组.本文档将涵盖 ndarray 创建的一般方法.

将 Python 序列转换为 NumPy 数组#

NumPy 数组可以使用 Python 序列(如列表和元组)来定义.列表和元组分别使用 [...](...) 来定义.列表和元组可以定义 ndarray 的创建:

  • 一个数字列表将创建一个一维数组,

  • 一个列表的列表将创建一个二维数组,

  • 更深层次的列表将创建更高维度的数组.通常,任何数组对象在 NumPy 中被称为 ndarray.

>>> import numpy as np
>>> a1D = np.array([1, 2, 3, 4])
>>> a2D = np.array([[1, 2], [3, 4]])
>>> a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

当你使用 numpy.array 来定义一个新数组时,你应该考虑数组中元素的 dtype ,这可以显式指定.这一特性让你能更好地控制底层数据结构以及元素在 C/C++ 函数中的处理方式.当值不匹配且你正在使用 dtype 时,NumPy 可能会抛出一个错误:

>>> import numpy as np
>>> np.array([127, 128, 129], dtype=np.int8)
Traceback (most recent call last):
...
OverflowError: Python integer 128 out of bounds for int8

一个8位有符号整数表示从-128到127的整数.将 int8 数组分配给此范围之外的整数会导致溢出.这个特性经常被误解.如果你使用不匹配的 dtypes 进行计算,你可能会得到不想要的结果,例如:

>>> import numpy as np
>>> a = np.array([2, 3, 4], dtype=np.uint32)
>>> b = np.array([5, 6, 7], dtype=np.uint32)
>>> c_unsigned32 = a - b
>>> print('unsigned c:', c_unsigned32, c_unsigned32.dtype)
unsigned c: [4294967293 4294967293 4294967293] uint32
>>> c_signed32 = a - b.astype(np.int32)
>>> print('signed c:', c_signed32, c_signed32.dtype)
signed c: [-3 -3 -3] int64

请注意,当您使用两个相同 dtype 的数组进行操作时:uint32,结果数组是相同类型.当您使用不同 dtype 进行操作时,NumPy 会分配一个满足所有参与计算的数组元素的新类型,这里的 uint32int32 都可以表示为 int64.

默认的 NumPy 行为是创建 32 或 64 位有符号整数数组(平台依赖且与 C long 大小匹配)或双精度浮点数.如果你期望你的整数数组是特定类型,那么你需要在创建数组时指定 dtype.

2) 内在的 NumPy 数组创建函数#

NumPy 有超过 40 个内置函数用于创建数组,如 数组创建例程 中所述.这些函数可以根据它们创建的数组的维度大致分为三类:

  1. 1D 数组

  2. 2D 数组

  3. ndarrays

1 - 一维数组创建函数#

一维数组创建函数例如 numpy.linspacenumpy.arange 通常需要至少两个输入,``start`` 和 stop.

numpy.arange 创建具有规则递增值的数组.请查看文档以获取完整信息和示例.以下是一些示例:

>>> import numpy as np
>>> np.arange(10)
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> np.arange(2, 10, dtype=float)
array([2., 3., 4., 5., 6., 7., 8., 9.])
>>> np.arange(2, 3, 0.1)
array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])

注意:使用 numpy.arange 的最佳实践是使用整数起始值、结束值和步长值.关于 dtype 有一些微妙之处.在第二个例子中,``dtype`` 被定义了.在第三个例子中,数组的 dtype=float 以适应步长 0.1.由于舍入误差,``stop`` 值有时会被包含在内.

numpy.linspace 将创建具有指定数量元素的数组,并在指定的起始值和结束值之间等间距分布.例如:

>>> import numpy as np
>>> np.linspace(1., 4., 6)
array([1. ,  1.6,  2.2,  2.8,  3.4,  4. ])

这个创建函数的优点是你可以保证元素的数量以及起点和终点.之前的 arange(start, stop, step) 不会包含值 stop.

2 - 2D 数组创建函数#

二维数组创建函数例如 numpy.eye, numpy.diag, 和 numpy.vander 定义了以二维数组表示的特殊矩阵的属性.

np.eye(n, m) 定义了一个二维单位矩阵.其中 i=j(行索引和列索引相等)的元素为 1,其余为 0,如下所示:

>>> import numpy as np
>>> np.eye(3)
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])
>>> np.eye(3, 5)
array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

numpy.diag 可以定义一个具有对角线值的方形二维数组,或者如果给定一个二维数组,则返回一个仅包含对角线元素的一维数组.这两种数组创建函数在做线性代数时非常有用,例如:

>>> import numpy as np
>>> np.diag([1, 2, 3])
array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])
>>> np.diag([1, 2, 3], 1)
array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])
>>> a = np.array([[1, 2], [3, 4]])
>>> np.diag(a)
array([1, 4])

vander(x, n) 定义了一个范德蒙矩阵作为 2D NumPy 数组.范德蒙矩阵的每一列是输入 1D 数组或列表或元组 x 的递减幂,其中最高多项式阶数为 n-1.这种数组创建例程在生成线性最小二乘模型时非常有用,例如:

>>> import numpy as np
>>> np.vander(np.linspace(0, 2, 5), 2)
array([[0. , 1. ],
      [0.5, 1. ],
      [1. , 1. ],
      [1.5, 1. ],
      [2. , 1. ]])
>>> np.vander([1, 2, 3, 4], 2)
array([[1, 1],
       [2, 1],
       [3, 1],
       [4, 1]])
>>> np.vander((1, 2, 3, 4), 4)
array([[ 1,  1,  1,  1],
       [ 8,  4,  2,  1],
       [27,  9,  3,  1],
       [64, 16,  4,  1]])

3 - 通用 ndarray 创建函数#

ndarray 创建函数例如 numpy.ones, numpy.zeros, 和 random 基于所需的形状定义数组.ndarray 创建函数可以通过在元组或列表中指定维度和沿该维度的长度来创建任意维度的数组.

numpy.zeros 将创建一个用 0 值填充的数组,具有指定的形状.默认的 dtype 是 float64:

>>> import numpy as np
>>> np.zeros((2, 3))
array([[0., 0., 0.],
       [0., 0., 0.]])
>>> np.zeros((2, 3, 2))
array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

numpy.ones 将创建一个填充了1值的数组.在所有其他方面,它与 zeros 相同,如下所示:

>>> import numpy as np
>>> np.ones((2, 3))
array([[1., 1., 1.],
       [1., 1., 1.]])
>>> np.ones((2, 3, 2))
array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

random 方法是 default_rng 结果的一部分,它将创建一个填充了0到1之间随机值的数组.它包含在 numpy.random 库中.下面,分别创建了形状为 (2,3) 和 (2,3,2) 的两个数组.种子设置为42,因此你可以重现这些伪随机数:

>>> import numpy as np
>>> from numpy.random import default_rng
>>> default_rng(42).random((2,3))
array([[0.77395605, 0.43887844, 0.85859792],
       [0.69736803, 0.09417735, 0.97562235]])
>>> default_rng(42).random((2,3,2))
array([[[0.77395605, 0.43887844],
        [0.85859792, 0.69736803],
        [0.09417735, 0.97562235]],
       [[0.7611397 , 0.78606431],
        [0.12811363, 0.45038594],
        [0.37079802, 0.92676499]]])

numpy.indices 将创建一组数组(堆叠为一个更高维的数组),每个维度一个,每个表示该维度中的变化:

>>> import numpy as np
>>> np.indices((3,3))
array([[[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]],
       [[0, 1, 2],
        [0, 1, 2],
        [0, 1, 2]]])

这对于在规则网格上评估多维函数的值特别有用.

3) 复制、连接或变异现有数组#

一旦你创建了数组,你可以复制、连接或变异这些现有的数组来创建新的数组.当你将一个数组或其元素赋值给一个新变量时,你必须显式地 numpy.copy 数组,否则该变量是原始数组的视图.考虑以下示例:

>>> import numpy as np
>>> a = np.array([1, 2, 3, 4, 5, 6])
>>> b = a[:2]
>>> b += 1
>>> print('a =', a, '; b =', b)
a = [2 3 3 4 5 6] ; b = [2 3]

在这个例子中,你没有创建一个新的数组.你创建了一个变量 b ,它查看了 a 的前两个元素.当你给 b 加 1 时,你通过给 a[:2] 加 1 会得到相同的结果.如果你想创建一个 数组,使用 numpy.copy 数组创建例程,如下所示:

>>> import numpy as np
>>> a = np.array([1, 2, 3, 4])
>>> b = a[:2].copy()
>>> b += 1
>>> print('a = ', a, 'b = ', b)
a =  [1 2 3 4] b =  [2 3]

更多信息和示例请参见 副本和视图.

有多种方法可以连接现有的数组,例如 numpy.vstacknumpy.hstacknumpy.block.以下是一个使用 block 将四个 2x2 数组连接成一个 4x4 数组的示例:

>>> import numpy as np
>>> A = np.ones((2, 2))
>>> B = np.eye(2, 2)
>>> C = np.zeros((2, 2))
>>> D = np.diag((-3, -4))
>>> np.block([[A, B], [C, D]])
array([[ 1.,  1.,  1.,  0.],
       [ 1.,  1.,  0.,  1.],
       [ 0.,  0., -3.,  0.],
       [ 0.,  0.,  0., -4.]])

其他例程使用类似的语法来连接 ndarrays.请查看例程的文档以获取更多示例和语法.

4) 从磁盘读取数组,可以是标准格式或自定义格式#

这是创建大数组的最常见情况.细节在很大程度上取决于磁盘上数据的格式.本节提供了如何处理各种格式的一般指导.有关IO的更详细示例,请参见 如何读写文件.

标准二进制格式#

各种字段对于数组数据有标准的格式.以下列出了已知有Python库可以读取它们并返回NumPy数组的格式(可能还有其他格式可以读取并转换为NumPy数组,因此请检查最后一节):

HDF5: h5py
FITS: Astropy

无法直接读取但不难转换的格式示例是那些由库支持的格式,例如 PIL(能够读取和写入许多图像格式,如 jpg、png 等).

常见的 ASCII 格式#

分隔文件,如逗号分隔值(csv)和制表符分隔值(tsv)文件,用于Excel和LabView等程序.Python函数可以逐行读取和解析这些文件.NumPy有两个标准的例程用于导入带有分隔数据的文件:numpy.loadtxtnumpy.genfromtxt.这些函数在 读取和写入文件 中有更复杂的用例.给定一个 simple.csv 的简单示例:

$ cat simple.csv
x, y
0, 0
1, 1
2, 4
3, 9

导入 simple.csv 是通过使用 numpy.loadtxt 完成的:

>>> import numpy as np
>>> np.loadtxt('simple.csv', delimiter = ',', skiprows = 1) 
array([[0., 0.],
       [1., 1.],
       [2., 4.],
       [3., 9.]])

更通用的 ASCII 文件可以使用 scipy.ioPandas 读取.

5) 通过使用字符串或缓冲区从原始字节创建数组#

有多种方法可以使用.如果文件格式相对简单,那么可以编写一个简单的 I/O 库,并使用 NumPy 的 fromfile() 函数和 .tofile() 方法直接读写 NumPy 数组(不过要注意字节顺序!)如果存在一个读取数据的好的 C 或 C++ 库,可以通过多种技术来包装该库,尽管这肯定需要更多的工作,并且需要更高级的知识来与 C 或 C++ 接口.

6) 使用特殊库函数(例如,SciPy、pandas 和 OpenCV)#

NumPy 是 Python 科学计算栈中用于数组容器的核心库.许多 Python 库,包括 SciPy、Pandas 和 OpenCV,都使用 NumPy ndarrays 作为数据交换的通用格式.这些库可以创建、操作和使用 NumPy 数组.