注意
点击here下载完整的示例代码
介绍 || 张量 || 自动求导 || 构建模型 || TensorBoard 支持 || 训练模型 || 模型理解
PyTorch张量简介
创建日期:2021年11月30日 | 最后更新:2024年8月1日 | 最后验证:2024年11月5日
跟随下面的视频或在youtube上观看。
张量是PyTorch中的核心数据抽象。这个交互式笔记本提供了对torch.Tensor
类的深入介绍。
首先,让我们导入PyTorch模块。我们还将添加Python的数学模块以方便一些示例。
import torch
import math
创建张量
创建张量的最简单方法是使用 torch.empty()
调用:
x = torch.empty(3, 4)
print(type(x))
print(x)
<class 'torch.Tensor'>
tensor([[-1.9601e+10, 3.0637e-41, 0.0000e+00, 2.3510e-38],
[ 1.5736e-27, 3.0630e-41, 1.0842e-19, 0.0000e+00],
[ 1.6411e-27, 3.0630e-41, 1.5773e-27, 3.0630e-41]])
让我们来解析一下我们刚刚做了什么:
我们使用附加到
torch
模块的众多工厂方法之一创建了一个张量。张量本身是二维的,有3行和4列。
返回的对象的类型是
torch.Tensor
,它是torch.FloatTensor
的别名;默认情况下,PyTorch张量填充的是32位浮点数。(更多关于数据类型的内容见下文。)打印张量时,你可能会看到一些看起来随机的值。
torch.empty()
调用为张量分配了内存,但并没有用任何值初始化它——所以你看到的是分配时内存中的内容。
关于张量及其维数和术语的简要说明:
你有时会看到一个一维的张量被称为向量。
同样,一个二维张量通常被称为矩阵。
任何超过两个维度的东西通常都称为张量。
通常情况下,你会希望用一些值来初始化你的张量。常见的情况是全零、全一或随机值,torch
模块为所有这些情况提供了工厂方法:
zeros = torch.zeros(2, 3)
print(zeros)
ones = torch.ones(2, 3)
print(ones)
torch.manual_seed(1729)
random = torch.rand(2, 3)
print(random)
tensor([[0., 0., 0.],
[0., 0., 0.]])
tensor([[1., 1., 1.],
[1., 1., 1.]])
tensor([[0.3126, 0.3791, 0.3087],
[0.0736, 0.4216, 0.0691]])
工厂方法都做了你所期望的事情——我们有一个全为零的张量,另一个全为一的张量,还有一个在0和1之间具有随机值的张量。
随机张量和种子
说到随机张量,你注意到在它之前立即调用了torch.manual_seed()
吗?使用随机值初始化张量,例如模型的学习权重,是很常见的,但有时——尤其是在研究环境中——你会希望确保结果的可重复性。手动设置随机数生成器的种子是实现这一点的方法。让我们更仔细地看看:
torch.manual_seed(1729)
random1 = torch.rand(2, 3)
print(random1)
random2 = torch.rand(2, 3)
print(random2)
torch.manual_seed(1729)
random3 = torch.rand(2, 3)
print(random3)
random4 = torch.rand(2, 3)
print(random4)
tensor([[0.3126, 0.3791, 0.3087],
[0.0736, 0.4216, 0.0691]])
tensor([[0.2332, 0.4047, 0.2162],
[0.9927, 0.4128, 0.5938]])
tensor([[0.3126, 0.3791, 0.3087],
[0.0736, 0.4216, 0.0691]])
tensor([[0.2332, 0.4047, 0.2162],
[0.9927, 0.4128, 0.5938]])
你应该在上面看到的是,random1
和 random3
携带相同的值,random2
和 random4
也是如此。手动设置随机数生成器的种子会重置它,因此在大多数情况下,依赖于随机数的相同计算应该提供相同的结果。
欲了解更多信息,请参阅PyTorch关于可重复性的文档。
张量形状
通常,当你在两个或多个张量上执行操作时,它们需要具有相同的形状 - 也就是说,在每个维度上具有相同的维度和相同的单元数。为此,我们有torch.*_like()
方法:
x = torch.empty(2, 2, 3)
print(x.shape)
print(x)
empty_like_x = torch.empty_like(x)
print(empty_like_x.shape)
print(empty_like_x)
zeros_like_x = torch.zeros_like(x)
print(zeros_like_x.shape)
print(zeros_like_x)
ones_like_x = torch.ones_like(x)
print(ones_like_x.shape)
print(ones_like_x)
rand_like_x = torch.rand_like(x)
print(rand_like_x.shape)
print(rand_like_x)
torch.Size([2, 2, 3])
tensor([[[-7.0046e-35, 3.0630e-41, -7.0202e-35],
[ 3.0630e-41, 8.9683e-44, 0.0000e+00]],
[[ 1.1210e-43, 0.0000e+00, -9.1574e+14],
[ 3.0637e-41, -7.0381e-35, 3.0630e-41]]])
torch.Size([2, 2, 3])
tensor([[[-9.4520e+10, 3.0637e-41, 1.4013e-45],
[ 0.0000e+00, 1.4013e-45, 0.0000e+00]],
[[ 1.4013e-45, 0.0000e+00, 1.4013e-45],
[ 0.0000e+00, 1.4013e-45, 0.0000e+00]]])
torch.Size([2, 2, 3])
tensor([[[0., 0., 0.],
[0., 0., 0.]],
[[0., 0., 0.],
[0., 0., 0.]]])
torch.Size([2, 2, 3])
tensor([[[1., 1., 1.],
[1., 1., 1.]],
[[1., 1., 1.],
[1., 1., 1.]]])
torch.Size([2, 2, 3])
tensor([[[0.6128, 0.1519, 0.0453],
[0.5035, 0.9978, 0.3884]],
[[0.6929, 0.1703, 0.1384],
[0.4759, 0.7481, 0.0361]]])
上面代码单元中的第一个新内容是使用了.shape
属性在张量上。这个属性包含了一个张量每个维度范围的列表——在我们的例子中,x
是一个形状为2 x 2 x 3的三维张量。
在下面,我们调用了.empty_like()
、.zeros_like()
、.ones_like()
和.rand_like()
方法。使用.shape
属性,我们可以验证这些方法中的每一个都返回一个具有相同维度和范围的张量。
创建张量的最后一种方法是直接从PyTorch集合中指定其数据:
some_constants = torch.tensor([[3.1415926, 2.71828], [1.61803, 0.0072897]])
print(some_constants)
some_integers = torch.tensor((2, 3, 5, 7, 11, 13, 17, 19))
print(some_integers)
more_integers = torch.tensor(((2, 4, 6), [3, 6, 9]))
print(more_integers)
tensor([[3.1416, 2.7183],
[1.6180, 0.0073]])
tensor([ 2, 3, 5, 7, 11, 13, 17, 19])
tensor([[2, 4, 6],
[3, 6, 9]])
使用 torch.tensor()
是创建张量的最直接方法,如果你已经在 Python 元组或列表中有了数据。如上所示,嵌套集合将产生一个多维张量。
注意
torch.tensor()
创建数据的副本。
张量数据类型
设置张量的数据类型有几种方法:
a = torch.ones((2, 3), dtype=torch.int16)
print(a)
b = torch.rand((2, 3), dtype=torch.float64) * 20.
print(b)
c = b.to(torch.int32)
print(c)
tensor([[1, 1, 1],
[1, 1, 1]], dtype=torch.int16)
tensor([[ 0.9956, 1.4148, 5.8364],
[11.2406, 11.2083, 11.6692]], dtype=torch.float64)
tensor([[ 0, 1, 5],
[11, 11, 11]], dtype=torch.int32)
设置张量底层数据类型的最简单方法是在创建时使用可选参数。在上面的单元格的第一行中,我们为张量a
设置了dtype=torch.int16
。当我们打印a
时,我们可以看到它充满了1
而不是1.
——这是Python的一个微妙提示,表示这是一个整数类型而不是浮点类型。
关于打印a
的另一件事是,与我们将dtype
保留为默认值(32位浮点数)时不同,打印张量时也会指定其dtype
。
你可能也注意到了,我们从将张量的形状指定为一系列整数参数,转变为将这些参数分组到一个元组中。这并不是严格必要的——PyTorch 会将一系列初始的、未标记的整数参数视为张量形状——但在添加可选参数时,这可以使你的意图更加清晰易读。
另一种设置数据类型的方法是使用.to()
方法。在上面的单元格中,我们以通常的方式创建了一个随机的浮点张量b
。接着,我们通过使用.to()
方法将b
转换为32位整数来创建c
。请注意,c
包含与b
相同的所有值,但被截断为整数。
欲了解更多信息,请参阅数据类型文档。
使用PyTorch张量进行数学与逻辑运算
既然你已经知道了一些创建张量的方法……你能用它们做什么呢?
让我们首先看看基本的算术,以及张量如何与简单的标量相互作用:
ones = torch.zeros(2, 2) + 1
twos = torch.ones(2, 2) * 2
threes = (torch.ones(2, 2) * 7 - 1) / 2
fours = twos ** 2
sqrt2s = twos ** 0.5
print(ones)
print(twos)
print(threes)
print(fours)
print(sqrt2s)
tensor([[1., 1.],
[1., 1.]])
tensor([[2., 2.],
[2., 2.]])
tensor([[3., 3.],
[3., 3.]])
tensor([[4., 4.],
[4., 4.]])
tensor([[1.4142, 1.4142],
[1.4142, 1.4142]])
如上所示,张量和标量之间的算术运算,如加法、减法、乘法、除法和指数运算,会分布在张量的每个元素上。因为这种运算的输出将是一个张量,你可以按照通常的运算符优先级规则将它们链接在一起,就像我们在创建threes
的那一行中所做的那样。
两个张量之间的类似操作也表现得像你直观预期的那样:
tensor([[ 2., 4.],
[ 8., 16.]])
tensor([[5., 5.],
[5., 5.]])
tensor([[12., 12.],
[12., 12.]])
这里需要注意的是,前面代码单元中的所有张量都具有相同的形状。如果我们尝试对不同形状的张量执行二元操作会发生什么?
注意
以下单元格会抛出运行时错误。这是故意的。
a = torch.rand(2, 3)
b = torch.rand(3, 2)
print(a * b)
在一般情况下,你不能以这种方式对不同形状的张量进行操作,即使在上面的单元格中,张量具有相同数量的元素。
简要介绍:张量广播
注意
如果你熟悉NumPy ndarrays中的广播语义,你会发现同样的规则在这里也适用。
相同形状规则的例外是张量广播。 这里有一个例子:
rand = torch.rand(2, 4)
doubled = rand * (torch.ones(1, 4) * 2)
print(rand)
print(doubled)
tensor([[0.6146, 0.5999, 0.5013, 0.9397],
[0.8656, 0.5207, 0.6865, 0.3614]])
tensor([[1.2291, 1.1998, 1.0026, 1.8793],
[1.7312, 1.0413, 1.3730, 0.7228]])
这里的技巧是什么?我们是如何将一个2x4的张量乘以一个1x4的张量的?
广播是一种在形状相似的张量之间执行操作的方式。在上面的例子中,一行四列的张量与两行四列的张量的两行相乘。
这是深度学习中的一个重要操作。常见的例子是将学习权重的张量与一批输入张量相乘,对批次中的每个实例分别应用操作,并返回形状相同的张量——就像我们上面的(2, 4) * (1, 4)例子返回了一个形状为(2, 4)的张量。
广播的规则是:
每个张量必须至少有一个维度 - 不能有空张量。
比较两个张量的维度大小,从最后一个到第一个:
每个维度必须相等,或者
其中一个维度的大小必须为1,或者
维度在其中一个张量中不存在
相同形状的张量当然是“可广播的”,正如你之前所见。
以下是一些遵循上述规则并允许广播的情况示例:
a = torch.ones(4, 3, 2)
b = a * torch.rand( 3, 2) # 3rd & 2nd dims identical to a, dim 1 absent
print(b)
c = a * torch.rand( 3, 1) # 3rd dim = 1, 2nd dim identical to a
print(c)
d = a * torch.rand( 1, 2) # 3rd dim identical to a, 2nd dim = 1
print(d)
tensor([[[0.6493, 0.2633],
[0.4762, 0.0548],
[0.2024, 0.5731]],
[[0.6493, 0.2633],
[0.4762, 0.0548],
[0.2024, 0.5731]],
[[0.6493, 0.2633],
[0.4762, 0.0548],
[0.2024, 0.5731]],
[[0.6493, 0.2633],
[0.4762, 0.0548],
[0.2024, 0.5731]]])
tensor([[[0.7191, 0.7191],
[0.4067, 0.4067],
[0.7301, 0.7301]],
[[0.7191, 0.7191],
[0.4067, 0.4067],
[0.7301, 0.7301]],
[[0.7191, 0.7191],
[0.4067, 0.4067],
[0.7301, 0.7301]],
[[0.7191, 0.7191],
[0.4067, 0.4067],
[0.7301, 0.7301]]])
tensor([[[0.6276, 0.7357],
[0.6276, 0.7357],
[0.6276, 0.7357]],
[[0.6276, 0.7357],
[0.6276, 0.7357],
[0.6276, 0.7357]],
[[0.6276, 0.7357],
[0.6276, 0.7357],
[0.6276, 0.7357]],
[[0.6276, 0.7357],
[0.6276, 0.7357],
[0.6276, 0.7357]]])
仔细观察上面每个张量的值:
创建
b
的乘法操作是在a
的每一“层”上广播的。对于
c
,操作在a
的每一层和每一行上进行了广播 - 每个3元素列都是相同的。对于
d
,我们进行了调整 - 现在每一行都是相同的,跨层和列。
有关广播的更多信息,请参阅PyTorch文档中的相关主题。
以下是一些尝试广播失败的示例:
注意
以下单元格会抛出运行时错误。这是故意的。
a = torch.ones(4, 3, 2)
b = a * torch.rand(4, 3) # dimensions must match last-to-first
c = a * torch.rand( 2, 3) # both 3rd & 2nd dims different
d = a * torch.rand((0, )) # can't broadcast with an empty tensor
更多关于张量的数学运算
PyTorch 张量有超过三百种可以执行的操作。
以下是一些主要操作类别的小样本:
# common functions
a = torch.rand(2, 4) * 2 - 1
print('Common functions:')
print(torch.abs(a))
print(torch.ceil(a))
print(torch.floor(a))
print(torch.clamp(a, -0.5, 0.5))
# trigonometric functions and their inverses
angles = torch.tensor([0, math.pi / 4, math.pi / 2, 3 * math.pi / 4])
sines = torch.sin(angles)
inverses = torch.asin(sines)
print('\nSine and arcsine:')
print(angles)
print(sines)
print(inverses)
# bitwise operations
print('\nBitwise XOR:')
b = torch.tensor([1, 5, 11])
c = torch.tensor([2, 7, 10])
print(torch.bitwise_xor(b, c))
# comparisons:
print('\nBroadcasted, element-wise equality comparison:')
d = torch.tensor([[1., 2.], [3., 4.]])
e = torch.ones(1, 2) # many comparison ops support broadcasting!
print(torch.eq(d, e)) # returns a tensor of type bool
# reductions:
print('\nReduction ops:')
print(torch.max(d)) # returns a single-element tensor
print(torch.max(d).item()) # extracts the value from the returned tensor
print(torch.mean(d)) # average
print(torch.std(d)) # standard deviation
print(torch.prod(d)) # product of all numbers
print(torch.unique(torch.tensor([1, 2, 1, 2, 1, 2]))) # filter unique elements
# vector and linear algebra operations
v1 = torch.tensor([1., 0., 0.]) # x unit vector
v2 = torch.tensor([0., 1., 0.]) # y unit vector
m1 = torch.rand(2, 2) # random matrix
m2 = torch.tensor([[3., 0.], [0., 3.]]) # three times identity matrix
print('\nVectors & Matrices:')
print(torch.linalg.cross(v2, v1)) # negative of z unit vector (v1 x v2 == -v2 x v1)
print(m1)
m3 = torch.linalg.matmul(m1, m2)
print(m3) # 3 times m1
print(torch.linalg.svd(m3)) # singular value decomposition
Common functions:
tensor([[0.9238, 0.5724, 0.0791, 0.2629],
[0.1986, 0.4439, 0.6434, 0.4776]])
tensor([[-0., -0., 1., -0.],
[-0., 1., 1., -0.]])
tensor([[-1., -1., 0., -1.],
[-1., 0., 0., -1.]])
tensor([[-0.5000, -0.5000, 0.0791, -0.2629],
[-0.1986, 0.4439, 0.5000, -0.4776]])
Sine and arcsine:
tensor([0.0000, 0.7854, 1.5708, 2.3562])
tensor([0.0000, 0.7071, 1.0000, 0.7071])
tensor([0.0000, 0.7854, 1.5708, 0.7854])
Bitwise XOR:
tensor([3, 2, 1])
Broadcasted, element-wise equality comparison:
tensor([[ True, False],
[False, False]])
Reduction ops:
tensor(4.)
4.0
tensor(2.5000)
tensor(1.2910)
tensor(24.)
tensor([1, 2])
Vectors & Matrices:
tensor([ 0., 0., -1.])
tensor([[0.7375, 0.8328],
[0.8444, 0.2941]])
tensor([[2.2125, 2.4985],
[2.5332, 0.8822]])
torch.return_types.linalg_svd(
U=tensor([[-0.7889, -0.6145],
[-0.6145, 0.7889]]),
S=tensor([4.1498, 1.0548]),
Vh=tensor([[-0.7957, -0.6056],
[ 0.6056, -0.7957]]))
这是一个操作的小样本。有关更多详情和数学函数的完整清单,请查看 文档。 有关更多详情和线性代数操作的完整清单,请查看此 文档。
就地修改张量
大多数张量的二元操作将返回第三个新的张量。当我们说 c = a * b
(其中 a
和 b
是张量)时,新的张量 c
将占据与其他张量不同的内存区域。
有时候,你可能希望就地改变一个张量 -
例如,如果你正在进行逐元素计算,可以丢弃中间值。为此,大多数数学函数都有一个带有附加下划线(_
)的版本,可以就地改变张量。
例如:
a = torch.tensor([0, math.pi / 4, math.pi / 2, 3 * math.pi / 4])
print('a:')
print(a)
print(torch.sin(a)) # this operation creates a new tensor in memory
print(a) # a has not changed
b = torch.tensor([0, math.pi / 4, math.pi / 2, 3 * math.pi / 4])
print('\nb:')
print(b)
print(torch.sin_(b)) # note the underscore
print(b) # b has changed
a:
tensor([0.0000, 0.7854, 1.5708, 2.3562])
tensor([0.0000, 0.7071, 1.0000, 0.7071])
tensor([0.0000, 0.7854, 1.5708, 2.3562])
b:
tensor([0.0000, 0.7854, 1.5708, 2.3562])
tensor([0.0000, 0.7071, 1.0000, 0.7071])
tensor([0.0000, 0.7071, 1.0000, 0.7071])
对于算术运算,有一些功能类似:
Before:
tensor([[1., 1.],
[1., 1.]])
tensor([[0.3788, 0.4567],
[0.0649, 0.6677]])
After adding:
tensor([[1.3788, 1.4567],
[1.0649, 1.6677]])
tensor([[1.3788, 1.4567],
[1.0649, 1.6677]])
tensor([[0.3788, 0.4567],
[0.0649, 0.6677]])
After multiplying
tensor([[0.1435, 0.2086],
[0.0042, 0.4459]])
tensor([[0.1435, 0.2086],
[0.0042, 0.4459]])
请注意,这些原地算术函数是torch.Tensor
对象上的方法,而不是像许多其他函数(例如torch.sin()
)那样附加到torch
模块上。正如您从a.add_(b)
中看到的,调用的张量是原地更改的那个。
还有一种选择是将计算结果放入一个已存在的、已分配的张量中。我们到目前为止看到的许多方法和函数——包括创建方法!——都有一个out
参数,允许你指定一个张量来接收输出。如果out
张量的形状和dtype
正确,这可以在不进行新内存分配的情况下完成:
a = torch.rand(2, 2)
b = torch.rand(2, 2)
c = torch.zeros(2, 2)
old_id = id(c)
print(c)
d = torch.matmul(a, b, out=c)
print(c) # contents of c have changed
assert c is d # test c & d are same object, not just containing equal values
assert id(c) == old_id # make sure that our new c is the same object as the old one
torch.rand(2, 2, out=c) # works for creation too!
print(c) # c has changed again
assert id(c) == old_id # still the same object!
tensor([[0., 0.],
[0., 0.]])
tensor([[0.3653, 0.8699],
[0.2364, 0.3604]])
tensor([[0.0776, 0.4004],
[0.9877, 0.0352]])
复制张量
与Python中的任何对象一样,将张量分配给变量会使变量成为张量的标签,而不会复制它。例如:
tensor([[ 1., 561.],
[ 1., 1.]])
但如果你想要一个单独的数据副本来进行操作呢?clone()
方法就是为你准备的:
tensor([[True, True],
[True, True]])
tensor([[1., 1.],
[1., 1.]])
在使用``clone()``时,有一件重要的事情需要注意。 如果你的源张量启用了自动求导(autograd),那么克隆的张量也会启用自动求导。 这将在关于自动求导的视频中更深入地讨论,但如果你想要了解细节的简化版本,请继续阅读。
在许多情况下,这将是您想要的。 例如,如果您的模型在其forward()
方法中有多个计算路径,并且两者原始张量及其克隆都对模型的输出有贡献,那么为了启用模型学习,您希望为这两个张量启用自动梯度。如果您的源张量启用了自动梯度(如果它是一组学习权重或源自涉及权重的计算,通常会启用),那么您将得到您想要的结果。
另一方面,如果你正在进行的计算中,既不需要原始张量也不需要其克隆跟踪梯度,那么只要源张量关闭了自动求导功能,你就可以放心使用。
还有第三种情况, 想象一下你在模型的 forward()
函数中执行计算,默认情况下所有内容都开启了梯度计算,但你希望在中途提取一些值来生成一些指标。在这种情况下,你不希望源张量的克隆副本跟踪梯度——关闭自动求导的历史跟踪可以提高性能。为此,你可以在源张量上使用 .detach()
方法:
tensor([[0.0905, 0.4485],
[0.8740, 0.2526]], requires_grad=True)
tensor([[0.0905, 0.4485],
[0.8740, 0.2526]], grad_fn=<CloneBackward0>)
tensor([[0.0905, 0.4485],
[0.8740, 0.2526]])
tensor([[0.0905, 0.4485],
[0.8740, 0.2526]], requires_grad=True)
这里发生了什么?
我们创建了一个
a
,并开启了requires_grad=True
。我们还没有讨论这个可选参数,但会在自动求导单元中介绍。当我们打印
a
时,它会告诉我们属性requires_grad=True
- 这意味着自动求导和计算 历史跟踪已开启。我们克隆
a
并将其标记为b
。当我们打印b
时,我们可以看到它正在跟踪其计算历史 - 它继承了a
的自动梯度设置,并添加到计算历史中。我们将
a
克隆到c
中,但我们首先调用了detach()
。打印
c
,我们没有看到计算历史,也没有requires_grad=True
。
detach()
方法 将张量从其计算历史中分离。 它表示,“接下来无论做什么,都像 autograd 关闭了一样。” 它在 不 改变 a
的情况下完成这一点 - 你可以在最后再次打印 a
时看到,它保留了 requires_grad=True
属性。
迁移到GPU
PyTorch 的主要优势之一是其对兼容 CUDA 的 Nvidia GPU 的强大加速能力。(“CUDA”代表计算统一设备架构,这是 Nvidia 的并行计算平台。)到目前为止,我们所做的一切都是在 CPU 上进行的。我们如何迁移到更快的硬件上呢?
首先,我们应该检查是否有可用的GPU,使用is_available()
方法。
注意
如果您没有安装兼容CUDA的GPU和CUDA驱动程序,本节中的可执行单元格将不会执行任何与GPU相关的代码。
if torch.cuda.is_available():
print('We have a GPU!')
else:
print('Sorry, CPU only.')
We have a GPU!
一旦我们确定有一个或多个GPU可用,我们需要将数据放在GPU可以看到的地方。你的CPU在计算机的RAM中对数据进行计算。你的GPU有专用的内存。每当你想在设备上执行计算时,你必须将计算所需的所有数据移动到该设备可访问的内存中。(通俗地说,“将数据移动到GPU可访问的内存”简称为“将数据移动到GPU”。)
有几种方法可以将数据传送到目标设备上。您可以在创建时进行:
if torch.cuda.is_available():
gpu_rand = torch.rand(2, 2, device='cuda')
print(gpu_rand)
else:
print('Sorry, CPU only.')
tensor([[0.3344, 0.2640],
[0.2119, 0.0582]], device='cuda:0')
默认情况下,新张量是在CPU上创建的,因此我们必须指定何时使用可选的device
参数在GPU上创建我们的张量。你可以看到,当我们打印新张量时,PyTorch会告诉我们它在哪个设备上(如果它不在CPU上)。
你可以使用torch.cuda.device_count()
查询GPU的数量。如果你有多个GPU,你可以通过索引指定它们:
device='cuda:0'
, device='cuda:1'
, 等等。
作为一种编码实践,到处使用字符串常量来指定我们的设备是非常脆弱的。在理想情况下,无论你是在CPU还是GPU硬件上,你的代码都应该能够稳健地运行。你可以通过创建一个设备句柄来实现这一点,该句柄可以传递给张量,而不是使用字符串:
if torch.cuda.is_available():
my_device = torch.device('cuda')
else:
my_device = torch.device('cpu')
print('Device: {}'.format(my_device))
x = torch.rand(2, 2, device=my_device)
print(x)
Device: cuda
tensor([[0.0024, 0.6778],
[0.2441, 0.6812]], device='cuda:0')
如果你有一个存在于一个设备上的现有张量,你可以使用to()
方法将其移动到另一个设备。以下代码行在CPU上创建一个张量,并将其移动到你在前一个单元格中获取的任何设备句柄。
y = torch.rand(2, 2)
y = y.to(my_device)
重要的是要知道,为了进行涉及两个或多个张量的计算,所有张量必须位于同一设备上。无论您是否有可用的GPU设备,以下代码都会抛出运行时错误:
x = torch.rand(2, 2)
y = torch.rand(2, 2, device='gpu')
z = x + y # exception will be thrown
操作张量形状
有时,您需要更改张量的形状。下面,我们将看一些常见的情况,以及如何处理它们。
更改维度数量
一个你可能需要改变维度数的情况是将单个输入实例传递给模型。PyTorch 模型通常期望输入是批次的。
例如,想象一下有一个处理3 x 226 x 226图像的模型 - 一个226像素的正方形,带有3个颜色通道。当你加载并转换它时,你会得到一个形状为(3, 226, 226)
的张量。然而,你的模型期望输入的形状是(N, 3, 226, 226)
,其中N
是批次中的图像数量。那么你如何制作一个包含一张图像的批次呢?
torch.Size([3, 226, 226])
torch.Size([1, 3, 226, 226])
unsqueeze()
方法添加一个大小为1的维度。
unsqueeze(0)
将其添加为新的第0维度 - 现在你有一个批次大小为1的批次!
那么如果那是取消压缩?我们所说的压缩是什么意思?我们正在利用这样一个事实,即任何大小为1的维度不会改变张量中的元素数量。
c = torch.rand(1, 1, 1, 1, 1)
print(c)
tensor([[[[[0.2347]]]]])
继续上面的例子,假设模型的输出是每个输入的20元素向量。那么你会期望输出的形状为(N, 20)
,其中N
是输入批次中的实例数量。这意味着对于我们的单输入批次,我们将得到一个形状为(1, 20)
的输出。
如果你想用那个输出做一些非批处理的计算——比如只期望一个20元素的向量,该怎么办?
torch.Size([1, 20])
tensor([[0.1899, 0.4067, 0.1519, 0.1506, 0.9585, 0.7756, 0.8973, 0.4929, 0.2367,
0.8194, 0.4509, 0.2690, 0.8381, 0.8207, 0.6818, 0.5057, 0.9335, 0.9769,
0.2792, 0.3277]])
torch.Size([20])
tensor([0.1899, 0.4067, 0.1519, 0.1506, 0.9585, 0.7756, 0.8973, 0.4929, 0.2367,
0.8194, 0.4509, 0.2690, 0.8381, 0.8207, 0.6818, 0.5057, 0.9335, 0.9769,
0.2792, 0.3277])
torch.Size([2, 2])
torch.Size([2, 2])
你可以从形状中看出,我们的二维张量现在变成了一维的,如果你仔细观察上面单元格的输出,你会发现打印a
时显示了一个“额外”的方括号[]
,这是由于多了一个维度。
您只能squeeze()
大小为1的维度。请参见上面我们尝试在c
中压缩大小为2的维度,结果返回了与开始时相同的形状。调用squeeze()
和unsqueeze()
只能作用于大小为1的维度,因为否则会改变张量中的元素数量。
另一个你可能使用unsqueeze()
的地方是为了简化广播。
回想一下上面的例子,我们有如下代码:
a = torch.ones(4, 3, 2)
c = a * torch.rand( 3, 1) # 3rd dim = 1, 2nd dim identical to a
print(c)
这样做的净效果是在维度0和2上进行广播操作,导致随机的3 x 1张量与a
中的每个3元素列进行逐元素相乘。
如果随机向量只是一个3元素向量会怎样?我们将失去进行广播的能力,因为根据广播规则,最终维度将不匹配。unsqueeze()
来拯救:
a = torch.ones(4, 3, 2)
b = torch.rand( 3) # trying to multiply a * b will give a runtime error
c = b.unsqueeze(1) # change to a 2-dimensional tensor, adding new dim at the end
print(c.shape)
print(a * c) # broadcasting works again!
torch.Size([3, 1])
tensor([[[0.1891, 0.1891],
[0.3952, 0.3952],
[0.9176, 0.9176]],
[[0.1891, 0.1891],
[0.3952, 0.3952],
[0.9176, 0.9176]],
[[0.1891, 0.1891],
[0.3952, 0.3952],
[0.9176, 0.9176]],
[[0.1891, 0.1891],
[0.3952, 0.3952],
[0.9176, 0.9176]]])
squeeze()
和 unsqueeze()
方法也有就地版本,分别是 squeeze_()
和 unsqueeze_()
:
batch_me = torch.rand(3, 226, 226)
print(batch_me.shape)
batch_me.unsqueeze_(0)
print(batch_me.shape)
torch.Size([3, 226, 226])
torch.Size([1, 3, 226, 226])
有时你会想要更彻底地改变张量的形状,同时仍然保留元素的数量及其内容。这种情况发生的一个例子是在模型的卷积层和线性层之间的接口处——这在图像分类模型中很常见。卷积核将产生一个形状为特征 x 宽度 x 高度的输出张量,但接下来的线性层期望一个一维的输入。reshape()
将为你完成这个任务,前提是你请求的维度产生的元素数量与输入张量的元素数量相同:
output3d = torch.rand(6, 20, 20)
print(output3d.shape)
input1d = output3d.reshape(6 * 20 * 20)
print(input1d.shape)
# can also call it as a method on the torch module:
print(torch.reshape(output3d, (6 * 20 * 20,)).shape)
torch.Size([6, 20, 20])
torch.Size([2400])
torch.Size([2400])
注意
上面单元格最后一行中的(6 * 20 * 20,)
参数是因为PyTorch在指定张量形状时需要一个元组——但当形状是方法的第一个参数时,它允许我们作弊,只需使用一系列整数。在这里,我们必须添加括号和逗号,以说服方法这确实是一个单元素元组。
当可能时,reshape()
将返回一个要更改的张量的视图 - 即一个单独的张量对象,它查看相同的内存底层区域。这很重要: 这意味着对源张量所做的任何更改都将反映在该张量的视图中,除非你使用clone()
。
在某些情况下,超出了本介绍的范围,reshape()
必须返回一个携带数据副本的张量。更多信息,请参阅文档。
NumPy 桥接
在上面的广播部分中,提到PyTorch的广播语义与NumPy兼容——但PyTorch和NumPy之间的关系甚至比那更深。
如果您现有的机器学习或科学代码中的数据存储在NumPy的ndarrays中,您可能希望将这些数据表示为PyTorch张量,无论是为了利用PyTorch的GPU加速,还是为了利用其构建机器学习模型的高效抽象。在ndarrays和PyTorch张量之间切换非常容易:
import numpy as np
numpy_array = np.ones((2, 3))
print(numpy_array)
pytorch_tensor = torch.from_numpy(numpy_array)
print(pytorch_tensor)
[[1. 1. 1.]
[1. 1. 1.]]
tensor([[1., 1., 1.],
[1., 1., 1.]], dtype=torch.float64)
PyTorch 创建一个与 NumPy 数组形状相同且包含相同数据的张量,甚至保留了 NumPy 默认的 64 位浮点数据类型。
转换同样可以很容易地反向进行:
pytorch_rand = torch.rand(2, 3)
print(pytorch_rand)
numpy_rand = pytorch_rand.numpy()
print(numpy_rand)
tensor([[0.8716, 0.2459, 0.3499],
[0.2853, 0.9091, 0.5695]])
[[0.87163675 0.2458961 0.34993553]
[0.2853077 0.90905803 0.5695162 ]]
重要的是要知道这些转换后的对象使用的是与源对象相同的基础内存,这意味着对一个对象的更改会反映在另一个对象上:
numpy_array[1, 1] = 23
print(pytorch_tensor)
pytorch_rand[1, 1] = 17
print(numpy_rand)
tensor([[ 1., 1., 1.],
[ 1., 23., 1.]], dtype=torch.float64)
[[ 0.87163675 0.2458961 0.34993553]
[ 0.2853077 17. 0.5695162 ]]
脚本总运行时间: ( 0 分钟 0.161 秒)