矩阵求导公式包括标量函数求导、矩阵乘法求导、矩阵转置求导等。其中,对于矩阵Y对列向量X求导,可以将Y对X的每一个分量求偏导构成一个超向量,注意该向量的每一个元素都是一个矩阵。而矩阵Y对标量x求导相当于每个元素求导数后转置一下。此外,标量y对矩阵X的导数类似标量y对列向量X的导数,把y对每个X的元素求偏导不用转置。
1 矩阵(Y=f(x))对标量x求导
矩阵Y是一个(m imes n)的矩阵,对标量x求导,相当于矩阵中每个元素对x求导
[frac{dY}{dx}=egin{bmatrix}dfrac{df_{11}(x)}{dx} & ldots & dfrac{df_{1n}(x)}{dx} \ vdots & ddots &vdots \ dfrac{df_{m1}(x)}{dx} & ldots & dfrac{df_{mn}(x)}{dx} end{bmatrix}]
2 标量y=f(x)对矩阵X求导
注意与上面不同,这次括号内是求偏导,(X)是是一个(m imes n)的矩阵,函数(y=f(x))对矩阵(X)中的每个元素求偏导,对(m imes n)矩阵求导后还是(m imes n)矩阵
[frac{dy}{dX} = egin{bmatrix}dfrac{partial f}{partial x_{11}} & ldots & dfrac{partial f}{partial x_{1n}}\ vdots & ddots & vdots \dfrac{partial f}{partial x_{m1}} & ldots & dfrac{partial f}{partial x_{mn}}end{bmatrix}]