線性代數的本質[轉]

本文轉自：http://www.52ml.net/13425.html(最原始的出處應該是CSDN孟岩的博客：http://blog.csdn.net/myan/article/details/647511)，非常精彩的文章，對直觀理解矩陣的本質很有幫助，文章標題叫做矩陣的本質可能更合適。

編者按：想要機器學習，線性代數必要先行，至於為何，不如看看這篇文章，肯定會有所啟發的。同時本站推薦 MIT Strang的線性代數公開課：http://v.163.com/special/opencourse/daishu.html，同時推薦他的兩本教材（號稱北美最流行）：《Introduction to Linear Algebra》, 4th Edition by Gilbert Strang, 《Linear Algebra and Its Applications》, 4th Edition by Gilbert Strang

線性代數課程，無論你從行列式入手還是直接從矩陣入手，從一開始就充斥著莫名其妙。

比如說，在全國一般工科院係教學中應用最廣泛的同濟線性代數教材（現在到了第四版），一上來就介紹逆序數這個古怪概念，然後用逆序數給出行列式的一個極不直觀的定義，接著是一些簡直犯傻的行列式性質和習題——把這行乘一個係數加到另一行上，再把那一列減過來，折騰得那叫一個熱鬧，可就是壓根看不出這個東西有嘛用。

大多數像我一樣資質平庸的學生到這裏就有點犯暈：連這是個什麽東西都模模糊糊的，就開始鑽火圈表演了，這未免太無厘頭了吧！於是開始有人逃課，更多的人開始抄作業。這下就中招了，因為其後的發展可以用一句峰回路轉來形容，緊跟著這個無厘頭的行列式的，是一個同樣無厘頭但是偉大的無以複加的家夥的出場 ——矩陣來了！多年之後，我才明白，當老師犯傻似地用中括號把一堆傻了吧嘰的數括起來，並且不緊不慢地說：“這個東西叫做矩陣”的時候，我的數學生涯掀開了何等悲壯辛酸、慘絕人寰的一幕！自那以後，在幾乎所有跟“學問”二字稍微沾點邊的東西裏，矩陣這個家夥從不缺席。對於我這個沒能一次搞定線性代數的笨蛋來說，矩陣老大的不請自來每每搞得我灰頭土臉，頭破血流。長期以來，我在閱讀中一見矩陣，就如同阿Q見到了假洋鬼子，揉揉額角就繞道走。

事實上，我並不是特例。一般工科學生初學線性代數，通常都會感到困難。這種情形在國內外皆然。瑞典數學家Lars Garding在其名著Encounter with Mathematics中說：“如果不熟悉線性代數的概念，要去學習自然科學，現在看來就和文盲差不多。然而“按照現行的國際標準，線性代數是通過公理化來表述的，它是第二代數學模型，這就帶來了教學上的困難。”事實上，當我們開始學習線性代數的時候，不知不覺就進入了“第二代數學模型”的範疇當中，這意味著數學的表述方式和抽象性有了一次全麵的進化，對於從小一直在“第一代數學模型”，即以實用為導向的、具體的數學模型中學習的我們來說，在沒有並明確告知的情況下進行如此劇烈的paradigm shift，不感到困難才是奇怪的。

大部分工科學生，往往是在學習了一些後繼課程，如數值分析、數學規劃、矩陣論之後，才逐漸能夠理解和熟練運用線性代數。即便如此，不少人即使能夠很熟練地以線性代數為工具進行科研和應用工作，但對於很多這門課程的初學者提出的、看上去是很基礎的問題卻並不清楚。比如說：

1、矩陣究竟是什麽東西？

2、向量可以被認為是具有n個相互獨立的性質（維度）的對象的表示，矩陣又是什麽呢？

3、我們如果認為矩陣是一組列（行）向量組成的新的複合向量的展開式，那麽為什麽這種展開式具有如此廣泛的應用？特別是，為什麽偏偏二維的展開式如此有用？

4、如果矩陣中每一個元素又是一個向量，那麽我們再展開一次，變成三維的立方陣，是不是更有用？

5、矩陣的乘法規則究竟為什麽這樣規定？為什麽這樣一種怪異的乘法規則卻能夠在實踐中發揮如此巨大的功效？很多看上去似乎是完全不相關的問題，最後竟然都歸結到矩陣的乘法，這難道不是很奇妙的事情？難道在矩陣乘法那看上去莫名其妙的規則下麵，包含著世界的某些本質規律？如果是的話，這些本質規律是什麽？

6、行列式究竟是一個什麽東西？為什麽會有如此怪異的計算規則？行列式與其對應方陣本質上是什麽關係？為什麽隻有方陣才有對應的行列式，而一般矩陣就沒有（不要覺得這個問題很蠢，如果必要，針對mxn矩陣定義行列式不是做不到的，之所以不做，是因為沒有這個必要，但是為什麽沒有這個必要）？而且，行列式的計算規則，看上去跟矩陣的任何計算規則都沒有直觀的聯係，為什麽又在很多方麵決定了矩陣的性質？難道這一切僅是巧合？

7、矩陣為什麽可以分塊計算？分塊計算這件事情看上去是那麽隨意，為什麽竟是可行的？

8、對於矩陣轉置運算AT，有(AB)T=BTAT，對於矩陣求逆運算A-1，有(AB)-1=B-1A-1。兩個看上去完全沒有什麽關係的運算，為什麽有著類似的性質？這僅僅是巧合嗎？

9、為什麽說P-1AP得到的矩陣與A矩陣“相似”？這裏的“相似”是什麽意思？

10、特征值和特征向量的本質是什麽？它們定義就讓人很驚訝，因為Ax=λx，一個諾大的矩陣的效應，竟然不過相當於一個小小的數λ，確實有點奇妙。但何至於用“特征”甚至“本征”來界定？它們刻劃的究竟是什麽？

這樣的一類問題，經常讓使用線性代數已經很多年的人都感到為難。就好像大人麵對小孩子的刨根問底，最後總會迫不得已地說“就這樣吧，到此為止”一樣，麵對這樣的問題，很多老手們最後也隻能用：“就是這麽規定的，你接受並且記住就好”來搪塞。

然而，這樣的問題如果不能獲得回答，線性代數對於我們來說就是一個粗暴的、不講道理的、莫名其妙的規則集合，我們會感到，自己並不是在學習一門學問，而是被不由分說地“拋到”一個強製的世界中，隻是在考試的皮鞭揮舞之下被迫趕路，全然無法領略其中的美妙、和諧與統一。直到多年以後，我們已經發覺這門學問如此的有用，卻仍然會非常迷惑：怎麽這麽湊巧？我認為這是我們的線性代數教學中直覺性喪失的後果。上述這些涉及到“如何能”、“怎麽會”的問題，僅僅通過純粹的數學證明來回答，是不能令提問者滿意的。比如，如果你通過一般的證明方法論證了矩陣分塊運算確實可行，那麽這並不能夠讓提問者的疑惑得到解決。他們真正的困惑是：矩陣分塊運算為什麽竟然是可行的？究竟隻是湊巧，還是說這是由矩陣這種對象的某種本質所必然決定的？如果是後者，那麽矩陣的這些本質是什麽？隻要對上述那些問題稍加考慮，我們就會發現，所有這些問題都不是單純依靠數學證明所能夠解決的。像我們的教科書那樣，凡事用數學證明，最後培養出來的學生，隻能熟練地使用工具，卻欠缺真正意義上的理解。

自從1930年代法國布爾巴基學派興起以來，數學的公理化、係統性描述已經獲得巨大的成功，這使得我們接受的數學教育在嚴謹性上大大提高。然而數學公理化的一個備受爭議的副作用，就是一般數學教育中直覺性的喪失。數學家們似乎認為直覺性與抽象性是矛盾的，因此毫不猶豫地犧牲掉前者。然而包括我本人在內的很多人都對此表示懷疑，我們不認為直覺性與抽象性一定相互矛盾，特別是在數學教育中和數學教材中，幫助學生建立直覺，有助於它們理解那些抽象的概念，進而理解數學的本質。反之，如果一味注重形式上的嚴格性，學生就好像被迫進行鑽火圈表演的小白鼠一樣，變成枯燥的規則的奴隸。

對於線性代數的類似上述所提到的一些直覺性的問題，兩年多來我斷斷續續地反複思考了四、五次，為此閱讀了好幾本國內外線性代數、數值分析、代數和數學通論性書籍，其中像前蘇聯的名著《數學：它的內容、方法和意義》、龔昇教授的《線性代數五講》、前麵提到的Encounter with Mathematics（《數學概觀》）以及Thomas A. Garrity的《數學拾遺》都給我很大的啟發。不過即使如此，我對這個主題的認識也經曆了好幾次自我否定。比如以前思考的一些結論曾經寫在自己的 blog裏，但是現在看來，這些結論基本上都是錯誤的。因此打算把自己現在的有關理解比較完整地記錄下來，一方麵是因為我覺得現在的理解比較成熟了，可以拿出來與別人探討，向別人請教。另一方麵，如果以後再有進一步的認識，把現在的理解給推翻了，那現在寫的這個snapshot也是很有意義的。

今天先談談對線形空間和矩陣的幾個核心概念的理解。這些東西大部分是憑著自己的理解寫出來的，基本上不抄書，可能有錯誤的地方，希望能夠被指出。但我希望做到直覺，也就是說能把數學背後說的實質問題說出來。

首先說說空間(space)，這個概念是現代數學的命根子之一，從拓撲空間開始，一步步往上加定義，可以形成很多空間。線形空間其實還是比較初級的，如果在裏麵定義了範數，就成了賦範線性空間。賦範線性空間滿足完備性，就成了巴那赫空間；賦範線性空間中定義角度，就有了內積空間，內積空間再滿足完備性，就得到希爾伯特空間。總之，空間有很多種。你要是去看某種空間的數學定義，大致都是：存在一個集合，在這個集合上定義某某概念，然後滿足某些性質，就可以被稱為空間。這未免有點奇怪，為什麽要用“空間”來稱呼一些這樣的集合呢？大家將會看到，其實這是很有道理的。我們一般人最熟悉的空間，毫無疑問就是我們生活在其中的（按照牛頓的絕對時空觀）的三維空間，從數學上說，這是一個三維的歐幾裏德空間，我們先不管那麽多，先看看我們熟悉的這樣一個空間有些什麽最基本的特點。仔細想想我們就會知道，這個三維的空間：

1.由很多（實際上是無窮多個）位置點組成；

2.這些點之間存在相對的關係；

3.可以在空間中定義長度、角度；

4.這個空間可以容納運動，這裏我們所說的運動是從一個點到另一個點的移動（變換），而不是微積分意義上的“連續”性的運動。

上麵的這些性質中，最最關鍵的是第4條。第1、2條隻能說是空間的基礎，不算是空間特有的性質，凡是討論數學問題，都得有一個集合，大多數還得在這個集合上定義一些結構（關係），並不是說有了這些就算是空間。而第3條太特殊，其他的空間不需要具備，更不是關鍵的性質。隻有第4條是空間的本質，也就是說，容納運動是空間的本質特征。認識到了這些，我們就可以把我們關於三維空間的認識擴展到其他的空間。事實上，不管是什麽空間，都必須容納和支持在其中發生的符合規則的運動（變換）。你會發現，在某種空間中往往會存在一種相對應的變換，比如拓撲空間中有拓撲變換，線性空間中有線性變換，仿射空間中有仿射變換，其實這些變換都隻不過是對應空間中允許的運動形式而已。因此隻要知道，“空間”是容納運動的一個對象集合，而變換則規定了對應空間的運動。下麵我們來看看線性空間。線性空間的定義任何一本書上都有，但是既然我們承認線性空間是個空間，那麽有兩個最基本的問題必須首先得到解決，那就是：

1.空間是一個對象集合，線性空間也是空間，所以也是一個對象集合。那麽線性空間是什麽樣的對象的集合？或者說，線性空間中的對象有什麽共同點嗎？

2.線性空間中的運動如何表述的？也就是，線性變換是如何表示的？

我們先來回答第一個問題，回答這個問題的時候其實是不用拐彎抹角的，可以直截了當的給出答案：線性空間中的任何一個對象，通過選取基和坐標的辦法，都可以表達為向量的形式。通常的向量空間我就不說了，舉兩個不、那麽平凡的例子：

1、L1是最高次項不大於n次的多項式的全體構成一個線性空間，也就是說，這個線性空間中的每一個對象是一個多式。如果我們以 x0,x1,…,xn為基，那麽任何一個這樣的多項式都可以表達為一組n+1維向量，其中的每一個分量ai其實就是多項式中x(i-1)項的係數。值得說明的是，基的選取有多種辦法，隻要所選取的那一組基線性無關就可以。這要用到後麵提到的概念了，所以這裏先不說，提一下而已。

L2是閉區間[a, b]上的n階連續可微函數的全體，構成一個線性空間。也就是說，這個線性空間的每一個對象是一個連續函數。對於其中任何一個連續函數，根據魏爾斯特拉斯定理，一定可以找到最高次項不大於n的多項式函數，使之與該連續函數的差為0，也就是說，完全相等。這樣就把問題歸結為L1了。後麵就不用再重複了。

所以說，向量是很厲害的，隻要你找到合適的基，用向量可以表示線性空間裏任何一個對象。這裏頭大有文章，因為向量表麵上隻是一列數，但是其實由於它的有序性，所以除了這些數本身攜帶的信息之外，還可以在每個數的對應位置上攜帶信息。為什麽在程序設計中數組最簡單，卻又威力無窮呢？根本原因就在於此。這是另一個問題了，這裏就不說了。

下麵來回答第二個問題，這個問題的回答會涉及到線性代數的一個最根本的問題。線性空間中的運動，被稱為線性變換。也就是說，你從線性空間中的一個點運動到任意的另外一個點，都可以通過一個線性變化來完成。那麽，線性變換如何表示呢？很有意思，在線性空間中，當你選定一組基之後，不僅可以用一個向量來描述空間中的任何一個對象，而且可以用矩陣來描述該空間中的任何一個運動（變換）。而使某個對象發生對應運動的方法，就是用代表那個運動的矩陣，乘以代表那個對象的向量。簡而言之，在線性空間中選定基之後，向量刻畫對象，矩陣刻畫對象的運動，用矩陣與向量的乘法施加運動。是的，矩陣的本質是運動的描述。如果以後有人問你矩陣是什麽，那麽你就可以響亮地告訴他，矩陣的本質是運動的描述。

可是多麽有意思啊，向量本身不是也可以看成是n x 1矩陣嗎？這實在是很奇妙，一個空間中的對象和運動竟然可以用相類同的方式表示。能說這是巧合嗎？如果是巧合的話，那可真是幸運的巧合！可以說，線性代數中大多數奇妙的性質，均與這個巧合有直接的關係。

接著理解矩陣，上麵說“矩陣是運動的描述”，到現在為止，好像大家都還沒什麽意見。但是我相信早晚會有數學係出身的網友來拍板轉。因為運動這個概念，在數學和物理裏是跟微積分聯係在一起的。我們學習微積分的時候，總會有人照本宣科地告訴你，初等數學是研究常量的數學，是研究靜態的數學，高等數學是變量的數學，是研究運動的數學。大家口口相傳，差不多人人都知道這句話。但是真知道這句話說的是什麽意思的人，好像也不多。簡而言之，在我們人類的經驗裏，運動是一個連續過程，從A點到B點，就算走得最快的光，也是需要一個時間來逐點地經過AB之間的路徑，這就帶來了連續性的概念。而連續這個事情，如果不定義極限的概念，根本就解釋不了。古希臘人的數學非常強，但就是缺乏極限觀念，所以解釋不了運動，被芝諾的那些著名悖論（飛箭不動、飛毛腿阿喀琉斯跑不過烏龜等四個悖論）搞得死去活來。

因為這篇文章不是講微積分的，所以我就不多說了。有興趣的讀者可以去看看齊民友教授寫的《重溫微積分》。我就是讀了這本書開頭的部分，才明白“高等數學是研究運動的數學”這句話的道理。不過在我這個《理解矩陣》的文章裏，“運動”的概念不是微積分中的連續性的運動，而是瞬間發生的變化。比如這個時刻在A點，經過一個“運動”，一下子就“躍遷”到了B點，其中不需要經過A點與B點之間的任何一個點。這樣的“運動”，或者說“躍遷”，是違反我們日常的經驗的。不過了解一點量子物理常識的人，就會立刻指出，量子（例如電子）在不同的能量級軌道上跳躍，就是瞬間發生的，具有這樣一種躍遷行為。所以說，自然界中並不是沒有這種運動現象，隻不過宏觀上我們觀察不到。但是不管怎麽說，“運動”這個詞用在這裏，還是容易產生歧義的，說得更確切些，應該是“躍遷”。因此這句話可以改成：“矩陣是線性空間裏躍遷的描述”。可是這樣說又太物理，也就是說太具體，而不夠數學，也就是說不夠抽象。因此我們最後換用一個正牌的數學術語——變換，來描述這個事情。這樣一說，大家就應該明白了，所謂變換，其實就是空間裏從一個點（元素/對象）到另一個點（元素/對象）的躍遷。比如說，拓撲變換，就是在拓撲空間裏從一個點到另一個點的躍遷。再比如說，仿射變換，就是在仿射空間裏從一個點到另一個點的躍遷。

附帶說一下，這個仿射空間跟向量空間是親兄弟。做計算機圖形學的朋友都知道，盡管描述一個三維對象隻需要三維向量，但所有的計算機圖形學變換矩陣都是4×4的。說其原因，很多書上都寫著“為了使用中方便”，這在我看來簡直就是企圖蒙混過關。真正的原因，是因為在計算機圖形學裏應用的圖形變換，實際上是在仿射空間而不是向量空間中進行的。想想看，在向量空間裏相一個向量平行移動以後仍是相同的那個向量，而現實世界等長的兩個平行線段當然不能被認為同一個東西，所以計算機圖形學的生存空間實際上是仿射空間。而仿射變換的矩陣表示根本就是4×4的。有興趣的讀者可以去看《計算機圖形學——幾何工具算法詳解》。

一旦我們理解了“變換”這個概念，矩陣的定義就變成：矩陣是線性空間裏的變換的描述。到這裏為止，我們終於得到了一個看上去比較數學的定義。不過還要多說幾句。教材上一般是這麽說的，在一個線性空間V裏的一個線性變換T，當選定一組基之後，就可以表示為矩陣。因此我們還要說清楚到底什麽是線性變換，什麽是基，什麽叫選定一組基。線性變換的定義是很簡單的，設有一種變換T，使得對於線性空間V中間任何兩個不相同的對象x和y，以及任意實數a和b，有：T(ax+by)=aT(x)+bT(y)，那麽就稱T為線性變換。定義都是這麽寫的，但是光看定義還得不到直覺的理解。線性變換究竟是一種什麽樣的變換？我們剛才說了，變換是從空間的一個點躍遷到另一個點，而線性變換，就是從一個線性空間V的某一個點躍遷到另一個線性空間W的另一個點的運動。這句話裏蘊含著一層意思，就是說一個點不僅可以變換到同一個線性空間中的另一個點，而且可以變換到另一個線性空間中的另一個點去。不管你怎麽變，隻要變換前後都是線性空間中的對象，這個變換就一定是線性變換，也就一定可以用一個非奇異矩陣來描述。而你用一個非奇異矩陣去描述的一個變換，一定是一個線性變換。

有的人可能要問，這裏為什麽要強調非奇異矩陣？所謂非奇異，隻對方陣有意義，那麽非方陣的情況怎麽樣？這個說起來就會比較冗長了，最後要把線性變換作為一種映射，並且討論其映射性質，以及線性變換的核與像等概念才能徹底講清楚。

以下我們隻探討最常用、最有用的一種變換，就是在同一個線性空間之內的線性變換。也就是說，下麵所說的矩陣，不作說明的話，就是方陣，而且是非奇異方陣。學習一門學問，最重要的是把握主幹內容，迅速建立對於這門學問的整體概念，不必一開始就考慮所有的細枝末節和特殊情況，自亂陣腳。

什麽是基呢？這個問題在後麵還要大講一番，這裏隻要把基看成是線性空間裏的坐標係就可以了。注意是坐標係，不是坐標值，這兩者可是一個“對立矛盾統一體”。這樣一來，“選定一組基”就是說在線性空間裏選定一個坐標係。好，最後我們把矩陣的定義完善如下：“矩陣是線性空間中的線性變換的一個描述。在一個線性空間中，隻要我們選定一組基，那麽對於任何一個線性變換，都能夠用一個確定的矩陣來加以描述。”理解這句話的關鍵，在於把“線性變換”與“線性變換的一個描述”區別開。一個是那個對象，一個是對那個對象的表述。就好像我們熟悉的麵向對象編程中，一個對象可以有多個引用，每個引用可以叫不同的名字，但都是指的同一個對象。如果還不形象，那就幹脆來個很俗的類比。比如有一頭豬，你打算給它拍照片，隻要你給照相機選定了一個鏡頭位置，那麽就可以給這頭豬拍一張照片。這個照片可以看成是這頭豬的一個描述，但隻是一個片麵的的描述，因為換一個鏡頭位置給這頭豬拍照，能得到一張不同的照片，也是這頭豬的另一個片麵的描述。所有這樣照出來的照片都是這同一頭豬的描述，但是又都不是這頭豬本身。同樣的，對於一個線性變換，隻要你選定一組基，那麽就可以找到一個矩陣來描述這個線性變換。換一組基，就得到一個不同的矩陣。所有這些矩陣都是這同一個線性變換的描述，但又都不是線性變換本身。

但是這樣的話，問題就來了如果你給我兩張豬的照片，我怎麽知道這兩張照片上的是同一頭豬呢？同樣的，你給我兩個矩陣，我怎麽知道這兩個矩陣是描述的同一個線性變換呢？如果是同一個線性變換的不同的矩陣描述，那就是本家兄弟了，見麵不認識，豈不成了笑話。好在，我們可以找到同一個線性變換的矩陣兄弟們的一個性質，那就是：若矩陣A與B是同一個線性變換的兩個不同的描述（之所以會不同，是因為選定了不同的基，也就是選定了不同的坐標係），則一定能找到一個非奇異矩陣P，使得A、B之間滿足這樣的關係：A=P-1BP。線性代數稍微熟一點的讀者一下就看出來，這就是相似矩陣的定義。沒錯，所謂相似矩陣，就是同一個線性變換的不同的描述矩陣。按照這個定義，同一頭豬的不同角度的照片也可以成為相似照片。俗了一點，不過能讓人明白。而在上麵式子裏那個矩陣P，其實就是A矩陣所基於的基與B矩陣所基於的基這兩組基之間的一個變換關係。

關於這個結論，可以用一種非常直覺的方法來證明（而不是一般教科書上那種形式上的證明），如果有時間的話，我以後在blog裏補充這個證明。這個發現太重要了。原來一族相似矩陣都是同一個線性變換的描述啊！難怪這麽重要！工科研究生課程中有矩陣論、矩陣分析等課程，其中講了各種各樣的相似變換，比如什麽相似標準型，對角化之類的內容，都要求變換以後得到的那個矩陣與先前的那個矩陣式相似的，為什麽這麽要求？因為隻有這樣要求，才能保證變換前後的兩個矩陣是描述同一個線性變換的。

當然，同一個線性變換的不同矩陣描述，從實際運算性質來看並不是不分好環的。有些描述矩陣就比其他的矩陣性質好得多。這很容易理解，同一頭豬的照片也有美醜之分嘛。所以矩陣的相似變換可以把一個比較醜的矩陣變成一個比較美的矩陣，而保證這兩個矩陣都是描述了同一個線性變換。這樣一來，矩陣作為線性變換描述的一麵，基本上說清楚了。但是，事情沒有那麽簡單，或者說，線性代數還有比這更奇妙的性質，那就是，矩陣不僅可以作為線性變換的描述，而且可以作為一組基的描述。而作為變換的矩陣，不但可以把線性空間中的一個點給變換到另一個點去，而且也能夠把線性空間中的一個坐標係（基）表換到另一個坐標係（基）去。而且，變換點與變換坐標係，具有異曲同工的效果。線性代數裏最有趣的奧妙，就蘊含在其中。理解了這些內容，線性代數裏很多定理和規則會變得更加清晰、直覺。

首先來總結一下前麵部分的一些主要結論：

1.首先有空間，空間可以容納對象運動的。一種空間對應一類對象。

2.有一種空間叫線性空間，線性空間是容納向量對象運動的。

3.運動是瞬時的，因此也被稱為變換。

4.矩陣是線性空間中運動（變換）的描述。

5.矩陣與向量相乘，就是實施運動（變換）的過程。

6.同一個變換，在不同的坐標係下表現為不同的矩陣，但是它們的本質是一樣的，所以本征值相同。

下麵讓我們把視力集中到一點以改變我們以往看待矩陣的方式。

我們知道，線性空間裏的基本對象是向量。

向量是這麽表示的：[a1,a2,a3,…,an]。

矩陣是這麽表示的：a11,a12,a13,…,a1n,a21,a22,a23,…,a2n,…,an1,an2,an3,…,ann

不用太聰明，我們就能看出來，矩陣是一組向量組成的。特別的，n維線性空間裏的方陣是由n個n維向量組成的。我們在這裏隻討論這個n階的、非奇異的方陣，因為理解它就是理解矩陣的關鍵，它才是一般情況，而其他矩陣都是意外，都是不得不對付的討厭狀況，大可以放在一邊。這裏多一句嘴，學習東西要抓住主流，不要糾纏於旁支末節。很可惜我們的教材課本大多數都是把主線埋沒在細節中的，搞得大家還沒明白怎麽回事就先被灌暈了。比如數學分析，明明最要緊的觀念是說，一個對象可以表達為無窮多個合理選擇的對象的線性和，這個概念是貫穿始終的，也是數學分析的精華。但是課本裏自始至終不講這句話，反正就是讓你做吉米多維奇，掌握一大堆解偏題的技巧，記住各種特殊情況，兩類間斷點，怪異的可微和可積條件（誰還記得柯西條件、迪裏赫萊條件…？），最後考試一過，一切忘光光。要我說，還不如反複強調這一個事情，把它深深刻在腦子裏，別的東西忘了就忘了，真碰到問題了，再查數學手冊嘛，何必因小失大呢？

言歸正傳，如果一組向量是彼此線性無關的話，那麽它們就可以成為度量這個線性空間的一組基，從而事實上成為一個坐標係體係，其中每一個向量都躺在一根坐標軸上，並且成為那根坐標軸上的基本度量單位（長度1）。現在到了關鍵的一步。看上去矩陣就是由一組向量組成的，而且如果矩陣非奇異的話（我說了，隻考慮這種情況），那麽組成這個矩陣的那一組向量也就是線性無關的了，也就可以成為度量線性空間的一個坐標係。結論：矩陣描述了一個坐標係。“慢著！”，你嚷嚷起來了，“你這個騙子！你不是說過，矩陣就是運動嗎？怎麽這會矩陣又是坐標係了？”嗯，所以我說到了關鍵的一步。我並沒有騙人，之所以矩陣又是運動，又是坐標係，那是因為——“運動等價於坐標係變換”。對不起，這話其實不準確，我隻是想讓你印象深刻。準確的說法是：“對象的變換等價於坐標係的變換”。或者：“固定坐標係下一個對象的變換等價於固定對象所處的坐標係變換。”說白了就是：“運動是相對的。”

讓我們想想，達成同一個變換的結果，比如把點(1,1)變到點(2,3)去，你可以有兩種做法。第一，坐標係不動，點動，把(1,1)點挪到 (2,3)去。第二，點不動，變坐標係，讓x軸的度量（單位向量）變成原來的1/2，讓y軸的度量（單位向量）變成原先的1/3，這樣點還是那個點，可是點的坐標就變成(2,3)了。方式不同，結果一樣。從第一個方式來看，那就是把矩陣看成是運動描述，矩陣與向量相乘就是使向量（點）運動的過程。在這個方式下，Ma=b的意思是：“向量a經過矩陣M所描述的變換，變成了向量b。”而從第二個方式來看，矩陣M描述了一個坐標係，姑且也稱之為M。那麽：Ma=b的意思是：“有一個向量，它在坐標係M的度量下得到的度量結果向量為a，那麽它在坐標係I的度量下，這個向量的度量結果是b。”這裏的I是指單位矩陣，就是主對角線是1，其他為零的矩陣。而這兩個方式本質上是等價的。我希望你務必理解這一點，因為這是本篇的關鍵。正因為是關鍵，所以我得再解釋一下。在M為坐標係的意義下，如果把M放在一個向量a的前麵，形成Ma的樣式，我們可以認為這是對向量a的一個環境聲明。它相當於是說：“注意了！這裏有一個向量，它在坐標係M中度量，得到的度量結果可以表達為a。可是它在別的坐標係裏度量的話，就會得到不同的結果。為了明確，我把M放在前麵，讓你明白，這是該向量在坐標係M中度量的結果。”

那麽我們再看孤零零的向量b：b多看幾遍，你沒看出來嗎？它其實不是b，它是：Ib也就是說：“在單位坐標係，也就是我們通常說的直角坐標係I中，有一個向量，度量的結果是b。” 而Ma=Ib的意思就是說：“在M坐標係裏量出來的向量a，跟在I坐標係裏量出來的向量b，其實根本就是一個向量啊！”這哪裏是什麽乘法計算，根本就是身份識別嘛。從這個意義上我們重新理解一下向量。向量這個東西客觀存在，但是要把它表示出來，就要把它放在一個坐標係中去度量它，然後把度量的結果（向量在各個坐標軸上的投影值）按一定順序列在一起，就成了我們平時所見的向量表示形式。你選擇的坐標係（基）不同，得出來的向量的表示就不同。向量還是那個向量，選擇的坐標係不同，其表示方式就不同。因此，按道理來說，每寫出一個向量的表示，都應該聲明一下這個表示是在哪個坐標係中度量出來的。表示的方式，就是Ma，也就是說，有一個向量，在M矩陣表示的坐標係中度量出來的結果為a。

我們平時說一個向量是[2 3 5 7]T，隱含著是說，這個向量在 I 坐標係中的度量結果是[2 3 5 7]T，因此，這個形式反而是一種簡化了的特殊情況。注意到，M矩陣表示出來的那個坐標係，由一組基組成，而那組基也是由向量組成的，同樣存在這組向量是在哪個坐標係下度量而成的問題。也就是說，表述一個矩陣的一般方法，也應該要指明其所處的基準坐標係。所謂M，其實是IM，也就是說，M中那組基的度量是在I坐標係中得出的。從這個視角來看，M×N也不是什麽矩陣乘法了，而是聲明了一個在M坐標係中量出的另一個坐標係N，其中M本身是在I坐標係中度量出來的。

回過頭來說變換的問題，我剛才說，“固定坐標係下一個對象的變換等價於固定對象所處的坐標係變換”，那個“固定對象”我們找到了，就是那個向量。但是坐標係的變換呢？我怎麽沒看見？請看：Ma=Ib我現在要變M為I，怎麽變？對了，再前麵乘以個M-1，也就是M的逆矩陣。換句話說，你不是有一個坐標係M嗎，現在我讓它乘以個M-1，變成I，這樣一來的話，原來M坐標係中的a在I中一量，就得到b了。我建議你此時此刻拿起紙筆，畫畫圖，求得對這件事情的理解。比如，你畫一個坐標係，x軸上的衡量單位是2，y軸上的衡量單位是3，在這樣一個坐標係裏，坐標為(1,1)的那一點，實際上就是笛卡爾坐標係裏的點(2,3)。而讓它原形畢露的辦法，就是把原來那個坐標係:2 0 0 3 的x方向度量縮小為原來的1/2，而y方向度量縮小為原來的1/3，這樣一來坐標係就變成單位坐標係I了。保持點不變，那個向量現在就變成了(2, 3)了。怎麽能夠讓“x方向度量縮小為原來的1/2，而y方向度量縮小為原來的1/3”呢？就是讓原坐標係：2 0 0 3 被矩陣：1/2 0 0 1/3 左乘。而這個矩陣就是原矩陣的逆矩陣。

下麵我們得出一個重要的結論：“對坐標係施加變換的方法，就是讓表示那個坐標係的矩陣與表示那個變化的矩陣相乘。” 再一次的，矩陣的乘法變成了運動的施加。隻不過，被施加運動的不再是向量，而是另一個坐標係。如果你覺得你還搞得清楚，請再想一下剛才已經提到的結論，矩陣MxN，一方麵表明坐標係N在運動M下的變換結果，另一方麵，把M當成N的前綴，當成N的環境描述，那麽就是說，在M坐標係度量下，有另一個坐標係N。這個坐標係N如果放在I坐標係中度量，其結果為坐標係MxN。

在這裏，我實際上已經回答了一般人在學習線性代數是最困惑的一個問題，那就是為什麽矩陣的乘法要規定成這樣。簡單地說，是因為：

1.從變換的觀點看，對坐標係N施加M變換，就是把組成坐標係N的每一個向量施加M變換。

2.從坐標係的觀點看，在M坐標係中表現為N的另一個坐標係，這也歸結為，對N坐標係基的每一個向量，把它在I坐標係中的坐標找出來，然後匯成一個新的矩陣。

3.至於矩陣乘以向量為什麽要那樣規定，那是因為一個在M中度量為a的向量，如果想要恢複在I中的真像，就必須分別與M中的每一個向量進行內積運算。

我把這個結論的推導留給感興趣的朋友吧。應該說，其實到了這一步，已經很容易了。綜合以上，矩陣的乘法就得那麽規定，一切有根有據，絕不是哪個神經病胡思亂想出來的。我已經無法說得更多了。矩陣又是坐標係，又是變換。到底是坐標係，還是變換，已經說不清楚了，運動與實體在這裏統一了，物質與意識的界限已經消失了，一切歸於無法言說，無法定義了。到了這個時候，我們不得不承認，我們偉大的線性代數課本上說的矩陣定義，是無比正確的：“矩陣就是由m行n 列數放在一起組成的數學對象。”好了，這基本上就是我想說的全部了。

原文：http://blog.csdn.net/myan/article/details/647511