0 序言?今天我們來講信息論。對于信息時代這個詞,我想大家已經(jīng)聽膩了,這個時代年輕人誰沒有聽說過類似”信息過載、信息爆炸、信息量”這些詞,但大部分人意識里把信息和信息產(chǎn)業(yè),甚至是互聯(lián)網(wǎng)行業(yè)畫上了等號,這是一個很大的誤解。 什么是信息? 信息是宇宙固有的組成部分,和力、運動等概念一樣,宇宙大爆炸那一刻開始,信息就和能量一同出現(xiàn),然后才會一生二,二生三,三生萬物,即世界上幾乎任何的事物都可以用信息的方式來量化。 1 人類文明的三條重要公式幾年前我聽過著名物理學(xué)家張首晟教授的一個講座。他說對于人類文明來講,有三條最重要的公式。 ![]() 1.1 質(zhì)能轉(zhuǎn)換公式 E=mc^2 我們上面講過整個宇宙最主要的兩個概念就是能量和信息。 有人會問“不應(yīng)該有物質(zhì)嗎?” 這是第一條公式解決的問題,E=mc^2就是把物質(zhì)和能量統(tǒng)一在了一起。 ![]() 你看左邊的 E 是能量,右邊的 M 是物質(zhì), C 是光速。 這套公式最神奇的地方就是讓我們意識到能量和物質(zhì)是相通的。 這個應(yīng)該是科學(xué)思維最讓人震撼的地方之一,它可以把兩個完全不同的東西通過抽象的數(shù)學(xué)公式簡化成一個東西進(jìn)行衡量和測算。通過化繁為簡,人類可以更好抓住改變世界和理解世界的杠桿。 如果總結(jié)人類科學(xué)界最知名的公式,我想 $$E=mc^2應(yīng)該是比牛頓力學(xué)的 F = ma 還出名。 1.2 信息熵公式 ![]() 跟它對比,第二條描述信息的公式可能除了學(xué)相關(guān)專業(yè)的同學(xué)之外,幾乎無人知曉,這讓人非常遺憾,我們今天講這節(jié)課信息論也是希望彌補這個遺憾的。 第一條公式和第二條公式加起來,已經(jīng)涵蓋了能量、物質(zhì)和信息了,那么世界上最重要的東西應(yīng)該都講完了,怎么還有第三條公式呢? 1.3 不確定性原理不等式 ![]() 這第三條公式“海森堡測不準(zhǔn)原理”屬于量子力學(xué)的范疇,它實際上是在告訴我們科學(xué)的邊界在哪里。 我們本來認(rèn)為我們的儀器越來越好,那么理論上應(yīng)該可以把基本粒子的位置和速度測算得越來越準(zhǔn)確,最終完全掌握它的行蹤,但第三條公式就告訴我們,不論科學(xué)怎么發(fā)展,我們永遠(yuǎn)都不可能精確測算基本粒子的狀態(tài)。 因為我們觀察粒子這件事情本身就會改變它的行為。 這在宏觀世界里比較費解,比如我站在五層樓頂觀察路上的車輛,理論上講如果天氣夠好,視力沒問題,我可以非常清晰地看到每一輛車的行進(jìn)軌跡、顏色和大小。不可能說這輛車我不看它時到了第一個車道,一看它就變成第二個車道了,不看它又回到第一個車道,這聽起來好恐怖。 但在微觀世界里面,如果我們觀察一個基本粒子,我需要把一個光子打在它身上。 就這一個行為,可以改變基本粒子的行進(jìn)軌跡,因為這個粒子會吸收光子的動量,在瞬間改變自己的運動狀態(tài)。通俗點說—— 我們的觀察改變了客觀世界。 啟發(fā) 第三條公式給我們的啟發(fā)是——我們生活的這個世界的確是沒有絕對客觀存在,人類觀察世界的方式和角度,和這個世界對待我們的方式和方法,會從物理學(xué)的層面影響彼此。 我們真正能觀察到的東西是客觀世界和主觀想象之間的結(jié)合體。 1.4 能量&信息的差別 我們知道能量和信息是人類最重要的兩個基礎(chǔ),那么這兩者之間有什么最明顯的差別? 能量守恒但信息不守恒。 能量守恒定律是自然界最普遍的規(guī)律。能量不會憑空產(chǎn)生、憑空消失,只會從一個形態(tài)轉(zhuǎn)化成另一個形態(tài),或者從一個物體轉(zhuǎn)移到另外一個物體。一邊能量多了,另一邊能量就少了,這就叫守恒。 但信息沒有這個特性,它可以被無限復(fù)制和分享,不存在“有人多了另外一個人就少了”這個特點。 啟發(fā)人類之間分享知識是一件可以為這個世界創(chuàng)造純粹增量的事情。 你分享了知識,你的知識并沒有減少,但是別人的知識卻增加了。 說起來很奇怪,既然我們所處的信息時代,那么信息論應(yīng)該是非常必要了解的知識。 要知道信息論自誕生以來,并不只被運用到信息產(chǎn)業(yè),過去半個多世紀(jì)里它在統(tǒng)計物理、計算科學(xué)、投資學(xué)甚至哲學(xué)等很多學(xué)科里都是奠基性的貢獻(xiàn)??梢哉f信息論是當(dāng)代科學(xué)重要的一塊基石。 那么為什么信息論沒有成為每一個人的必修課呢? 因為信息論實在是太抽象了。 我大二不知天高地厚,找同學(xué)借了幾本信息論的入門書籍,準(zhǔn)備花兩周時間了解一下,結(jié)果兩天我就放棄了。因為這門科學(xué)需要掌握其它學(xué)科的基礎(chǔ)知識非常多,比如統(tǒng)計學(xué)、概率論、微積分、線性代數(shù)、計算機科學(xué)、物理學(xué)……這里面涉及到的數(shù)學(xué),連我這種讀數(shù)學(xué)系的人都覺得很晦澀。對于非理科類的同學(xué)來說,肯定更難理解。 所以今天我們盡量繞開所有的數(shù)學(xué)公式,只講核心原理。 2 信息熵公式要說信息論,第一個繞不開的話題肯定是信息怎么衡量? 比如我們想衡量物質(zhì),用質(zhì)量就可以衡量。對于人類來講非常好理解,誰還沒有稱過體重? 所以衡量信息也跟用信息量這個詞。 衡量物質(zhì)→質(zhì)量 衡量信息→信息量 但是對于信息量的衡量方法,大多數(shù)人就不知道了。 這就要說到我們上面提到那個第二條公式,整個信息論的基礎(chǔ)—— 信息熵(informationentropy)公式 ![]() 熵這個概念,我們在《開竅》—1、熱力學(xué):生命就是對抗熵增(讀書分享)講過了。熱力學(xué)里它代表分子狀態(tài)的混亂程度,也代表整個系統(tǒng)的不確定程度。所以信息論的鼻祖香農(nóng)把這個概念借用到了信息的領(lǐng)域。 信息熵,簡單來說就是描述一個東西不確定程度的量。 換言之,信息熵就是說你要搞清楚一件事情的難度。 2.1 舉例 抽獎 假如你去抽獎,紅色球代表中獎,如果你知道盒子里面只有一個球,而且它是紅色的,這就意味著你要搞清楚是否中獎毫無難度,所以你面對的信息熵就是 0 。 但如果盒子里面有 1 萬個球,其中只有 1 個紅色球,那么不確定性就非常大了。此時你要搞清楚能否中獎難度極大,這意味著抽獎盒里的信息熵非常大。 假如我們有個盲盒,這個盲盒在外觀上就已經(jīng)印了里面裝的皮卡丘的樣子,那么它不確定性就很小,所以它的信息熵也接近于 0 。 但如果盲盒系列一共有 12 個娃娃,而且有的娃娃出現(xiàn)概率高,有的娃娃出現(xiàn)概率低。那么你要搞清楚打開會看到哪一款,難度就陡然增大了。這個盒子的信息熵就遠(yuǎn)大于皮卡丘盒子的信息熵。 ![]() ![]() 從盲盒這個例子我們可以得出幾個影響信息熵的因素。 1 可能出現(xiàn)的娃娃款式數(shù)量越多,信息熵就越大。 2 在娃娃款式數(shù)量不變的情況下,如果每一款娃娃出現(xiàn)的概率是一樣的,此時信息熵最大。 3 如果其中某個款式出現(xiàn)的概率很大,比如 10 次里面有 9 次都是它,那么會大大降低信息熵。 這里第一條就跟彩票一樣,中獎人數(shù)不變的情況下,發(fā)行彩票數(shù)量越多,中獎概率越小,中獎就越難,信息熵也就越大。 2.2 信息熵函數(shù) 第二條、第三條就沒那么直觀了,我們再舉一個例子來說明。 回看一下剛才皮卡丘的那個例子,假如有 100 個盒子分別裝著藍(lán)色和黃色皮卡丘,那么有三種情況: ![]() A:100 個盒子裝的都是藍(lán)色款。 B:50 個盒子裝黃色,50個盒子裝藍(lán)色。 C:100 個盒子裝的都是黃色款。 那么這三種情況對應(yīng)的信息熵函數(shù)就是這樣的。 A 、C 信息熵都為零,因為 100% 裝都是同一種顏色,所以任意拿一個盒子拆開前,都已經(jīng)確定知道自己將會拿到什么顏色,此時沒有不確定性。 B 不確定性達(dá)到最高,信息熵最大,因為你拿任何一個盒子,藍(lán)色、黃色的概率都是 50% 那么在這個函數(shù)上,我們看到的除了這三種極端情況,還有中間狀態(tài)。 比如有 60 個是藍(lán)色、40 個是黃色,它的信息熵會比 50% 的情況低一點。 以此類推,可以看到函數(shù)是一條拋物線的形狀——可能性越不平均,信息熵就越低。 ![]() 那我們再延展一下,理解了信息熵也就理解了跟它對應(yīng)的另外一個概念—— 信息量(Amount of information),消除信息熵所需要的能量。 那香農(nóng)也定義了一個衡量信息量的基本單位——比特。 今天比特已經(jīng)躋身到跟公斤、英鎊、毫米、厘米、分鐘這樣的單位一樣,成為世界通用量綱一員了。 上面我們說過,可能性越不平均,信息熵就越低。 啟發(fā)在日常生活中模棱兩可的態(tài)度是最沒有信息量的。 比如都出去吃飯,別人問你吃什么,你說隨便。這就是你給出去的可能性正處于信息熵函數(shù)的正中間位置,創(chuàng)造了信息熵的最大值,消除它需要對方提供最大的信息量。 ![]() 而如果你能說不吃辣,那么立馬就可以把函數(shù)在橫軸上右移,減少信息熵。 進(jìn)一步,你還能夠直接說自己想要吃哪家店、什么菜,那就等于把橫軸推到了信息熵最小的那邊。 熵與熱力學(xué)在一個封閉系統(tǒng)里,按照熵增定律,本來應(yīng)該越來越趨向于混亂和無序,但正因為系統(tǒng)里面有一個小人在不斷做選擇,日積月累就可以使整個系統(tǒng)變得越來越有序。 ![]() 可以發(fā)現(xiàn),無論是信息論還是熱力學(xué),都從不同的側(cè)面說明一個道理—— 不做選擇、隨波逐流或平均分配注意力,會增加整個系統(tǒng)的無序性。 那么如何聰明地分配我們的資源和注意力呢? 下面為大家介紹信息論里幾個模型。 3 霍夫曼編碼(Huffman Coding)它是一種編碼方法,指如果我們可以把較短的編碼分配給高頻出現(xiàn)的詞匯,而把較長的編碼分配給低頻出現(xiàn)的詞匯,那么整體而言我們用編碼來表達(dá)語言時,就可以實現(xiàn)效率最優(yōu)化。
3.1 舉例 指令旗 古代戰(zhàn)場上,一個傳令兵只能用兩種旗傳遞指令——紅旗&綠旗 ![]() 這里最簡單的指令是單舉一次紅旗、單舉一次綠旗,或者同時舉起兩者。 所以按常理,3 種情況應(yīng)拿來表示戰(zhàn)場上最經(jīng)常出現(xiàn)的 3 種行動方案
不應(yīng)該是反過來用這 3 種最簡單指令去代表類似盾牌手原地待命、騎兵繞到敵軍后方攻擊、步兵進(jìn)行埋伏等相對不常見、特別復(fù)雜的行動方案,否則傳令過程太麻煩了。 3.2 舉例 摩爾斯電碼 摩爾斯電碼編碼原理借鑒了以上思路,發(fā)電報的信號由點和長線兩種信號組成,用這種復(fù)雜的方式拼寫單詞非常費勁,為了減少發(fā)報員、傳輸設(shè)備以及接收員的的工作量,就必須精簡指令代碼的長度,把簡單的代碼分配給最高頻使用的字母。 對 T、E、I、S、N、A 這樣的使用頻率很高的字母,要分配最短的編碼方式,比如 E 是●, S 是●●●; 對 Q、Y、X、V、L 這樣使用頻率比較低的字母,則分配相對復(fù)雜的代碼資源,比如 L 是●—●● 這種分配方式比 26 個字母從頭到尾的順序安排代碼資源要合理得多。 ![]() ![]() 啟發(fā)為了提高效率,我們應(yīng)該把生活中最重要的資源分配給人生中最高頻出現(xiàn)的場景 這個原理對我安排家居時有了很大啟發(fā),我在家從來不看電視,家里的電視和沙發(fā)的空間對我而言就是極度低頻的場景,但我的工作區(qū)和閱讀區(qū)非常高頻。 我以前租房時經(jīng)常發(fā)現(xiàn)傳統(tǒng)出租屋都把工作區(qū)設(shè)計得很小甚至沒有,總是把電視區(qū)搞得大大的,于是我住進(jìn)去后通常第一件事是把電視區(qū)改造成工作區(qū)+閱讀區(qū),這樣就把最重要的資源分配給最高頻的場景,呼應(yīng)了信息熵的內(nèi)容。 信息論反復(fù)在告訴我們,模棱兩可、平均用力是一種相對無效的資源配置方式。 信息論還側(cè)面印證 14 世紀(jì)提出來的一種哲學(xué)—— 4 、奧卡姆剃刀定律 ![]() 這個詞大家應(yīng)該比較熟悉了,意思是“如無必要,勿增實體”。 奧卡姆剃刀和霍夫曼編碼結(jié)合起來,可以得出安排人生效率的好方法—— 大刀闊斧地做減法 + 圍繞關(guān)鍵領(lǐng)域飽和配置資源 這是我本人采用的一種生活哲學(xué)。在霍夫曼編碼的啟發(fā)下,我曾花了一年時間多非常認(rèn)真的研究自己生活中最高頻的場景,比如吃飯、睡覺、運動、呼吸、工作、娛樂、排便。 這些是我們每天都要做但大多數(shù)人只是出于本能而沒有刻意安排它們,這些東西常常隱藏了大量的 bug ,這是一個巨大的資源浪費。 比如經(jīng)過深度反思,我發(fā)現(xiàn)在最普通的日常生活里,有很多地方都可以用奧卡姆剃刀。 4.1 舉例 吃飯 現(xiàn)在一日三餐是人類的基本常識,那么這件事情有沒有改進(jìn)空間呢? 我經(jīng)過對自己的身體長期實驗就發(fā)現(xiàn),我一天可以只吃兩頓,一頓早餐、一頓午餐,而不吃晚餐。 這種飲食里面在古代東方歷史上是有一些記載的,比如道家說“過午不食”。 如果追溯到更古遠(yuǎn)的時代, 2 萬年前我們的原始人祖先也沒有一日三餐的習(xí)慣,我們現(xiàn)在的身體結(jié)構(gòu)跟他們當(dāng)時的結(jié)構(gòu)差不多,所以一日三餐顯然是不必要的。 所以現(xiàn)在我一天只吃兩頓飯,這使得我比普通人每天多出了 2 個小時的晚餐時間,
這是典型的圍繞關(guān)鍵領(lǐng)域飽和配置資源的例子。 不過我也得提醒一下,這個方法可能對大多數(shù)人不適用,因為很多人習(xí)慣晚上安排大量工作,精力消耗非常大,就必須吃晚餐。所以大家不要被我這個早睡黨誤導(dǎo)了,還是按照自己的身體節(jié)奏來。我舉例是為了說明霍夫曼編碼配合奧卡姆剃刀在生活中有很好的應(yīng)用。 4.2 舉例 資源配置 再比如,由于工作和生活原因,我在手機和筆記本電腦這兩個設(shè)備上從來都是飽和攻擊,盡我所能購買質(zhì)量最好的產(chǎn)品,因為這兩樣?xùn)|西對我來說使用頻率實在太高,想一想我每天打開手機的次數(shù)和使用電腦工作的時長,就明白在這兩件東西上花錢是非常值得的。 但與之相對的是,在衣服上配置過多的金錢對我來說是一種資源浪費,因為很多衣服一年就穿幾次,是典型的低頻場景。當(dāng)然很多女性不這么想,因為服裝鞋帽對她們來說不僅是一種工具,還是一種美的信仰,或是自我表達(dá)的需求,這涉及到心理學(xué)、社會學(xué)、美學(xué),就不在這里展開了。 5 幀間壓縮算法 (Interframe compression)在影像領(lǐng)域中所謂的幀,就是影像動畫的最小單位,也就是單幅靜止畫面,把它們連續(xù)播放起來,就會形成今天我們看到的視頻。 ![]() 視頻是一定要壓縮的,否則我們今天的網(wǎng)絡(luò)和帶寬根本承受不了。 假設(shè)一個兩小時未壓縮的高清(1920 X 1080) 電影視頻。 由于人眼特異性,大概每秒要能夠刷新 20 幀以上才會感覺流暢,電影這個數(shù)字一般是 24 ,為了方便計算我們這里按 25 幀算;RGB 三原色,一個像素占 3 個字節(jié)。 計算公式: 2小時×60分鐘×60秒×25幀×1920×1080像素×3(每像素字節(jié)數(shù))=11,198GB (B代表字節(jié),1B=8b) 由此可見,兩小時未經(jīng)壓縮的高清視頻至少上萬GB,所以現(xiàn)在網(wǎng)絡(luò)上的視頻都必須經(jīng)過壓縮。 一個視頻可以壓縮到成千上萬倍,但看起來還很流暢,這不是很神奇嗎? 能做到這一點蘊含著非常深刻的哲學(xué)—— 通過關(guān)注信息增量,而不是關(guān)注信息存量來極大的提升效率 幀間壓縮算法就是這種哲學(xué)的體現(xiàn)。 看下面這張圖 ![]() 上面是一個人招手的畫面,分解成每一幀的樣子。這里面的很多信息是重復(fù)的,比如這個人身體除了右手在變化,其他部位基本不變 我們只需要對第一個圖進(jìn)行整體處理,然后在接下來的幾張圖里面只處理那只變化的手的信息,就可以大大的減少工作量,這就是幀間壓縮算法的精髓。 啟發(fā)關(guān)注變化,忽略重復(fù),可以使我們的學(xué)習(xí)效率提升 N 倍 經(jīng)常有同學(xué)問我如何讀這么多的書? 天下武功,唯快不破,我通常在休息日每天可以讀 2-3 本新書,這樣如果刻意想讀很多書,一周的休息時間大概能讀 10 本新書,大約是普通人一年的閱讀量,我的最高閱讀速度可能是常人的 50 倍。但這并不是故事的全部。 我讀書的關(guān)鍵原則是不平均用力:
基礎(chǔ)的知識在很多不同書籍里都會出現(xiàn),所以是高頻場景,應(yīng)配備大量的資源去搞定,這種讀書方法可以說是霍夫曼編碼&幀間壓縮算法的結(jié)合。 集中精力夯實基礎(chǔ)知識+只關(guān)注新知識的增量 隨著你已經(jīng)啃下來的基礎(chǔ)知識越來越多,就發(fā)現(xiàn)很多書籍能夠提供的新增信息量并沒有那么多,所以我們只需要集中精力把每本新書提供的最重要的新增信息量全部消化即可。比如
快速閱讀的前提是你的基礎(chǔ)知識一定要先打牢,如果你對關(guān)鍵的學(xué)科知識都建立了認(rèn)知框架,那么新書的增量閱讀也就會非???。 通常對于每一個細(xì)分領(lǐng)域,統(tǒng)領(lǐng)全局的第一幀都是必須認(rèn)認(rèn)真真處理好,你處理得越好,基礎(chǔ)越扎實,后面做增量的工作量也就越小。 如果跳出讀書,應(yīng)用到生活的更多方面,我們就知道做任何的事情,起步的時候,先花時間把基礎(chǔ)功練扎實非常重要,因為你的基本功很扎實,后面不斷前進(jìn)就可以只關(guān)注增量,大大提升效率。 6 互信息( Mutual Information)兩件事情之間的互信息越大,就表明它們之間的相關(guān)性越強。 假設(shè)有兩個獨立發(fā)生的隨機事件, 事件A 信春哥,信息熵是 h(x) 事件B 不掛科,信息熵是 h(y) 那么這兩個代表信息熵的圓圈之間的交集就是兩者的互信息。 通俗理解,這中間的交叉區(qū)域越大,信春哥和不掛科之間的互信息就越大,也就意味著這兩者之間的相關(guān)性就越強。 ![]() 相關(guān)性≠因果性 即便我們真的發(fā)現(xiàn)信春哥和不掛科之間有著非常高的相關(guān)性,也不代表信春哥就是不掛科的原因,反之亦然。從信息論的角度,它只關(guān)心“信春哥”這件事情到底能夠給“不掛科”這件事情消除多大的不確定性,減少多少信息熵。 兩個獨立事件之間的相關(guān)性是可以通過嚴(yán)格計算得出的,只要它們之間的互信息比較高,我們就可以確信它們有相關(guān)性,而不需要尋找它們的因果性。 這是數(shù)據(jù)科學(xué)給人類非常重要的一種思考方法,因為我們?nèi)祟愂且环N非常喜歡尋找因果的生物,從孩童時期了解世界的最重要的方式就是去尋找原因。 回憶一下我們啟蒙讀物《十萬個為什么》我們沒有把它叫做《十萬個互信息》、《十萬個相關(guān)性》,是因為研究相關(guān)性放棄因果性,非常不符合人類的本能。 但在這個世界上,大部分事物之間的聯(lián)系都是相關(guān)聯(lián)系,而不是因果聯(lián)系。 比如現(xiàn)在抖音、 B 站給我們推薦視頻時,通常會給不同的用戶群打個性化標(biāo)簽,比如寶媽、學(xué)生黨、數(shù)碼愛好者、軍事迷等,使用的就是互信息。 因為你打開了一個軍事題材的視頻,不能說明你是個軍迷。即便你一直在看軍事題材,也有可能你根本不是軍迷,只是這段時間寫論文需要用到,也可能是你表弟經(jīng)常使用你的電腦。所以你的瀏覽行為并不能說明你就是誰,但它就可以說明這個賬號和某一類題材有高相關(guān)系。 6.1 舉例 混淆相關(guān)與因果 很多成功人士在分享自己經(jīng)驗時也都混淆了相關(guān)和因果。 比如很多人會說:“當(dāng)年之所以進(jìn)入這個領(lǐng)域,之所以做某件事情,是因為我覺得 xxx 。” 這個說法通常都是錯的,典型把相關(guān)性當(dāng)成了因果性,因為生活是錯綜復(fù)雜的,而記憶卻是主觀的。 《開竅》—6、 認(rèn)知心理學(xué):鍛煉清晰的認(rèn)知頭腦(讀書分享)講過,我們要向其他人表達(dá)的時候,還非常容易美化自己,故意忽略某些不能說的東西,所以簡單歸因通常很難還原真相。 比如過去 30 年,很多中國企業(yè)家覺得自己成功是因為勤奮吃苦,有戰(zhàn)略夠勇敢。 有沒有關(guān)系呢?有。 是不是因果關(guān)系?不見得。 畢竟有的重要原因是很多人都沒有意識到的,中國本身有整體的高發(fā)展紅利,國家長期通過匯率控制,增發(fā)貨幣,投資基礎(chǔ)設(shè)施,這實際上為大量企業(yè)主創(chuàng)造了遠(yuǎn)勝于其他發(fā)展中國家的生存環(huán)境。所以很多人的成功原因其實非常復(fù)雜,無法追溯,這就是真實世界里很多事物因果關(guān)系的常態(tài)。 很多事情我們永遠(yuǎn)無法解釋它的成因。但是我們可以使用信息論和數(shù)據(jù)科學(xué)去分析萬事萬物之間的關(guān)聯(lián)性,這就是科學(xué)最迷人的地方,因為 科學(xué)可量化、可證偽,清楚自己干不了什么,也清楚自己能干什么。 6.2 信息等價 高互信息的一個極端情況是信息等價,只要知道了事件 A 發(fā)生的信息,就等同于知道事件 B 發(fā)生的信息。上面皮卡丘的盒子,它把里面的皮卡丘的形象非常清晰地印在盒子外面,它就是一個比較接近于提供等價信息的例子。這個例子不夠等價的地方在哪里呢? 盒子上印出來的是二維的動畫照片,而不是真實的三維照片。 ![]() 比如我們?nèi)粘υ捴兴^的說廢話,也是因為前后兩句話提供的是等價信息,或者說互信息很高。 比如我說:“今天天氣真好,藍(lán)天白云,風(fēng)和日麗,陽光明媚。” 一起來分析一下這句話 4 個詞之間彼此的互信息。 天氣好,很大概率就是陽光明媚,所以這兩者之間幾乎等價; 陽光明媚,很大概率就是風(fēng)和日麗,這兩者之間也幾乎等價。 所以這三個詞之間的互信息就很高,說一堆對互信息很高的詞就會讓聽眾覺得是廢話連篇。 相對而言,藍(lán)天白云這個詞提供了額外的信息量,因為天氣好也有可能是萬里無云,“藍(lán)天白云”進(jìn)一步界定好了天氣好的細(xì)分情況,也就減少了我們了解真實天氣情況的信息熵。 通過說廢話這個例子,我們再引入一個信息論的概念—— 7 冗余度(Redundancy)這個詞很直觀,如果你說話廢話多,那么你添加了很多的冗余度。我這么一說,大家好像認(rèn)為冗余度不太好,其實不然。這個概念不只是在信息論里的出現(xiàn),在計算機科學(xué)、工程學(xué)里面也會出現(xiàn)。簡單來說它講的是資源的重復(fù)度。 計算機科學(xué)里冗余技術(shù)是通過增加多余的設(shè)備或者備份來保證系統(tǒng)更安全可靠工作的一種方法。 注意,在這里冗余很明顯是故意實施的策略,比如淘寶和微信這樣的軟件。他們的數(shù)據(jù)中心為了保證運行順暢,通常都會有額外備份的服務(wù)器或者備用電源等,而冗余備份最經(jīng)典的例子是區(qū)塊鏈,為了保證不可篡改,他們把冗余這件事做到了極致。 在我們的世界里故意安排冗余的例子也有很多,比如
在我們傳達(dá)信息的過程中,廢話或者重復(fù)信息是一種必要的存在。因為冗余度如果太低,就會增加人類接收信息的難度。我們的大腦設(shè)計并不是用來接收高密度信息的。 我們需要呼吸,會走神,接收信息的過程經(jīng)常需要停頓。所以如果我們接觸的信息完全沒有冗余度,就會導(dǎo)致一旦走神,馬上會丟掉必要信息,只能不斷回頭去重新閱讀,帶來額外的痛苦。比如
7.1 舉例 標(biāo)點符號 最經(jīng)典的是標(biāo)點符號,我們停下來想兩秒鐘,你覺得標(biāo)點符號提供的信息量大不大? 肯定是不大的。你不能說它沒有提供任何信息量,比如感嘆號!提供額外的情緒信息,但最常出現(xiàn)的逗號和句號,信息量非常小,要知道機器讀文章不需要標(biāo)點符號的,但是人類卻很難接受完全沒有標(biāo)點符號的長文章。 所以冗余信息的存在就是為人類設(shè)計,但冗余度不是越高越好,應(yīng)該有個度,這個度因人而異。 比如我們經(jīng)常在網(wǎng)上看一些知識科普視頻,一開始總愛講背景知識,花費大量時間 10 分鐘視頻一兩個核心觀點,看了半天也沒有看到這個觀點的實質(zhì)內(nèi)容,這就會讓我們感覺內(nèi)容兌水很嚴(yán)重。 但是同一個視頻如果一個年紀(jì)很大的阿姨去聽,可能會聽得津津有味,而且還覺得講得很有道理。這種差異跟代際更迭有很大的關(guān)系。 我們這一代人出生在信息時代,在童年階段就接受了大量的信息訓(xùn)練,所以大腦前額葉皮質(zhì)負(fù)責(zé)分析和理解信息的腦區(qū)是比前幾代人都要發(fā)達(dá)的,這意味著我們能夠接受更高密度的信息內(nèi)容。 隨著信息科技的發(fā)展,人類對冗余的容忍度也在變得越來越低,這也能解釋為什么年輕一代溝通過程中,類似 yyds,xswl,zqsg, nbcs 這種高信息密度的簡寫會這么流行。 啟發(fā)了解冗余度的概念對我們有什么啟發(fā)呢? 1 冗余并不是壞東西
2 時代在進(jìn)步,人類習(xí)慣接受的冗余度也在減少,所以我們越來越需要掌握去除冗余度的方法。 那么我們?nèi)绾纬蔀楦呙芏刃畔⒌恼莆照吣兀?/span> 前面已經(jīng)通過壓縮算法的例子解釋了快速閱讀的方法. 這里我們再補充一點去除冗余信息的方法——畫分析框架。 我這里說的分析框架并不是常見的腦圖,腦圖只是一種偷懶的框架,它的默認(rèn)結(jié)構(gòu)就是只有金字塔結(jié)構(gòu)。但我們在11語言表達(dá) 講過,結(jié)構(gòu)是多種多樣的,比如遞進(jìn)循環(huán)、四象限,所以我們的確應(yīng)該掌握更多的框架模型。 我畫分期框架通常使用這樣三步法 step1 先把關(guān)鍵概念零散列出來,這種羅列不需要順序,只需要你覺得重要就寫上去,這一步類似于建立了很多概念的卡片。 step2 尋找概念卡片之間的關(guān)聯(lián),對它們進(jìn)行分類、連接,同時拿掉一些信息等價的卡片。 step3 回憶我在大腦中已經(jīng)建立的一些思維模型,然后對他們進(jìn)行套用和矯正,最后形成一個屬于這次閱讀內(nèi)容的新的分析框架。 通過這個方法,我可以把一份幾十頁的研報簡寫成一張大圖,讓記憶的效率提高很多。 而進(jìn)一步來講,這張大圖又能夠成為未來解讀更多研報的底層基礎(chǔ)。 就像前面講過的關(guān)鍵第一幀,有了它我就可以加速理解相關(guān)行業(yè)的其他研報,因為我只要重點關(guān)注這些研報的增量信息就行了。 8 總結(jié)
今天我們講了人類最重要的三條物理公式,信息熵的概念,把資源分配給高頻場景的霍夫曼編碼,能極大提高閱讀和學(xué)習(xí)效率的幀間壓縮算法,描述相關(guān)性的互信息,還有冗余度的概念,希望對大家有所啟發(fā)。 |
|
|