統(tǒng)計學習方法書籍推薦
統(tǒng)計學習方法書籍推薦
統(tǒng)計學習方法是什么?想了解更多的信息嗎,以下是學習啦小編分享給大家的統(tǒng)計學習方法的資料,希望可以幫到你!
統(tǒng)計學習方法書籍有哪些
《女士品茶》
內容簡介:
《20世紀統(tǒng)計怎樣變革了科學:女士品茶》以某位喝茶的英國女士的假設學說為起點,引出了近代數(shù)理統(tǒng)計的開創(chuàng)者——費歇爾,以及費歇爾為解決類似問題而發(fā)明的實驗設計法。書中細數(shù)了二十世紀參與這場科學變革的代表性人物與事跡。
豆瓣短評:
世界上沒有任何一個實驗設計是完美的,但我們仍可以借此無限接近真相。這本書算是補充批判性思維的知識面。其中提到的哲學層面非常深奧,如何在理論上立足,如何統(tǒng)一內部,如何與現(xiàn)實世界關聯(lián),等等。很有趣。
By xigesade
《統(tǒng)計陷阱》
內容簡介:
《統(tǒng)計陷阱》是美國統(tǒng)計學家達萊爾·哈夫的名著,自1954年出版至今,多次重印,被譯為多種文字,影響深遠。
在日常的經濟生活中,我們將接觸到越來越多的統(tǒng)計數(shù)據(jù)和資料,例如各種證券信息、投資可行性研究報告、公司財務報告等,這些資料、數(shù)據(jù)如何去偽存真,如何進行鑒別?這本《統(tǒng)計陷阱》回答了這些問題。
豆瓣短評:
達萊爾.哈夫的統(tǒng)計陷阱,原名如何利用統(tǒng)計說謊,雖然是60年前的書,但今天來看依舊很有價值。面對這個信息量巨大的世界,我們每天會碰到大量真假難辨的信息,這就要求我們提高處理信息的能力。很可惜的是,很多人對于網絡上的大量數(shù)據(jù)不問出處不問真假的選擇相信。也許看完這本書之后你會有不同的思考。
By Ahem
《赤裸裸的統(tǒng)計學》
內容簡介:
《赤裸裸的統(tǒng)計學》一書的作者查爾斯•惠倫“扒光”了統(tǒng)計學“沉悶的外衣”,用生活中有趣的案例、直觀的圖表、生動詼諧的語言風格,徹底揭開了統(tǒng)計學、大數(shù)據(jù)和數(shù)字的“神秘面紗”,讓我們知道權威期刊、媒體新聞、民意調研中公布的數(shù)字從何而來,輕松掌握判斷這些統(tǒng)計數(shù)字“是否在撒謊”的秘籍。同時,作者還將統(tǒng)計學的工具帶入日常生活中,告訴我們?yōu)槭裁床灰I彩票,為什么你家附近的商場會知道你懷孕的消息并給你寄來紙尿褲的優(yōu)惠券,等等。
大數(shù)據(jù)時代你必須掌握的統(tǒng)計學知識,全部都在這本書中。從今天開始,好好使用統(tǒng)計學和數(shù)據(jù)吧!
豆瓣短評:
大學時灌輸式的教學并沒有讓我對統(tǒng)計學這門課產生太多的興趣,本著只要通過的念頭對很多統(tǒng)計學的知識了解不夠透徹,翻閱這本書似乎就有了另一番感覺,生動的例子中那些概念類的知識能夠更好的被理解,對于所處的信息爆炸的時代,對各類統(tǒng)計數(shù)據(jù)本身做出的判斷一定是正確的么?當然不,它們也會撒謊。這方面的意識說來也是一個很棒的提高點。
By 微升驟落
《醉漢的腳步》
內容簡介:
《醉漢的腳步:隨機性如何主宰我們的生活》內容簡介:你知道嗎。在去買彩票的路上因車禍身亡的可能性。是彩票中獎的可能性的兩倍!打破了貝比·魯斯本壘打紀錄的奇人羅杰·馬立斯,也非??赡軆H僅是幸運而非偉大!一種葡萄酒被某本刊物給予了五顆星的最高評分,卻被另一本刊物評為一個年代中最差的葡萄酒,這是怎么回事?
在這本顛覆常識又具有啟蒙性的書中,列納德·蒙洛迪諾通過解開偶然性的真實本性。以及導致我們誤判周遭世界的那些心理錯覺。生動地展示了什么是真正有意義的東西。而我們又如何才能在一個更深層次真理的基礎上。來進行我們的決策。
《醉漢的腳步:隨機性如何主宰我們的生活》帶給你的。不僅是在隨機性、偶然性和概率中的一次漫游,還是一個看待世界的全新視角。它同時提醒著我們,生活中的許多事情。大致就如同剛在酒吧待了一夜的家伙那蹣跚的步履一般難以預測。
豆瓣短評:
買了英文版,一直沒看。先看了中文版。由淺入深,由古到今,豐富的實例,不用一個公式,將概率論和數(shù)理統(tǒng)計的基本知識娓娓道來。當年學隨機數(shù)學的時候能碰到這本書就好了。這本書應該再版。
By 甲醇教授
《愛上統(tǒng)計學》
內容簡介:
在經過不斷地摸索以及少量成功大量失敗的嘗試之后,我已經學會了以某種方式教授統(tǒng)計學,我和我的許多學生認為這種方式不會讓人感到害怕,同時能夠傳遞大量的信息。
通過這本書可以了解基礎統(tǒng)計學的范圍并學習所有應該掌握的信息,也可以了解整理和分析數(shù)據(jù)的基本思路和最常用的技術。本書理論部分有一些,但是很少,數(shù)學證明或特定數(shù)學程式的合理性討論也很少。
為什么《愛上統(tǒng)計學》這本書不增加更多理論內容?很簡單,初學者不需要。這并不是我認為理論不重要,而是在學習的這個階段,我想提供的是我認為通過一定程度的努力可以理解和掌握的資料,同時又不會讓你感到害怕而放棄將來選修更多的課程。我和其他老師都希望你能成功。
因此,如果你想詳細了解方差分析中F值的含義,可以從Sage出版社查找其他的好書(我愿意向你推薦書目)。但是如果你想了解統(tǒng)計學為什么以及如何為你所用,這本書很合適。這本書能幫助你理解在專業(yè)文章中看到的資料,解釋許多統(tǒng)計分析結果的意義,并且能教你運用基本的統(tǒng)計過程。
豆瓣短評:
很不錯的統(tǒng)計學的入門書,簡單入上手,尤其是課后習題,必須要一做,讀書不做題,純粹打醬油。 當然,這本書也只是入門,里面的各種檢驗的原理都沒有講。
By 平凡的老魚
《統(tǒng)計數(shù)據(jù)的真相》
內容簡介:
《統(tǒng)計數(shù)據(jù)的真相》讓讀者從另一個角度看待統(tǒng)計數(shù)據(jù)。自從本杰明·迪斯累里(Benjamin Disraelis)談及“世界上有三種謊言:謊言、該死的謊言,還有統(tǒng)計數(shù)據(jù)”之后,相關的俏皮話、諷刺語就不斷地落到可憐的統(tǒng)計學家頭上。這種批評、諷刺雖然“微不足道”,但在某種意義上卻是真實的。之所以說“微不足道”,是因為人們不僅可以使用,而且能夠濫用每一種統(tǒng)計工具,統(tǒng)計數(shù)據(jù)在這里肯定不是孤立無援的,而是具有許多相互關聯(lián)的因素。之所以說“真實”,是因為所有人眼中的世界都是以我們喜歡的方式看到的,而不是世界的客觀本來面目。
豆瓣短評:
沒有看到長篇大論的空談理論,全篇都以短小精煉的事例來展示統(tǒng)計學諸多的不合理應用,閱讀起來一點不覺得枯燥。個人覺得,本書就是教人怎么把糟糕的統(tǒng)計數(shù)據(jù)做的好看,能把一個快倒閉的公司的銷售業(yè)績做成像一個成長中的公司業(yè)績,某種程度上還滿藝術的。
By 蒼紫色月光
《馴服偶然》
內容簡介:
20世紀的哲學家和科學家認為宇宙是概率性的,因而偶然便是實在的。統(tǒng)計定律反映出宇宙的本質,雖然有的事物有其固有的不可預測的一面,但是統(tǒng)計規(guī)律的實在性最終被認為是理性的。本書則通過曲折復雜的歷史佚事反映出統(tǒng)計規(guī)律是何以登堂入室的。內容的豐富使作者的哲學思想難于把握,但正是奮爭在這撲朔迷離之中才是值得一試的。 本書從大尺度上描繪了觀念轉變的過程,彌補了科學社會學中案例研究和標準形式的識知研究的不足。有些論證值得商榷,尤其是哈金描述的“革命”,在我看來,就從未在他所認為的意義下發(fā)生過。但是哈金的思想過于復雜,很難被這些反駁意見所駁倒。關于涂爾干和高爾頓的寫作上,對很難說清的方面把握恰到好處,論證雄辯,這正是本書閃光之處。
豆瓣短評:
一口氣看完。這本書是我偏愛的那種洋洋灑灑,內容繁多的科普著作,從國家實力的判斷到自殺率統(tǒng)計,非常有趣。不過這也是缺點之一,就是不大深入細致。翻譯工作非常貼心,和原著不同的是注解跟在每一章之后,比較方便隨時查閱。
統(tǒng)計學習方法一
拋出問題
我們使用感知機來模擬類似這樣的一個問題:
在一個圍棋棋盤上有許多散亂的棋子,其中有黑子也有白子。已知它們可以被很干凈利落的被分為兩部分,每部分都沒有別的顏色的棋子,這樣作為下棋者我們就可以很愉快的不用再挑棋子放進盒子里了!作為一個強迫癥患者,你希望能直接用手一攬就把其中一部分棋子放入盒中,那么問題就是:手該如何放置才能使得這些棋子立馬被干凈利落的分為兩部分呢?
(這么2的問題可能只有我才想得出了…)
統(tǒng)計學習方法二
問題思考
那么我們就來思考這個問題。首先我們明確情況,在已有條件中,有一個苛刻以及理想化的條件需要注意:散落的棋子可以被很干凈利落的被分為兩份。這里的干凈利落是個不明確的表述,但是基本可以理解為我們可以用“一刀切”的方式把棋子分為兩部分。在數(shù)據(jù)科學里,我們把這個條件稱為數(shù)據(jù) 線性可分 。這是一個非常重要的前提條件。
其次,我們的問題是,我們需要把散落的棋子分為兩部分,那么我們可以認為,這是一個典型的 二分類 問題。
用抽象一些的語言來描述就是,我們需要對整個問題建模,將棋子的散落情況整理成數(shù)據(jù)集D,我們的模型需要學習一個這樣的映射:
y^:R2→C
其中C={−1,+1},R2為數(shù)據(jù)集D的空間。
我們用+1和-1分別表示來過那種棋子的顏色。那么數(shù)據(jù)是什么呢?由于我們是對棋盤上的棋子根據(jù)他們現(xiàn)在的位置來分類,因此我們大可以將每顆棋子在棋盤上的坐標作為采樣數(shù)據(jù)。對于每一個樣本,我們可以得到這樣的一個向量:
x=[x1,x2]
那么我們到底采用什么樣的模型呢?別急,我們再來看問題。
注意我們的關鍵詞——“一刀切”。一刀切我們可以理解為用一條直線把所有棋子構成的整體分為兩個部分。那么,我們的模型只需要描述成一條直線即可。于是有這樣的模型:
y=w⋅x+b
那么直線的參數(shù)又該如何得到呢?我們再來看問題。
由于棋子有兩類,我們要做的是把棋盤上的棋子根據(jù)它們自身現(xiàn)在在棋盤上的位置把它們分為兩類。而我們的目標是 保證每一類的棋子都為相同顏色 ,換句話說,我們希望被直線分割開的兩邊都沒有分錯類的棋子。那么我們就可以得到我們的策略——模型采用的期望風險函數(shù):
Loss(y,y^)=1n∑in=1I(y,y^)
這里n為樣本總量,y^為預測類別,y為實際類別,I為指示函數(shù),若括號內參數(shù)相等則值為0,反之為1。
這是0-1損失函數(shù)的經驗期望風險。
根據(jù)統(tǒng)計學習三要素,我們來看看我們現(xiàn)在問題的梳理情況:
我們有了模型,策略,我們還需要一個算法。
提前劇透一下,我們使用傳統(tǒng)的梯度下降來求解這個問題。至于具體的內容還是先不詳細解釋。寫到這娛樂的部分也該結束了。讓我們回歸理論嚴肅的統(tǒng)計學習。
統(tǒng)計學習方法三
模型
我們用更正式的語言來表達這個問題。
不知讀者看到這里是否想到一個問題。模型使用上述寫的形式是否存在問題?
答案是,確實存在。我只是為了方便初學者從最簡單的數(shù)學知識理解才寫成那樣的形式。那么我們來修正我們的模型:
先來看看問題出在哪兒。從指示函數(shù)考慮,我們在每次求損失的時候,需要判斷當前的實例被分為哪一類,然后再計算損失。
那么該如何判斷被分為了哪一類呢?我們都知道可以根據(jù)是在直線上方還是下方來劃分分類。假如我們指定將直線上方的實例分為+1,反之為-1。但是當數(shù)據(jù)集中,恰好上方的實例都為-1,下方為+1時,我們的數(shù)據(jù)將永遠是誤分類。無論如何調整k都無法完美分類。因為k只控制斜率,b控制截距。但是在考慮分類的時候,我們還有一個地方需要去確定,那就是分類的類標簽。使用上述的直線方程無法表示類標簽。
于是,我們的感知機實際上是這樣來考慮的(真正理論誕生的時候應該是沒有這種問題的吧,應該是直接提出了下面這個模型的):
我們使用一個 超平面 來劃分數(shù)據(jù)空間。超平面是n維歐氏空間中余維度等于一的線性子空間。這是平面中的直線、空間中的平面之推廣。簡單來說指的就是在數(shù)據(jù)空間中一個用w⋅x+b=0來表示的一個平面,其中w與x都是向量,且維數(shù)與數(shù)據(jù)空間相同。
學過立體集合的多知道,w其實就是超平面的法向量,由于是向量,它具有方向,它就可以解決二分類問題中的類標簽的歸屬問題,并且可以很好的將問題推廣至N維情況。
當然,在歷史上應該并不是為了解決類標簽問題才使用超平面的。其實對于一個N維的輸入空間使用一個超平面分割來考慮是一件非常自然的事。
統(tǒng)計學習方法四
策略
解決上面那個很不成樣子的問題時,我們采用的損失函數(shù)為0-1損失函數(shù)。為什么使用0-1損失函數(shù)呢?因為一個很簡單也很符合題意的思路就是:既然要完美把兩部分棋子分開,那我們只要選取使得兩部分棋子中被誤分類的棋子個數(shù)為0不就好了嗎?
順理成章的想法,但是正因為簡單,而產生了一個問題:我們怎么把策略和模型參數(shù)聯(lián)系起來呢?
如果使用0-1損失函數(shù),那么從公事上看我們很難對它做出優(yōu)化??赡苤荒苡靡粋€很暴力的辦法,就是設定一個初始的超平面位置,然后選定一個很小的角度變化量,按照變化量對超平面進行旋轉,每次都計算一次誤分類,直到找到使損失函數(shù)為0的位置為止。有時候甚至肯可能因為變化量不夠小,而導致沒法得到這個角度??上攵@個計算量非常大,而且整個計算過程也不易于優(yōu)化,但同時又有相當多的冗余計算。
那么這時,我們就需要換個思路——改變我們的損失函數(shù)。
由于我們定義用一個超平面來分割我們的數(shù)據(jù),那么我們就該利用好這些相關的性質。很容易想到我們可以用誤分類的點的距離總和來作為損失函數(shù)。
空間中點到平面的距離:
d=1||w|||w⋅x+b|
其中||w||是L~2~范數(shù)(范數(shù)定義的是向量長度的一種計算方式)。
考慮誤分類樣本(x,y),有下式:
−y(w⋅x+b)>0
因此得到距離:
d=1||w||y(w⋅x+b)
因此,得到損失函數(shù):
Loss(w,b)=−∑xi∈Myi(w⋅xi+b)
這里省略L~2~范數(shù),因為對于同一模型它可以看做常數(shù)。這里的M為每次迭代被感知機誤分類的點的集合。
觀察損失函數(shù),我們可以看到損失函數(shù)是一個非負數(shù)。當完美分類時,損失函數(shù)值為0。且該函數(shù)可導,因此我們就可以定一個優(yōu)化目標,用算法對它進行優(yōu)化。
統(tǒng)計學習方法五
算法
這是一個很典型的優(yōu)化問題。通常我們采用梯度下降的辦法來解決這個問題。
所謂梯度下降,就是每次迭代模型參數(shù),我們都向著下降最快的方向進行更新,以此來求解極小值。這樣我們可以快速進行迭代、更新。貌似有個證明,證明梯度下降是一定能夠收斂的。
梯度下降有兩種,一種是批量梯度下降(batch gradient descent),另一種是隨機梯度下降(stochastic gradient decent)。這兩者在我之前發(fā)的關于FTRL的文章里有所介紹,也可以參照網上的資料自行查閱。
簡單來說這兩者算法的區(qū)別就在于批量算法是每次迭代過程掃描所有樣本,在總體損失上進行迭代。隨機梯度下降是每次只根據(jù)單個樣本的損失進行更新。很明顯前者能在理論上收斂到全局最優(yōu),而后者雖然速度快,但是可能收斂于局部最優(yōu)。特別的,當損失函數(shù)的極值分布比較變態(tài)的情況下,隨機梯度下降和批量梯度下降可能都不會有很好的結果。但是通常情況下,我個人更傾向于采用隨機梯度下降,因為它比較快,且效果一般也并不比批量的差,而且對于收斂于局部極值的問題可以考慮通過增加一個逐漸衰減的沖量項使其越過局部極值。當然具體使用哪種可以根據(jù)實際情況而定。
回到感知機,我們確定采用隨機梯度下降來解這個問題。在這個過程中,我們計算整體損失函數(shù)的導數(shù),再 隨機選取一個樣本進行參數(shù)更新。那么首先,我們需要計算出損失函數(shù)對參數(shù)的梯度,從而確定參數(shù)更新公式。對于一個隨機的樣本(x,y):
▽wLoss(w,b)=−∑x∈Myx
▽bLoss(w,b)=−∑x∈My
w=w+ηyx
b=b+ηy
這里η是學習步長的參數(shù),又稱為學習率。在FTRL中我們對這個參數(shù)探討過它的取值問題,在這里無需關注。通常需要頻繁調試它來得到一個較好的學習結果。至于w,我們對它每一維的初值往往會設置隨機的較小值,這樣可以做到“破對稱”,防止每一維因為相同的起始值而導致最后訓練出相同的權值。