學(xué)習(xí)啦>在線閱讀>讀書筆記>

2023年大數(shù)據(jù)時代讀書筆記

時間: 海露0 分享

大數(shù)據(jù)時代成為炙手可熱的話題。筆者在這說明信息和數(shù)據(jù),只是試圖首先說明信息、數(shù)據(jù)的關(guān)系和不同,也試圖說明,為什么信息時代轉(zhuǎn)變?yōu)榱舜髷?shù)據(jù)時代?大數(shù)據(jù)時代帶給了我們什么?下面是為大家精心整理了一些關(guān)于《大數(shù)據(jù)時代》讀書筆記,歡迎查閱。

《大數(shù)據(jù)時代》讀書筆記1

《大數(shù)據(jù)時代》這本書主要描述的是大數(shù)據(jù)時代到臨人們生活、工作與思維各方面所遇到的重大變革。

引言提出了大數(shù)據(jù)將給生活、工作于思維帶來重大的變革。一個例子是2019年H1N1流行病毒背景下谷歌通過檢測檢索詞條,處理了4.5億個不同的數(shù)據(jù)模型,通過預(yù)測并與2019年、2019年美國疾控中心記錄的實際流感病例進行對比后,確定了45條檢索詞條組合,并將其用于一個特定的數(shù)學(xué)模型后,預(yù)測的結(jié)果與官方數(shù)據(jù)的相關(guān)系數(shù)高達97%。按照傳統(tǒng)的信息返回流程,通告新流感病毒病例將有一到兩周的延遲。

對于飛速傳播的疾病,信息滯后兩周是致命的。而谷歌運用大數(shù)據(jù)技術(shù),以前所未有的方式,通過海量數(shù)據(jù)分析得出流感所傳播的范圍,為世界預(yù)測流感提供了一種更快捷的預(yù)測工具。此外,我聯(lián)想到原淘寶董事長馬云通過大量數(shù)據(jù)分析得出2019年經(jīng)濟疲弱,為其商家提前做好迎接經(jīng)濟危機提供了時間緩沖。

關(guān)于大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用, Farecast公司是一個成功的典型范例。該公司由奧倫·埃齊奧尼創(chuàng)辦,利用機票的銷售數(shù)據(jù)來預(yù)測未來的機票價格,旨在幫助用戶在購買機票方面做出預(yù)測,并對機票價格走勢預(yù)測的可信度標示出來供消費者查考。Farecast系統(tǒng)利用近十萬億條價格記錄預(yù)測的準確度達75%,使得使用Farecast票價預(yù)測工具購買機票的旅客,平均每張機票節(jié)約50美元。而處理如此多的數(shù)據(jù)離開了大數(shù)據(jù)技術(shù)將無法進行。

也正是由于我們進入了一個前所未有的信息化時代,人們擁有了如此多的數(shù)據(jù),才提供給我們利用大數(shù)據(jù)的分析處理手段,創(chuàng)造新的價值。也許有人以為我們大數(shù)據(jù)時代的還未來臨。其實大數(shù)據(jù)技術(shù)早已滲透到我們中間,它被應(yīng)用在垃圾郵件的過濾,新浪微博技術(shù)平臺,谷歌翻譯以及輸入文字的自動糾錯等。

文中提出的一個觀點是,預(yù)測是大數(shù)據(jù)的核心。其實從過去的時代人們就利用掌握的數(shù)據(jù)進行各種分析,從而對經(jīng)濟等各方面進行預(yù)測、矯正。只是進入了大數(shù)據(jù)時代人們掌握的數(shù)據(jù)爆炸性的速度在增長,從而數(shù)據(jù)的存儲和分析數(shù)據(jù)分方法成了釋放大數(shù)據(jù)能量的關(guān)鍵。

大數(shù)據(jù)時代是信息化社會發(fā)展必然趨勢,我們只有緊緊跟隨時代發(fā)展的潮流,在技術(shù)上、制度上、價值觀念上做出迅速調(diào)整并牢牢跟進,才能在接下來新一輪的國際競爭中擺脫受制于人的弱勢境地,才能把握發(fā)展的方向,沖破與西方國家的差距。

《大數(shù)據(jù)時代》讀書筆記2

我們生活在一個“概念”紛飛的年代,先前只有IBM熟諳的招數(shù),如今已經(jīng)“飛入平常百姓家”?!耙苿踊ヂ?lián)網(wǎng)”、“云計算”的概念剛剛消停,業(yè)界的專家又送來了“大數(shù)據(jù)”的概念,一時間似乎人人都變成了“大數(shù)據(jù)”專家,見面要是不提“大數(shù)據(jù)”都不好意思跟人打招呼!

玩笑歸玩笑,當(dāng)我們的存儲能力、計算能力和網(wǎng)絡(luò)帶寬變得充裕之后,我們先前對待數(shù)據(jù),尤其是原始數(shù)據(jù)的態(tài)度和思維方式,將面臨著很大的改變!

其實,作者的主要觀點,已經(jīng)在翻譯者的譯者序中進行了總結(jié):“大數(shù)據(jù)時代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果”。

如作者所言,“采樣分析是信息缺乏時代和信息流通受限制的模擬數(shù)據(jù)時代的產(chǎn)物”。如果可以,我們當(dāng)然會使用“全體數(shù)據(jù)”而不是“抽樣數(shù)據(jù)”。讀到這里,我估計大學(xué)里正在絞盡腦汁設(shè)計樣本抽樣方法的學(xué)生、教授們,連哭的心都有!

數(shù)據(jù)分析的及時性,在很多情況下比精確性更加重要,尤其是在商業(yè)領(lǐng)域。想想看,如果需要兩周時間才能計算出明天某個航班的滿座率,那還有什么意義?大數(shù)據(jù)計算技術(shù),適用的不是像衛(wèi)星發(fā)射、開具銀行賬戶這樣的工作,而是不要求極端精確的情況,其核心是“預(yù)測趨勢”,況且原始數(shù)據(jù)也可能出現(xiàn)差錯。

過往千年,探究因果關(guān)系幾乎是所有科學(xué)研究的原動力。甚至,這已經(jīng)通過語言,融入我們的思維方式和哲學(xué)思想:“因為……所以……”,凡事都要問“為什么”。但是,在大數(shù)據(jù)的范疇里,關(guān)注的卻是相關(guān)性,而不是因果關(guān)系,或者其次才是因果關(guān)系。超市只用關(guān)心把啤酒和尿不濕放在一起,會幫助提高銷售額,而不用關(guān)心其中的奧秘。如果說原因,可能很多都是人們的習(xí)慣、方便,甚至是人性,例如奶爸們習(xí)慣買尿不濕的時候給自己捎上幾罐啤酒。

在此,也有一些自己的思考:如果說搜索引擎所解決的問題表面上是幫助用戶找到需要的信息,而實質(zhì)是幫助企業(yè)找到擁有某項需求的客戶,深層次講是解決了《第三次浪潮》中提出的消費者和生產(chǎn)者分離的根本矛盾,如果再加上3D打印技術(shù),就可以完成由消費者主導(dǎo)的“個性化”生產(chǎn)過程;而大數(shù)據(jù)所解決的是,通過對所有用戶的數(shù)據(jù)進行分析,可以預(yù)測用戶群整體的需求變化趨勢,從而完成批量產(chǎn)品生產(chǎn)、銷售的調(diào)整問題,其奇妙之處就在于無需用戶“開口”說出她想要什么?一個解決的“個體需求”,一個解決的是“群體需求”。

本書除了提出上述三項基本觀點,其它的內(nèi)容大多是舉例說明,多少有些空泛。但是,其實大數(shù)據(jù)時代才剛剛開始,對大數(shù)據(jù)的應(yīng)用也只是停留在比較淺的層面上,作者能提出這三項基本觀點已屬難能可貴!

《大數(shù)據(jù)時代》讀書筆記3

舍恩伯格的《大數(shù)據(jù)時代》被人推崇為2019最佳書籍,今年安泰讀書會的重頭戲。雖然主講人最后放了個香港大黃鴨般的鴿子,但現(xiàn)場討論氛圍依舊非常熱烈——而且還是在沒幾個人讀完的情況下,也就意味著——大數(shù)據(jù)對我們的影響,已經(jīng)深入到生活的方方面面。這本書對這個大規(guī)模產(chǎn)生、分享和應(yīng)用數(shù)據(jù)的新的大時代進行了闡述和厘清,作者圍繞“要全體不要抽樣、要效率不要絕對精確、要相關(guān)不要因果”三大理念,通過數(shù)十個商業(yè)和學(xué)術(shù)案例,剖析了萬事萬物數(shù)據(jù)化和數(shù)據(jù)復(fù)用挖掘的巨大價值。

無處不在的大數(shù)據(jù):各種云計算,谷歌的神通,亞馬遜的推送,天涯人肉,微博萬能等等等等,我們掌握了新的工具,也獲取了以前從未有過的各種信息。大數(shù)據(jù)拉近了我們與現(xiàn)實的距離,“地球村”變成了“地球屋”,仿佛所有人所有事物都觸手可及,而這些牛逼哄哄的互聯(lián)網(wǎng)巨頭就在客廳展示著世界的每一寸光景。如作者所言“大數(shù)據(jù)開啟了一次重大時代轉(zhuǎn)型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們看清微生物一樣,大數(shù)據(jù)要改變的是,我們的生活方方面面以及理解世界的方式”。比如,谷歌通過全球搜索分析,比國際疾病控防中心更早更準地預(yù)測了流感爆發(fā)。

然而,事實真的是這樣嗎?首先,從應(yīng)用角度出發(fā),低廉的運算能力和存儲空間,讓以前的樣本分析顯得非常簡陋——一些從全體數(shù)據(jù)挖掘出來,忽略精確而從大量數(shù)據(jù)的簡單算法得出來的結(jié)論顛覆了常識。但個人覺得,這只是統(tǒng)計學(xué)的終極目標——并沒有非常大的跨越,可能終結(jié)了回歸分析,有效性驗證等手段,但依舊還是統(tǒng)計。而革命性在于關(guān)注相關(guān)關(guān)系而非因果關(guān)系?,F(xiàn)場討論從神學(xué)角度挑戰(zhàn)了因果關(guān)系的不可能——或者說人類用簡單思考的邏輯來定義因果,以及用之前小數(shù)據(jù)演繹出大概率事件來推導(dǎo)因果,都是不正確的。真正的因果關(guān)系應(yīng)該屬于上帝的范疇,人類如果真的完全掌握之后,會統(tǒng)治整個宇宙。

但我覺得,無需從神學(xué)觀點來討論,而可以借鑒量子力學(xué)對經(jīng)典力學(xué)的顛覆——在原子層面上,經(jīng)典力學(xué)會失效——那么在大數(shù)據(jù)層面上,普通的抽樣調(diào)查直觀反映會失效。而且從量子力學(xué)角度是很難推導(dǎo)經(jīng)典力學(xué)的公式,那么從現(xiàn)在的慣有思維,也難以推導(dǎo)出大數(shù)據(jù)的因果關(guān)系。同時現(xiàn)場有討論,是否計算機可以精確地模擬每個原子,然后完整地展現(xiàn)微觀到宏觀的化學(xué)反應(yīng)細節(jié)?我覺得首先是計算能力不足,其次即便設(shè)定原子的運動條件真的正確,計算結(jié)果未知但宏觀結(jié)果我們卻已經(jīng)知道——牛頓的經(jīng)典力學(xué)足以應(yīng)付日常絕大部分情況了。好比切西瓜,究竟刀頭的鐵原子和西瓜的有機分子如何作用,真的重要嗎?回歸到商業(yè)領(lǐng)域,如果我們可以提高相關(guān)性的準確度,從而提高投入效率,那就已經(jīng)足夠了。本來一個產(chǎn)品受到一半客戶喜歡,但如果通過大數(shù)據(jù)挖掘到更好的定位,有百分之八十的客戶喜歡,那么價值已經(jīng)非??捎^了。

大數(shù)據(jù)時代的社會倫理——很大的命題,但重點都在討論如何保護個人隱私。因為手機越來越智能,網(wǎng)絡(luò)越來越快,個人的信息也越來越透明——隱形幾乎完全不可能。我想說的是,作為硬幣的另外一面,我們無法舍棄:互聯(lián)網(wǎng)只不過是讓人與人之間碎片的關(guān)系得以統(tǒng)一,其實各種人肉和信息只不過是坊間傳聞的升級罷了。當(dāng)我們住在擁擠的小區(qū),三公里走完一圈的縣城,半小時散步完的村落,人和人之間有隱私嗎?現(xiàn)在只不過是把這個范圍放大到了一個地球而已。硬幣的一面是人和人之間有溝通的需要,去團結(jié)對抗世界的未知,那么另外一面就是隱私的缺乏。與其說是要在大數(shù)據(jù)時代保護自己的信息不被泄露,不如站起來維護自己和他人的隱私,從法律和道德的角度來尊重人與人之間的權(quán)利。在一個互相尊重的環(huán)境下,你可以穿熱褲,他也可以穿長裙走上街頭;在一個互相踐踏的社會中,人人都得帶著面具生活。

在思維變革部分,作者講述的重點是:樣本=總體,我們需要對全部數(shù)據(jù)的占有和分析;因此,數(shù)據(jù)缺乏時代的精確性不必執(zhí)迷,接受混雜基于大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效;樣本推斷的因果關(guān)系不重要了,知道“是什么”的相關(guān)關(guān)系,或者結(jié)果就可以了。對于我自己最受用的是什么呢?是大數(shù)據(jù)的產(chǎn)業(yè)鏈。產(chǎn)業(yè)鏈包括大數(shù)據(jù)平臺、大數(shù)據(jù)技術(shù)提供方、大數(shù)據(jù)理念提供方。我認為大數(shù)據(jù)平臺是整個產(chǎn)業(yè)鏈條的核心,沒有數(shù)據(jù),再好的技術(shù)和理念都會是無米之炊。那么大數(shù)據(jù)平臺在當(dāng)前的中國社會有哪些呢?所有的互聯(lián)網(wǎng)公司,物聯(lián)網(wǎng)公司,物流,快消品等等,實際上任何公司都是數(shù)據(jù)平臺公司,只不過之前沒有好好的利用數(shù)據(jù),而更多的是用經(jīng)驗來管理公司和迎合客戶需求?,F(xiàn)在不一樣了,我們完全可以用數(shù)據(jù)來驅(qū)動公司管理和客戶管理,畢竟數(shù)據(jù)是不會騙人的。

大數(shù)據(jù)幫助我們把未來的迷霧撥開了一點,但好比《沉重的肉身》當(dāng)中討論的,更多的選擇權(quán)并不能帶給人幸?!驗橹雷约翰荒茏霾荒艿玫降囊哺嗔?。解決工作模式,生存意義,幸福之道等問題,關(guān)鍵還是看自己如何看待和使用這些新式工具以及新結(jié)論。引用《神探伽利略》里面的臺詞:可被重復(fù)的,一定有道理存在。那么現(xiàn)在重復(fù)的越來越多,更需要保持探索和敬畏之心,人才不會迷路。

《大數(shù)據(jù)時代》讀書筆記4

這兩年,大數(shù)據(jù),云計算的思想就像小蘋果的音樂一樣,傳的到處都是,每一個公司不管是互聯(lián)網(wǎng)公司還是傳統(tǒng)企業(yè),都標榜自己的大數(shù)據(jù)。

1、實體物聯(lián)網(wǎng)與虛擬物聯(lián)網(wǎng)

曾幾何時,物聯(lián)網(wǎng)的概念鬧得風(fēng)生水起,龐大的物聯(lián)網(wǎng)能夠讓世間大量的物體,都能夠被檢測 并聯(lián)網(wǎng),包括了人、車、房等一切能夠被聯(lián)網(wǎng)的物體,這些物體都能夠以種方式被感知他的存在,并對其信息記錄在案,以供使用。在若干年前,這還是一種看似遙不可及的事物,要對每個物體都貼上一個所謂的RFID的標簽,顯得不切實際。如今,隨著手機的大量使用,人類本身也被加入了物聯(lián)網(wǎng)中。為什么要物聯(lián)網(wǎng)?是為了獲取什么?要知道物聯(lián)網(wǎng)獲取了什么,只需要看看在一個物體在沒有加入物聯(lián)網(wǎng)與加入物聯(lián)網(wǎng)之后,我們多出了哪些東西便能夠知曉。那么,很明顯,我們需要通過某種方式來獲取該物體的信息,這種存儲下來的信息,就叫做——數(shù)據(jù)。

物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)是實體的物品之間的信息,而現(xiàn)在的互聯(lián)網(wǎng)上,占最大數(shù)據(jù)量的,是虛擬物品,或者叫做網(wǎng)絡(luò)虛擬物品。由于網(wǎng)絡(luò)物體是直接寄生于網(wǎng)絡(luò),具有能夠方便的接入網(wǎng)絡(luò)的特征,因此,在獲取實體物體信息還有一定難度的時期,占有很大優(yōu)勢。但今后實體的物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量一定會不斷增加,或許,能夠超越網(wǎng)絡(luò)上的物物相連數(shù)據(jù)量。

網(wǎng)絡(luò)的廣泛使用,使得信息的產(chǎn)生于傳遍變得容易,每個接入網(wǎng)絡(luò)的人都以一定的角色存在,都是網(wǎng)絡(luò)的信息的創(chuàng)造者。對于所產(chǎn)生的信息而言,每個接入網(wǎng)絡(luò)的人又身兼多角,對于網(wǎng)絡(luò)服務(wù)商,他是網(wǎng)絡(luò)使用者的角色;對于門戶網(wǎng)站而言,他是使用的用戶;對于社交網(wǎng)站而言,我們則扮演一個虛擬或者真實的網(wǎng)絡(luò)角色;對于瀏覽器而言,他是一系列的瀏覽網(wǎng)頁、一些列鼠標動作的角色… 不同的角色取決于對方需要從我們的行為中獲取哪些信息。將網(wǎng)絡(luò)上各種角色看成是虛擬的物體,那么,這種虛擬物體構(gòu)成的虛擬物聯(lián)網(wǎng)便產(chǎn)生了巨大的數(shù)據(jù)量。經(jīng)歷過一直以來缺乏信息獲取渠道的日子,現(xiàn)在,既然信息獲取變得如此容易,那么,必然迎來信息量暴增的時代——大數(shù)據(jù)時代。

2、思維的轉(zhuǎn)變

技術(shù)的改變,使得我們思維方式也要隨之發(fā)生變化。在過去的小數(shù)據(jù)時代,由于獲取信息、存儲信息、整理信息都是費時費力的活,我們只能精打細算,捉摸著如何以最小的代價、最快的方式來收集盡可能準確的信息。之所以會有抽樣統(tǒng)計的方式,是受技術(shù)所限,無法獲得全體的樣本,或者就算獲取了也無法在合理的時間內(nèi)進行處理。由于信息獲取代價大,使得我們不得不在獲取信息前,就把一切都想清楚,才能夠著手處理。這就像在計算機出現(xiàn)的初期,使用紙袋來編碼的時期,一次出錯的代價太大,所以人們不得不在輸入前將代碼驗證過無數(shù)遍之后才敢輸入到機器中。而現(xiàn)代計算機讓編碼的效率大大提升,這才使得人們能夠創(chuàng)造出更加強大的軟件。人們不需要在著手編碼前就對代碼過分深思熟慮,因為機器會幫助你解決一些問題。因此,那些擔(dān)心由于獲取數(shù)據(jù)太方便,進行數(shù)據(jù)處理、分析代價太小而使人們變得懶惰或者做事欠考慮的家伙,真是杞人憂天。歷史上,技術(shù)的進步都會提升人類的生產(chǎn)力,但卻沒有讓人們變得懶惰,因為與此同時,欲望也隨之增長。人類只會變得更偉大。

因此,大數(shù)據(jù)時代,這個數(shù)據(jù)更加全面的時代,我們可以涉足一些之前由于缺乏數(shù)據(jù)而無法涉及的領(lǐng)域,例如——預(yù)測。這是一個令人興奮的領(lǐng)域,但其實這個領(lǐng)域早有苗頭,而且大家都是受益者。我們平時使用的輸入法中的智能聯(lián)想功能,能夠根據(jù)我們之前輸入的文字,來預(yù)測我們接下來有可能輸入的文字,以節(jié)省我們的輸入時間。這種算法里,沒有人工智能,而只有人們大量的輸入習(xí)慣的統(tǒng)計,通過大量數(shù)據(jù)的統(tǒng)計來預(yù)測,是一個統(tǒng)計學(xué)的方式而非加入了特有的規(guī)則或者邏輯。這便引出了在大數(shù)據(jù)時代,對于信息處理的一種重要方式,基于統(tǒng)計,得出不同個體的相關(guān)關(guān)系,卻無需了解其因果關(guān)系,而我們則受益于相關(guān)關(guān)系。這種方式,看似有些投機取巧,卻能夠在關(guān)鍵時刻令我們處于優(yōu)勢地位。我們已經(jīng)習(xí)慣了先知道某些事物的因果邏輯,繼而推斷出相應(yīng)的結(jié)果。但世間總會有一些令人無法用合理的邏輯進行解釋的現(xiàn)象,若通過大數(shù)據(jù)分析,我們能夠跳過邏輯階段直接享用某些一些結(jié)果(沃爾瑪?shù)钠【萍幽虿及咐?,豈不樂哉。當(dāng)然,嚴密的邏輯永遠是值得尊敬的。

3、互聯(lián)網(wǎng)的黏性

在經(jīng)歷過了從廣度上通過新花樣來吸引用戶的時代,由于技術(shù)的提高,一個創(chuàng)業(yè)者在一個新的領(lǐng)域開辟的東西很容易被其他人所復(fù)制。在這個時候,深度很重要。特別是購物網(wǎng)站、微薄、門戶網(wǎng)站這類信息量大的網(wǎng)站,越是了解一個用戶,優(yōu)勢就越大。所以,在技術(shù)已經(jīng)不是最重要的因素的時代,如何增加用戶的黏性、忠誠度便是首要的。通過用戶之前的信息,來推測用戶的喜好,給用戶推薦相應(yīng)的信息或物品。當(dāng)你越了解一個用戶,而別人卻不了解時,這個用戶就越離不開你。微薄中有他的智能排序功能、新聞門戶中有“今日頭條”應(yīng)用,各類購物網(wǎng)站有他的推薦算法(但這個純粹為了增加消費而非增加用戶黏性),都能夠根據(jù)用戶之前的瀏覽、偏好來給出相應(yīng)的推薦。這些的基礎(chǔ),都是擁有用戶的行為記錄,否則,都無從談起。

在手機這個拼硬件的時代,單純靠硬件來取勝已經(jīng)很難了。硬件靠組裝、軟件靠安卓,手機廠商已經(jīng)變得沒有核心競爭力。而三星為了增加用戶黏性,所做的便是為用戶提供更加貼心的服務(wù),不僅做手機,還做平臺,將用戶的各類數(shù)據(jù)記錄在他的平臺中,而這數(shù)據(jù),必將大有作為。然后,如果哪天,三星也出智能體重計、智能手表這類產(chǎn)品,那么也不稀奇了。各類數(shù)據(jù)同步、整合,為使用者提供各方面貼心的服務(wù),很酷吧。

各行各業(yè),都在瘋狂的抓緊時機,獲取數(shù)據(jù),擁有足量的數(shù)據(jù),那一切就變得皆有可能。

《大數(shù)據(jù)時代》讀書筆記5

這本書里主要介紹的是大數(shù)據(jù)在現(xiàn)代商業(yè)運作上的應(yīng)用,以及它對現(xiàn)代商業(yè)運作的影響。

《大數(shù)據(jù)時代》這本書的結(jié)構(gòu)框架遵從了學(xué)術(shù)性書籍的普遍方式。也既,從現(xiàn)象入手,繼而通過對現(xiàn)象的解剖提出對這一現(xiàn)象的解釋。然后在通過解釋在對未來進行預(yù)測,并對未來可能出現(xiàn)的問題提出自己看法與對策。

下面來重點介紹《大數(shù)據(jù)時代》這本書的主要內(nèi)容。

《大數(shù)據(jù)時代》開篇就講了Google通過人們在搜索引擎上搜索關(guān)鍵字留下的數(shù)據(jù)提前成功的預(yù)測了20--年美國的H1N1的爆發(fā)地與傳播方向以及可能的潛在患者的事情。Google的預(yù)測比政府提前將近一個月,相比之下政府只能夠在流感爆發(fā)一兩個周之后才可以弄到相關(guān)的數(shù)據(jù)。同時Google的預(yù)測與政府?dāng)?shù)據(jù)的相關(guān)性高達97%,這也就意味著Google預(yù)測數(shù)據(jù)的置信區(qū)間為3%,這個數(shù)字遠遠小于傳統(tǒng)統(tǒng)計學(xué)上的常規(guī)置信區(qū)間5%!而這個數(shù)字就是大數(shù)據(jù)時代預(yù)測結(jié)果的相對準確性與事件的可預(yù)測性的最好證明!通過這一事以及其他的案例,維克托提出了在大數(shù)據(jù)時代“樣本=總體”的思想。我們都知道當(dāng)樣本無限趨近于總體的時候,通過計算得到的描述性數(shù)據(jù)將無限的趨近于事件本身的性質(zhì)。而之前采取的“樣本<總體”的做法很大程度上無法做到更進一步的描述事物,因為之前的時代數(shù)據(jù)的獲取與存儲處理本身有很大的難度只導(dǎo)致人們采取抽樣的方式來測量事物。而互聯(lián)網(wǎng)終端與計算機的出現(xiàn)使數(shù)據(jù)的獲取、存儲與處理難度大大降低,因而相對準確性更高的“樣本=總體”的測算方式將成為大數(shù)據(jù)時代的主流,同時大數(shù)據(jù)時代本身也是建立在大批量數(shù)據(jù)的存儲與處理的基礎(chǔ)之上的。

接下來,維克多又通過了IBM追求高精確性的電腦翻譯計劃的失敗與Google只是將所有出現(xiàn)過的相應(yīng)的文字語句掃描并儲存在詞庫中,所以無論需要翻譯什么,只要有聯(lián)系Google詞庫就會出現(xiàn)翻譯,雖然有的時候的翻譯很無厘頭,但是大多數(shù)時候還是正確的,所以Google的電腦翻譯的計劃的成功,表明大數(shù)據(jù)時代對準確性的追求并不是特別明顯,但是相反大數(shù)據(jù)時代是建立在大數(shù)據(jù)的基礎(chǔ)住上的,所以大數(shù)據(jù)時代追求的是全方位覆蓋的數(shù)字測度而不管其準確性到底有多高,因為大量的數(shù)據(jù)會湮埋少數(shù)有問題的數(shù)據(jù)所帶來的影響。同時大量的數(shù)據(jù)也會無限的逼近事物的原貌。

之后,維克托又預(yù)測了一個在大數(shù)據(jù)時代催生的重要職業(yè)——數(shù)據(jù)科學(xué)家,這是一群數(shù)學(xué)家、統(tǒng)計學(xué)與編程家的綜合體,這一群人將能夠從獲取的數(shù)據(jù)中得到任何他們想要的結(jié)果。換言之,只要數(shù)據(jù)充足我們的一切外在的與內(nèi)在的我們不想讓他人知道的東西都見會在這一群家伙的面前展現(xiàn)得淋漓盡致。所以為了避免個人隱私在大數(shù)據(jù)時代被這一群人利用,維克托建議將這一群人分為兩部分,一部分使用數(shù)據(jù)為商業(yè)部門服務(wù),而另一群人則負責(zé)審查這一些人是否合法的獲得與應(yīng)用數(shù)據(jù),是否侵犯了個人隱私。

無論如何,大數(shù)據(jù)時代將會到來,不管我們接受還是不接受!

我覺得《大數(shù)據(jù)時代》這本書寫的很好,很值得一讀。因為會給我們很多啟發(fā),比如你在相關(guān)的社交網(wǎng)站發(fā)表的言論或者照片都很有可能被“數(shù)據(jù)科學(xué)家”們利用,從而再將相關(guān)數(shù)據(jù)賣給各大網(wǎng)店。不過,事實就是我們將會成為被預(yù)測被引誘的對象。所以說,小心你在網(wǎng)上留下的痕跡。

我喜歡這本書是因為它給我展現(xiàn)了一個新的世界。

2021年大數(shù)據(jù)時代讀書筆記相關(guān)文章

大數(shù)據(jù)時代讀后感范文

大數(shù)據(jù)時代讀書心得體會

774080