大數(shù)據(jù)已經(jīng)成為這個(gè)時(shí)代的標(biāo)志,如何理解和運(yùn)用大數(shù)據(jù),也是我們這個(gè)時(shí)代的重中之重。今天,小編從“實(shí)戰(zhàn)”和“拓展”兩個(gè)方向,為各位推薦幾本書,希望能夠有助于你在大數(shù)據(jù)方面的學(xué)習(xí)。實(shí)戰(zhàn)篇
《集體智慧編程》作者:[美]TOBY SEGARAN 翻譯:莫映 / 王開福 本書由StuQ/InfoQ大數(shù)據(jù)專家交流群傾力推薦。本書以機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)為主題背景,專門講述如何挖掘和分析Web上的數(shù)據(jù)和資源,如何分析用戶體驗(yàn)、市場營銷、個(gè)人品味等諸多信息,并得出有用的結(jié)論,通過復(fù)雜的算法來從Web網(wǎng)站獲取、收集并分析用戶的數(shù)據(jù)和反饋信息,以便創(chuàng)造新的用戶價(jià)值和商業(yè)價(jià)值。全書內(nèi)容翔實(shí),包括協(xié)作過濾技術(shù)(實(shí)現(xiàn)關(guān)聯(lián)產(chǎn)品推薦功能)、集群數(shù)據(jù)分析(在大規(guī)模數(shù)據(jù)集中發(fā)掘相似的數(shù)據(jù)子集)、搜索引擎核心技術(shù)(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息并進(jìn)行分析統(tǒng)計(jì)得出結(jié)論的優(yōu)化算法、貝葉斯過濾技術(shù)(垃圾郵件過濾、文本過濾)、用決策樹技術(shù)實(shí)現(xiàn)預(yù)測和決策建模功能、社交網(wǎng)絡(luò)的信息匹配技術(shù)、機(jī)器學(xué)習(xí)和人工智能應(yīng)用等。本書是Web開發(fā)者、架構(gòu)師、應(yīng)用工程師等的絕佳選擇。
《數(shù)據(jù)挖掘?qū)д摗?/b>作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar 翻譯:范明 / 范宏建 本書全面介紹了數(shù)據(jù)挖掘,涵蓋了五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外,每個(gè)主題都有兩章。前一章涵蓋基本概念、代表性算法和評估技術(shù),而后一章討論高級概念和算法。這樣讀者在透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)的同時(shí),還能夠了解更多重要的高級主題。
《Hadoop The Definitive Guide》作者: [美] Tom White本書是學(xué)習(xí)Hadoop的權(quán)威指南,是您縱情享用數(shù)據(jù)之美的得力助手。作為處理海量數(shù)據(jù)集的理想工具,Apache Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用,是Google(谷歌)開創(chuàng)其帝國的重要基石。本書內(nèi)容豐富,展示了如何使用Hadoop構(gòu)建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運(yùn)行Hadoop集群。本書完全通過案例學(xué)習(xí)來展示如何用Hadoop解決特殊問題,如果您擁有海量數(shù)據(jù),無論是GB級還是PB級,Hadoop都是完美的選擇。本書是這方面最全面的參考。
《大數(shù)據(jù)技術(shù)叢書·Hadoop技術(shù)內(nèi)幕》作者:蔡斌,陳湘平,董西城全球首部Hadoop YARN專著,資深Hadoop技術(shù)專家根據(jù)最新版本撰寫,ChinaHadoop和51CTO等專業(yè)技術(shù)社區(qū)聯(lián)袂推薦!從應(yīng)用角度系統(tǒng)講解YARN的基本庫和組件用法、應(yīng)用程序設(shè)計(jì)方法、YARN上流行的各種計(jì)算框架,以及多個(gè)類YARN的開源資源管理系統(tǒng)。從源代碼角度深入分析YARN的設(shè)計(jì)理念與基本架構(gòu)、各個(gè)組件的實(shí)現(xiàn)原理,以及各種計(jì)算框架的實(shí)現(xiàn)細(xì)節(jié)。從源代碼角度深入分析MapReduce的設(shè)計(jì)理念,以及RPC框架、客戶端、JobTracker、TaskTracker和Task等運(yùn)行時(shí)環(huán)境的架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理。深入探討Hadoop性能優(yōu)化、多用戶作業(yè)調(diào)度器、安全機(jī)制、下一代MapReduce框架等高級主題。
《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》作者:Peter Harrington翻譯:李銳/李鵬/曲亞東/王斌機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中一個(gè)極其重要的研究方向,在現(xiàn)今的大數(shù)據(jù)時(shí)代背景下,捕獲數(shù)據(jù)并從中萃取有價(jià)值的信息或模式,成為各行業(yè)求生存、謀發(fā)展的決定性手段,這使得這一過去為分析師和數(shù)學(xué)家所專屬的研究領(lǐng)域越來越為人們所矚目。本書第一部分主要介紹機(jī)器學(xué)習(xí)基礎(chǔ),以及如何利用算法進(jìn)行分類,并逐步介紹了多種經(jīng)典的監(jiān)督學(xué)習(xí)算法,如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機(jī)、AdaBoost集成方法、基于樹的回歸算法和分類回歸樹(CART)算法等。第三部分則重點(diǎn)介紹無監(jiān)督學(xué)習(xí)及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機(jī)器學(xué)習(xí)算法的一些附屬工具。全書通過精心編排的實(shí)例,切入日常工作任務(wù),摒棄學(xué)術(shù)化語言,利用高效的可復(fù)用Python代碼來闡釋如何處理統(tǒng)計(jì)數(shù)據(jù),進(jìn)行數(shù)據(jù)分析及可視化。通過各種實(shí)例,讀者可從中學(xué)會機(jī)器學(xué)習(xí)的核心算法,并能將其運(yùn)用于一些策略性任務(wù)中,如分類、預(yù)測、推薦。另外,還可用它們來實(shí)現(xiàn)一些更高級的功能,如匯總和簡化等。
《大規(guī)模分布式存儲系統(tǒng)》作者:楊傳輝《大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》是分布式系統(tǒng)領(lǐng)域的經(jīng)典著作,由阿里巴巴高級技術(shù)專家“阿里日照”(OceanBase核心開發(fā)人員)撰寫,陽振坤、章文嵩、楊衛(wèi)華、汪源、余鋒(褚霸)、賴春波等來自阿里、新浪、網(wǎng)易和百度的資深技術(shù)專家聯(lián)袂推薦。理論方面,不僅講解了大規(guī)模分布式存儲系統(tǒng)的核心技術(shù)和基本原理,而且對谷歌、亞馬遜、微軟和阿里巴巴等國際型大互聯(lián)網(wǎng)公司的大規(guī)模分布式存儲系統(tǒng)進(jìn)行了分析;實(shí)戰(zhàn)方面,首先通過對阿里巴巴的分布式數(shù)據(jù)庫OceanBase的實(shí)現(xiàn)細(xì)節(jié)的深入剖析完整地展示了大規(guī)模分布式存儲系統(tǒng)的架構(gòu)與設(shè)計(jì)過程,然后講解了大規(guī)模分布式存儲技術(shù)在云計(jì)算和大數(shù)據(jù)領(lǐng)域的實(shí)踐與應(yīng)用。《大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》內(nèi)容分為四個(gè)部分:基礎(chǔ)篇——分布式存儲系統(tǒng)的基礎(chǔ)知識,包含單機(jī)存儲系統(tǒng)的知識,如數(shù)據(jù)模型、事務(wù)與并發(fā)控制、故障恢復(fù)、存儲引擎、壓縮/解壓縮等;分布式系統(tǒng)的數(shù)據(jù)分布、復(fù)制、一致性、容錯(cuò)、可擴(kuò)展性等。范型篇——介紹谷歌、亞馬遜、微軟、阿里巴巴等著名互聯(lián)網(wǎng)公司的大規(guī)模分布式存儲系統(tǒng)架構(gòu),涉及分布式文件系統(tǒng)、分布式鍵值系統(tǒng)、分布式表格系統(tǒng)以及分布式數(shù)據(jù)庫技術(shù)等。實(shí)踐篇——以阿里巴巴的分布式數(shù)據(jù)庫OceanBase為例,詳細(xì)介紹分布式數(shù)據(jù)庫內(nèi)部實(shí)現(xiàn),以及實(shí)踐過程中的經(jīng)驗(yàn)。專題篇——介紹分布式系統(tǒng)的主要應(yīng)用:云存儲和大數(shù)據(jù),這些是近年來的熱門領(lǐng)域,本書介紹了云存儲平臺、技術(shù)與安全,以及大數(shù)據(jù)的概念、流式計(jì)算、實(shí)時(shí)分析等。拓展篇
《大數(shù)據(jù)時(shí)代》作者:[英]維克托·邁爾-舍恩伯格,[英]肯尼思·庫克耶翻譯:盛楊燕,周濤不用說了,肯定是這本書。讀完這本書,要求你形成大數(shù)據(jù)的概念,即知道這么幾點(diǎn):1、絕不是有很多數(shù)據(jù)就叫大數(shù)據(jù);2、大數(shù)據(jù)是一種數(shù)據(jù)分析方式,與傳統(tǒng)數(shù)據(jù)分析方式有著本質(zhì)上的不同;3、大數(shù)據(jù)的特點(diǎn)是“關(guān)注相關(guān)性,不關(guān)注因果”,這是大數(shù)據(jù)最核心的東西,一定要真正理解,并牢牢記住,不然你就很容易被別人忽悠;4、大數(shù)據(jù)采用的是統(tǒng)計(jì)的方法;5、大數(shù)據(jù)主要是結(jié)合人工智能進(jìn)行機(jī)器的自動數(shù)據(jù)挖掘;6、大數(shù)據(jù)主要是用來作預(yù)測的。而不是象一般的數(shù)據(jù)分析,只是分析出歷史情況和現(xiàn)狀,未來還是要靠人去預(yù)測,大數(shù)據(jù)則是直接告訴你未來的結(jié)果。
《失控》作者:[美]凱文·凱利翻譯:東西文庫為什么是這本書呢?學(xué)完初級階段要記住的幾件事還沒忘吧?對,用統(tǒng)計(jì)的方法,而不是因果的方法,預(yù)測未來。在對預(yù)測機(jī)制進(jìn)行剖析的時(shí)候,法默最喜歡用這個(gè)例子來進(jìn)行說明:「來,接著!」他說著就朝你扔過來一個(gè)棒球。你抓住了球。「你知道你是怎么接住這個(gè)球的嗎?」,他問道?!竿ㄟ^預(yù)測?!褂胒=ma(公式)來預(yù)測,或者說線性預(yù)測,就是通過因果推理來進(jìn)行預(yù)測,即根據(jù)球的質(zhì)量、加速度等等因素,找出這個(gè)球?yàn)槭裁磿哪莻€(gè)地方飛到這個(gè)地方的原因;而“歸納”即是“統(tǒng)計(jì)”的意思,或者說是較粗略的統(tǒng)計(jì),歸納是不問原因的,接住這個(gè)球就完了,管它是什么原因。你想成為大數(shù)據(jù)高手,你想用統(tǒng)計(jì)的方法來對某些東西進(jìn)行預(yù)測? 好了,現(xiàn)在你來告訴我,還有什么理由不去好好讀這本書?
《爆發(fā)》作者: [美] 艾伯特-拉斯洛·巴拉巴西 翻譯:馬慧本書是一本超越《黑天鵝》的驚世之作。如果說塔勒布認(rèn)為人類行為是隨機(jī)的,都是小概率事件,是不可以預(yù)測的;那么全球復(fù)雜網(wǎng)絡(luò)權(quán)威Barabasi則認(rèn)為,人類行為93%是可以預(yù)測的。Barabasi的研究是在人類生活數(shù)字化的大數(shù)據(jù)時(shí)代基礎(chǔ)上進(jìn)行的,移動電話、網(wǎng)絡(luò)以及電子郵件使人類 行為變得更加容易量化,將我們的社會變成了一個(gè)巨大的數(shù)據(jù)庫。他認(rèn)為,人類正處在一個(gè)聚合點(diǎn)上,在這里數(shù)據(jù)、科學(xué)以及技術(shù)都聯(lián)合起來共同對抗那個(gè)最大的謎題——我們的未來。在本書中,Barabasi揭開人類行為背后隱藏的模式“爆發(fā)”,提出人類日常行為模式不是隨機(jī)的,而是具有“爆發(fā)性”的。爆發(fā)揭開了人類行為中令人驚訝的深層次的秩序,使得人類變得比預(yù)期中更容易預(yù)測得多。爆發(fā)模式的揭示,其影響力將與20世紀(jì)初期的物理學(xué)或者基因革命的影響力不相上下。
《數(shù)學(xué)之美》作者:吳軍幾年前,“數(shù)學(xué)之美”系列文章原刊載于谷歌黑板報(bào),獲得上百萬次點(diǎn)擊,得到讀者高度評價(jià)。讀者說,讀了“數(shù)學(xué)之美”,才發(fā)現(xiàn)大學(xué)時(shí)學(xué)的數(shù)學(xué)知識,比如馬爾可夫鏈、矩陣計(jì)算,甚至余弦函數(shù)原來都如此親切,并且栩栩如生,才發(fā)現(xiàn)自然語言和信息處理這么有趣。今年,作者吳軍博士幾乎把所有文章都重寫了一遍,為的是把高深的數(shù)學(xué)原理講得更加通俗易懂,讓非專業(yè)讀者也能領(lǐng)略數(shù)學(xué)的魅力。讀者通過具體的例子學(xué)到的是思考問題的方式 —— 如何化繁為簡,如何用數(shù)學(xué)去解決工程問題,如何跳出固有思維不斷去思考創(chuàng)新。
《復(fù)雜性》作者:[美]尼古拉斯·雷舍爾翻譯:吳彤你接觸到了一件事,“復(fù)雜性”,知道了事情復(fù)雜到一定程度,就不可能用尋找因果的方法去進(jìn)行預(yù)測。那么到底什么是復(fù)雜性,它的本質(zhì)和原理是什么?想成為大數(shù)據(jù)高手,你不能對此一無所知,因?yàn)槟銓⒁惠呑优c復(fù)雜甚至是極其復(fù)雜的事情打交道。推薦這本書還有個(gè)原因。大家都知道大數(shù)據(jù)是研究數(shù)據(jù)的相關(guān)性,即找出數(shù)據(jù)之間的關(guān)系。當(dāng)我經(jīng)歷了15年統(tǒng)計(jì)學(xué)人工智能數(shù)據(jù)相關(guān)性的探索和研究,感覺已經(jīng)研究得差不多了,但又覺得要解決所有的問題還有不小的距離,這時(shí)就感到很迷茫,不知下一步的研究該往何方去,有種路越走越窄的感覺,又有一種達(dá)到頂峰的幻覺,直到看到這本書中的一句話:“可以考慮它們的關(guān)系,再考慮這些關(guān)系中的關(guān)系,如此下去?!贝蠹仪f不要小看這句話中的“如此下去”幾個(gè)字,他指明了一個(gè)無窮疊代,即 “關(guān)系的關(guān)系的……關(guān)系”,而智能將在這里涌現(xiàn),解決復(fù)雜性問題預(yù)測的關(guān)鍵很可能就在這里,這句話打開了一個(gè)非常廣闊的前景,將象宇宙一樣沒有窮盡。
《量子物理史話》作者:曹天元你一定有疑問,“這本書就能讓我改變世界觀?”那么我們就來看看書中說些什么吧:量子世界的本質(zhì)是“隨機(jī)性”。傳統(tǒng)觀念中的嚴(yán)格因果關(guān)系在量子世界是不存在的,必須以一種統(tǒng)計(jì)性的解釋來取而代之,波函數(shù)ψ就是一種統(tǒng)計(jì),它的平方代表了粒子在某處出現(xiàn)的概率。當(dāng)我們說“電子出現(xiàn)在x處”時(shí),我們并不知道這個(gè)事件的“原因”是什么,它是一個(gè)完全隨機(jī)的過程,沒有因果關(guān)系。因果性必須死,因?yàn)槲锢韺W(xué)需要生!停止?fàn)幷摪?,上帝真的擲骰子!隨機(jī)性是世界的基石,當(dāng)電子出現(xiàn)在這里時(shí),它是一個(gè)隨機(jī)的過程,并不需要有誰給它加上難以忍受的條條框框?!y(tǒng)計(jì)規(guī)律則把微觀上的無法無天抹平成為宏觀上的井井有條?!浴读孔游锢硎吩挕贰敖y(tǒng)計(jì)規(guī)律則把微觀上的無法無天抹平成為宏觀上的井井有條”,這句話實(shí)際上就是表明,統(tǒng)計(jì)方法可以使極其復(fù)雜的隨機(jī)事件成為可預(yù)測。我認(rèn)為,社會、市場、股票等等與量子世界有著很多相似之處。由于量子理論實(shí)際上是從最本質(zhì)上去研究我們存在于其中的這個(gè)世界,因此正如書中的一句話:“這個(gè)世界的本質(zhì):它本就是統(tǒng)計(jì)性的!
《統(tǒng)計(jì)自然語言處理基礎(chǔ)》作者:[美]Christopher D. Manning[德]hinrich Schutze翻譯:苑春法 李慶中 王昀 李偉 曹德芳等你可能有一個(gè)疑問,為什么是“語言”,這有兩個(gè)原因:第一,在計(jì)算機(jī)專業(yè),數(shù)據(jù)并不僅僅是指數(shù)字,文字、圖片、聲音、視頻等都叫數(shù)據(jù);第二,語言比數(shù)字難很多,如果你能處理語言,那處理純數(shù)字就容易很多。你可能還有一個(gè)疑問,統(tǒng)計(jì)自然語言處理與一般的自然語言處理有什么本質(zhì)不同之處?統(tǒng)計(jì)自然語言處理是更接近自然的自然語言處理方式(繞口令?),也就是說更接近我們?nèi)说奶幚矸绞剑踔量梢哉f就是人或自然的處理方式,只是人的大腦處理方式更復(fù)雜而已,但本質(zhì)是一樣的。讀完了這本書,不代表你就成為大數(shù)據(jù)高手了,實(shí)際上它只是為你打下基礎(chǔ)知識,真正掌握大數(shù)據(jù)的方法,需要你在這個(gè)基礎(chǔ)上去探索或者說悟出來。