大數據:規劃、實施、運維(簡體書)
商品簡介
作者簡介
序
當你拿到這本書就對了。大數據,大數據,多大算大呢?當所要處理的數據量超過了現有的計算環境的數據處理能力時,就是大數據了。它可以是ZB、EB、PB、TB級的,也可以是GB級的。當然,如果你的資金足夠充裕,可以買得起TB級的內存、上百個處理器插槽以及海量的存儲設備,那對別人來說是大數據,對你而言可能就只是小數據了。
大數據本身就是人類求知的過程,從數字,到數據,到信息,到知識,再到知識的運用,而後,優劣有別的運用結果又反饋到數據中,周而復始。其實,大數據所面臨的場景只有兩種:已知和未知。在已知的場景下需要累積大量的樣本,或者,在有公認規則的前提下―如棋藝類,按照規則自己生成樣本,AlphaZero就屬這一類。而未知的場景就只能是做預測了。預測究竟能有多准?或許“Most likely”是最保險的答案。大數據既沒有預測到美國總統特朗普的當選,也沒有準確預測到埃博拉,沃爾瑪也從未把啤酒和尿不濕放在一起。預測不准是常態,預測准是概率事件。
國內的IT熱潮一波接著一波,儼然就像一場場運動。先是雲計算,接著又是大數據。各路玩家都想追一下這些時髦熱詞的風潮,生怕趕不上,紛紛試著尋找將大數據整合到自身IT系統中的可能性。而原本的IT公司和從業者更是絞盡腦汁地想要在大數據業務中開拓新的市場。媒體對大數據產業未來幾年的發展更是持有過熱的描述,甚至對2020年的大數據產業規模給出了5萬億元的驚人估值,充滿了Big Data = IT的味道。
在此背景下,一大批冠以大數據標題的書籍上架。就當前每年出版的大數據書籍的性質與數量來看,多數都屬通俗類、科普類以及吸引眼球的讀物範疇。有些大數據著作中充滿著“正確的廢話”,而在真正意義上具有實踐價值的內容少而又少。然而,其中並不乏受到熱捧的作品。
這也在一定程度上反映出讀者的求知心理:希望只需遵循一定的閱讀捷徑,就能消化掌握相關的技術,成為高手。然而,在閱讀完眾多所謂的技術類書籍後,讀者卻並不能收穫到預期的效果。要麼只模模糊糊地“見森林見不到樹木”,要麼又好像“摸到了樹木見不到森林”,越來越迷茫。
究其原因,這類書籍並未本著科學的理念來傳播可用於實踐的知識與技術,更多的是為了迎合熱點話題,以一種美化的甚至扭曲的形式來對新技術做介紹,缺乏嚴謹性和實用性,缺乏將技術以“科學知識”的高度進行傳授的態度,更少了如何將技術落地到實處的關鍵內容,甚至很多書是作者為了提升職稱和賺取稿酬等目的而拼湊的。當然,寫書也是一門營生,追逐熱潮沒有錯,可是過熱的“泡沫來,泡沫往”卻並不可取。對新技術的學習應該落到實處,切不可以訛傳訛,Be careful with what you read,就是這個意思。
事實上,大數據的應用實情或許並不像許多例子中所描述的那樣可以用來當興奮劑。現階段對大數據,從概念到應用,連認識都不清晰,更談不上數據挖掘的深度。此時如果不對大數據有一個嚴謹客觀的傳授,可能會使讀者在理解上產生謬誤、從路線上走偏,甚至當前已經出現了不少對大數據認識的誤區。可以發現,眾多談大數據的書籍中反復引用著幾個所謂“經典”的例子,其實只不過是作者們的想像,經不起推敲。甚至一些例子所談論的情況與大數據這個詞匯一點關係都沒有,譬如廉價機票、啤酒和尿不濕等。
今天再談大數據,應該先摒棄盲目樂觀以及炒作的成分。如果還是停留在反復談論具有吸引眼球效果的數字和示例(如穀歌預測流感、奧巴馬競選總統等)上,談論便失去了意義。
大數據或大數據技術就是工具。要讓工具用得好,首先得用對地方,其次要會正確地使用。
基於以上認識,身為一線的數據從業者,作者深感為大數據從業者提供系統的正確的知識與觀念正當其時。本書即是在此背景下編寫的,旨在根據作者個人多年的從業經驗和心得,從科學知識的高度出發,一步步幫助讀者將大數據變成看得見摸得著的東西,使之有效實施,真正落地成為有用的工具。
除技術層面的內容外,本書立足於大數據的實踐和商業價值,從規劃、實施到運維來進行闡述。本書在構想與撰寫時,遵循了以下原則。
在對象方面,本書兼顧專業化與大眾化,且遵循著可以將本書作為研究生課程教材的撰寫原則,在知識的深度和廣度上,一方面與高校專業教育水準相符合,另一方面也進階到大數據專業從業者水準。此外,大數據作為當前的IT技術熱點,也是大眾非常想瞭解的領域。為適應大眾讀者的需要,也為了使大數據技術可以獲得更廣泛的推廣,本書力求要使普通讀者也能夠理解吸收。因此在取材與撰寫時,除在文字上深入淺出外,在用例方面也儘量運用合適的例子把事情說清說透。事實上,本書的大部分內容曾用在作者為華中師範大學和上海交通大學碩士、博士研究生開設的大數據科學應用課程中,收到了良好的反饋。
在內容方面,本書採用將學術性與實用性相結合且更突出實用性的原則。大數據技術可以算作一種理論性的學科技術,需要重視對其所包含理論的探討。在大數據範疇內,涉及包括統計學、人工智能等在內的各類專業知識,就連大數據這個詞本身也是一個含義紛呈、範圍甚廣、概念抽象的名詞。而在大數據技術的另一個層面上,它又是與實踐緊密聯繫的,多數讀者希望通過學習大數據書籍來解決最實際的大數據軟硬件平臺及應用的建設問題,而且大數據這一概念本身也是從實際的數據行業需求中產生出來的。因此,本書在內容上,力求結合理論與實際,既探討必要的理論知識,給予讀者正確的概念,又重視實踐的各個環節。
在架構方面,本書採用專門性與普遍性均衡原則。就知識範圍而言,大數據技術是多種技術的組合,從單一的需求出發點可以分化到涉及大數據規劃、實施、運維全生命週期的各個不同的細分技術環節。本書內容注重大數據技術中的普通知識與深入的專業技術之間的均衡,以指引有志從事大數據行業的讀者,在普通知識之外,找到自己感興趣的方向。為達到這一目標,本書的編排涉及大數據的各個環節,並對每個環節的各細分方向都做了由淺入深的專題介紹。
所謂God creates the numbers, men do the rest。自從有人類文明以來就有了數字,進而有了數據,甚至可以說就有了大數據。為什麼今天把大數據提到如此的高度呢?這和數據的產生量以及相應的處理能力(軟的、硬的)是分不開的。中國的智能手機用戶數量居全球第一,企業的數量也居全球第一,隨著IT業的推進和滲透,每時每刻都有海量的數據產生和被保存,這也正是大數據在中國發展的基礎。利用好大數據技術,瞭解數據、管理數據、共享數據、使用數據,可方便人們的日常生活,有助於企業打破信息孤島,有效地融合各方面的信息,從而為合作夥伴的選擇、供應鏈的管理、目標市場的鎖定等提供定量的決策依據。
除論述大數據是什麼、能做什麼外,更側重的是怎麼做。本書以“用戶關係管理(Customer Relationship Management,CRM)”這一企業級應用場景為例,這也是目前大數據應用為數不多的成功案例,深入、細緻、完整地展示大數據的各個環節。緊扣如何利用大數據來實現以用戶行為來指導銷售推送以及生產決策的過程,也就是“推薦系統”,力求使讀者能真正將大數據落地於實踐。
本書立足于作者所處企業的案例和產品,結合流行的開源軟件(Hadoop、Spark等),實打實地談大數據,並給出了一手的市場情況以及真實的數據。全書從規劃到實施再到運維,系統、全面地幫助讀者把握大數據落地的各個環節,瞭解大數據的全貌。大數據的實踐是與業務密切關聯的,本書以一個實際的大數據項目為專題,將書中講述的規劃、實施、運維穿針引線,Put it all together,向讀者完整展示大數據實踐過程,拉近讀者與大數據的距離,讓大數據理念切實與讀者的工作相結合。
在市場環境下,任何技術都要圍繞商戰的“三匹老馬”(價格、質量、服務)以及經濟社會的三個主要環節(生產、流通、消費)來發展。對於各個企業的大數據活動而言,其目的是尋找一條利用大數據來提高自身業務運作效率、維繫現有客戶、擴大新客戶群的路線,從而達到以大數據促進產業鏈並實現精准客戶管理的效果,做到向數據要效益。直白地說,就是怎樣通過多渠道、多維度獲取有用的用戶消費行為數據,對其進行建模分析,從而做出決策來服務現有的用戶,通過給用戶推薦其感興趣的相關產品以達到精准營銷,挖掘已有客戶的價值。而大數據的高級階段則是―設計出新的產品。
本書在撰寫中秉持以下觀點。
1)大數據的定義應該是多層次的。狹義的大數據停留在技術處理的層面;而廣義的大數據則包含了大數據產業鏈的各個環節所提供的產品和服務;泛義的大數據擴展到每個細分的行業大數據中,成為“數據+”;偽義大數據則以營銷為目的,雖不可避免地包含了一部分炒作的成分,但也確確實實起到了一定的推廣效用,是一股不可低估的市場力量。
2)做好大數據和做成任何一件事情一樣,只有三種方法:Work hard,Work smart,Getting help。Work hard體現在對處理單元性能的提升上,Work smart則是對算法的改進,Getting help是指借助多個處理單元以集群的思維來解決對超大規模數據集的處理。
3)大數據的處理過程可形成一個持續提升的迭代閉環。由原始的數據開始,大數據先將其處理為信息,進而利用算法抽取出其中所蘊含的知識,知識的正確運用可以幫助決策,最終知識的集成和梳理就可以晉升為智慧和文化。而在開展決策實踐的過程中,還會產生新的數據,即,數字―數據―信息―知識―應用―數據。因此,上述過程又會進入新的一輪,並不斷提升,也就是所謂的波浪式前進、螺旋式上升。
4)大數據並非一次技術的跳躍式飛升。多數IT技術領域在相當長的一段時間內並未出現劃時代的本質變化,其技術增強點大都集中在計算能力(
目次
主題書展
更多主題書展
更多書展本週66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。