Hadoop+Spark大數據巨量分析與機器學習程式開發實戰

Hadoop+Spark大數據巨量分析與機器學習程式開發實戰



購買本書


 博客來書店 http://www.books.com.tw/products/0010695285

感謝讀者支持,本書在博客來書店電腦資訊類
2016 2月 銷售排行第1名  
2016 3月 銷售排行第1名

大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分
析後,就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾
病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基
於資料和分析的結果,而不是依靠經驗和直覺。

資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是
社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作
與生活方式的改變,創造大量商機、新的產業、大量的工作機會。像是在網路時代,
創造了Google、Amazon 等大公司,以及無數.com 公司。

每一波浪潮開始時,需求的相關人才最多,但是此時也是相關人才供應最少。因
此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重
要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方面的人才不
夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人
越來越多,這方面的工程師就沒有那麼吃香了。

之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但
是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的
商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美
元。機會是給有準備的人,學會了大數據分析的相關技能,讓你有機會獲得更好的
薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美
國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新台幣429 萬
元~594 萬元)。因為人才短缺,企業不惜重金挖角。(你可以在google 搜尋Robert
Half Technology 2016 就可以下載此調查報告)

本書的主題是Haddop+Spark 大數據分析與機器學習。Hadoop 大家已經知道是運
用最多的大數據平台,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,
各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬
名資料科學家。Google 與微軟也分別應用了Spark 的功能來建置服務、發展大數
據分析雲端與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用
Hadoop+Spark 進行大數據資料分析。

然而目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網
路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再
加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據
與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希
望讀者能透過本書有了基本概念後,比較容易踏入這門領域,能繼續深入研究其他
大數據的相關技術。


本書特色
本書的特色是提供大量實機操作與範例程式
實機操作
一般人可能會認為大數據需要很多台機器的環境才能學習,但是透過本書介紹使用Virtual Box虛擬機器,就能在自家電腦演練建立Hadoop叢集,並且建立Spark開發環境。並且實機操作介紹Hadoop MapReduceHDFS基本概念,以及Spark RDDMapReduce基本觀念。

範例程式
以實際範例程式來學習程式設計,是最有效率的方式。因此本書使用實際的資料集,配合範例程式碼來介紹各種機器學習演算法,並示範如何擷取資料、訓練資料、建立模型、預測結果,由淺而深介紹Spark機器學習。

 本書章節內容及實機操作與範例程式介紹
基本概念介紹
章節名稱
說明
1.大數據與機器學習
介紹大數據、HadoopHDFSMapReduceSpark、機器學習
介紹Hadoop的安裝
章節名稱
說明
2.Virtual Box虛擬機器軟體安裝
實機操作
安裝Virtual Box虛擬機器,讓你可以在Windows系統上安裝多台Linux虛擬機器
3.Ubuntu Linux的作業系統安裝
實機操作
安裝Ubuntu Linux作業系統
4.Hadoop Single Node Cluster 安裝
實機操作
安裝單一機器Hadoop Single Node Cluster
5.Hadoop Multi Node Cluster安裝
實機操作
安裝多台機器Hadoop Multi Node Cluster
介紹Hadoop基本功能
章節名稱
說明
6.Hadoop HDFS命令介紹
實機操作
示範如何使用HDFS命令
7.Hadoop MapReduce介紹
介紹Hadoop MapReduce原理
WordCount.java範例程式
示範使用Hadoop MapReduce計算文章內的每一個字出現次數
Spark基本功能介紹
章節名稱
說明
8.Spark安裝介紹
實機操作
Spark安裝與示範spark-shell互動介面在不同環境中執行
9.Spark RDD介紹
實機操作
介紹Spark最基本功能RDDResilient Distributed Dataset)彈性分散式資料集的基本運算
10.Spark整合開發環境介紹
實機操作
安裝整合式開發環境(IDE
WordCount.scala範例程式
示範使用Spark MapReduce計算文章內的每一個字出現次數

機器學習(推薦引擎)
章節名稱
說明
11.建立推薦引擎
介紹如何使用Spark MllibMovieLens資料集,建立電影的推薦引擎(Recommendation Engine)
Recommend.scala範例程式
示範如何資料擷取、訓練模型、推薦使用者或電影,建立電影的推薦系統
AlsEvalution.scala範例程式
示範如何調校推薦引擎參數,找出最佳參數組合

機器學習(二元分類)
章節名稱
說明
12.StumbleUpon資料集介紹
StumbleUpon資料集是屬於二元分類問題,可以根據網頁的特徵,預測那些網頁是暫時性或可以長久存在的
13.決策樹二元分類
RunDecisionTreeBinary.scala範例程式
示範如何使用決策樹二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
14.邏輯迴歸二元分類
RunLogisticRegressionWithSGDBinary.scala範例程式
示範如何使用決策樹二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
15.支持向量機器SVM二元分類
RunSVMWithSGDBinary.scala範例程式
示範如何使用支持向量機器SVM二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
16.單純貝氏二元分類
RunNaiveBayesBinary.scala範例程式
示範如何使用單純貝氏(Naïve-Bayes)二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度

機器學習(多元分類)
章節名稱
說明
17.決策樹多元分類
RunDecisionTreeMulti.scala範例程式
示範如何使用決策樹多元分類,分析Covtype資料集(森林覆蓋樹種),根據不同的土地條件可以預測該地的樹種,並且找出最佳參數組合,提高預測準確度

機器學習(迴歸分析)
章節名稱
說明
18.決策樹迴歸分析

RunDecisionTreeRegression.scala範例程式
示範介紹決策樹迴歸,分析Bike Sharing資料集。根據天氣假日條件,可以預測每一個小時租借的數量,並且找出最佳參數組合,提高預測準確度。

資料視覺化
章節名稱
說明
19.使用Apache Zeppelin資料視覺化
實機操作
安裝Zeppelin與並使用ml-100k資料集,示範使用Spark SQL進行資料分析與資料視覺化





購買本書


 博客來書店 http://www.books.com.tw/products/0010695285

感謝讀者支持,本書在博客來書店電腦資訊類
2016 2月 銷售排行第1名  
2016 3月 銷售排行第1名
Share on Google Plus

About kevin

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

0 意見:

張貼留言