購買本書
博客來書店 http://www.books.com.tw/products/0010695285
感謝讀者支持,本書在博客來書店電腦資訊類
2016 2月 銷售排行第1名
2016 3月 銷售排行第1名
大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分
析後,就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾
病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基
於資料和分析的結果,而不是依靠經驗和直覺。
資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是
社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作
與生活方式的改變,創造大量商機、新的產業、大量的工作機會。像是在網路時代,
創造了Google、Amazon 等大公司,以及無數.com 公司。
每一波浪潮開始時,需求的相關人才最多,但是此時也是相關人才供應最少。因
此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重
要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方面的人才不
夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人
越來越多,這方面的工程師就沒有那麼吃香了。
之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但
是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的
商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美
元。機會是給有準備的人,學會了大數據分析的相關技能,讓你有機會獲得更好的
薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美
國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新台幣429 萬
元~594 萬元)。因為人才短缺,企業不惜重金挖角。(你可以在google 搜尋Robert
Half Technology 2016 就可以下載此調查報告)
本書的主題是Haddop+Spark 大數據分析與機器學習。Hadoop 大家已經知道是運
用最多的大數據平台,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,
各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬
名資料科學家。Google 與微軟也分別應用了Spark 的功能來建置服務、發展大數
據分析雲端與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用
Hadoop+Spark 進行大數據資料分析。
然而目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網
路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再
加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據
與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希
望讀者能透過本書有了基本概念後,比較容易踏入這門領域,能繼續深入研究其他
大數據的相關技術。
本書特色
本書的特色是提供大量實機操作與範例程式
實機操作
一般人可能會認為大數據需要很多台機器的環境才能學習,但是透過本書介紹使用Virtual Box虛擬機器,就能在自家電腦演練建立Hadoop叢集,並且建立Spark開發環境。並且實機操作介紹Hadoop MapReduce與HDFS基本概念,以及Spark RDD與MapReduce基本觀念。
範例程式
以實際範例程式來學習程式設計,是最有效率的方式。因此本書使用實際的資料集,配合範例程式碼來介紹各種機器學習演算法,並示範如何擷取資料、訓練資料、建立模型、預測結果,由淺而深介紹Spark機器學習。
本書章節內容及實機操作與範例程式介紹
基本概念介紹
章節名稱
|
說明
|
1.大數據與機器學習
|
介紹大數據、Hadoop、HDFS、MapReduce、Spark、機器學習
|
介紹Hadoop的安裝
章節名稱
|
說明
|
2.Virtual Box虛擬機器軟體安裝
|
實機操作
安裝Virtual
Box虛擬機器,讓你可以在Windows系統上安裝多台Linux虛擬機器
|
3.Ubuntu Linux的作業系統安裝
|
實機操作
安裝Ubuntu
Linux作業系統
|
4.Hadoop Single Node Cluster 安裝
|
實機操作
安裝單一機器Hadoop Single Node Cluster
|
5.Hadoop Multi Node Cluster安裝
|
實機操作
安裝多台機器Hadoop Multi Node Cluster
|
介紹Hadoop基本功能
章節名稱
|
說明
|
6.Hadoop HDFS命令介紹
|
實機操作
示範如何使用HDFS命令
|
7.Hadoop MapReduce介紹
|
介紹Hadoop
MapReduce原理
WordCount.java範例程式
示範使用Hadoop MapReduce計算文章內的每一個字出現次數
|
Spark基本功能介紹
章節名稱
|
說明
|
8.Spark安裝介紹
|
實機操作
Spark安裝與示範spark-shell互動介面在不同環境中執行
|
9.Spark RDD介紹
|
實機操作
介紹Spark最基本功能RDD(Resilient Distributed Dataset)彈性分散式資料集的基本運算
|
10.Spark整合開發環境介紹
|
實機操作
安裝整合式開發環境(IDE)
WordCount.scala範例程式
示範使用Spark MapReduce計算文章內的每一個字出現次數
|
機器學習(推薦引擎)
章節名稱
|
說明
|
11.建立推薦引擎
|
介紹如何使用Spark Mllib以MovieLens資料集,建立電影的推薦引擎(Recommendation Engine)
Recommend.scala範例程式
示範如何資料擷取、訓練模型、推薦使用者或電影,建立電影的推薦系統
AlsEvalution.scala範例程式
示範如何調校推薦引擎參數,找出最佳參數組合
|
機器學習(二元分類)
章節名稱
|
說明
|
12.StumbleUpon資料集介紹
|
StumbleUpon資料集是屬於二元分類問題,可以根據網頁的特徵,預測那些網頁是暫時性或可以長久存在的
|
13.決策樹二元分類
|
RunDecisionTreeBinary.scala範例程式
示範如何使用決策樹二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
|
14.邏輯迴歸二元分類
|
RunLogisticRegressionWithSGDBinary.scala範例程式
示範如何使用決策樹二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
|
15.支持向量機器SVM二元分類
|
RunSVMWithSGDBinary.scala範例程式
示範如何使用支持向量機器SVM二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
|
16.單純貝氏二元分類
|
RunNaiveBayesBinary.scala範例程式
示範如何使用單純貝氏(Naïve-Bayes)二元分類,分析StumbleUpon資料集,預測那些網頁是暫時性或可以長久存在的,並且找出最佳參數組合,提高預測準確度
|
機器學習(多元分類)
章節名稱
|
說明
|
17.決策樹多元分類
|
RunDecisionTreeMulti.scala範例程式
示範如何使用決策樹多元分類,分析Covtype資料集(森林覆蓋樹種),根據不同的土地條件可以預測該地的樹種,並且找出最佳參數組合,提高預測準確度
|
機器學習(迴歸分析)
章節名稱
|
說明
|
18.決策樹迴歸分析
|
RunDecisionTreeRegression.scala範例程式
示範介紹決策樹迴歸,分析Bike Sharing資料集。根據天氣假日條件,可以預測每一個小時租借的數量,並且找出最佳參數組合,提高預測準確度。
|
資料視覺化
章節名稱
|
說明
|
19.使用Apache Zeppelin資料視覺化
|
實機操作
安裝Zeppelin與並使用ml-100k資料集,示範使用Spark SQL進行資料分析與資料視覺化
|
購買本書
博客來書店 http://www.books.com.tw/products/0010695285
感謝讀者支持,本書在博客來書店電腦資訊類
2016 2月 銷售排行第1名
2016 3月 銷售排行第1名
0 意見:
張貼留言