機器學習(Machine Learning) 介紹

機器學習(Machine Learning) 介紹
由於機器學習技術的進步,應用相當廣泛,例如推薦引擎、定向廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識別、手寫識別..等等。

您可以先看下列影片,有一些概念



機器學習架構
機器學習(Machine Learning)是透過演算法,使用歷史資料進行訓練,訓練完成後會產生模型。未來當有新的資料,我們可以使用訓練產生的模型進行預測。
機器學習的訓練的資料是由 featureslabel組成。
  • features資料的特徵,例如:濕度、風向、風速、季節、氣壓。
  • label 資料的標籤,也就是我們希望預測的目標例如:降雨(0:不會下雨、1:會下雨)、天候( 1:晴天、2:雨天、3:陰天、4:下雪)、氣溫。

如下圖,機器學習可分為2 階段:



  • 訓練階段(Training):


訓練資料是過去累積的歷史資料,可能是文字檔、資料庫、或其他來源,經過Feature Extraction(特徵萃取),產生Feature(資料特徵)與Label(預測目標),然後經過機器學習演算法訓練後產生模型。

  • 預測階段(Predict):
新輸入資料(可能文字檔、資料庫、或其他來源),經過Feature Extraction(特徵萃取)產生Feature(資料特徵),使用訓練完成的模型進行預測,最後產生預測結果。




機器學習分類:
 機器學習可分為: 監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning)、增強式學習(Unsupervised Learning)。以下詳細介紹其分類
  •   監督式學習(Supervised Learning)
監督式學習的資料,具備特徵(features)與預測目標(label),透過演算法,訓練並建立模型。當有新的資料,我們就可以使用模型進行預測。有下列分類又可以細分如下
  •  二元分類
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天是否會下雨(0.不會下雨、1.會下雨)。因為希望預測的目標label,只有2種選項,這就好像非題。
  •  多元分類
我們已知:濕度、風向、風速、季節、氣壓.資料特徵,希望預測當天天氣(1.晴天、2.雨天、3.陰天、4.下雪)。因為希望預測的目標label,有多個選項,就好像選擇題。
  •  回歸分析
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天氣溫。因為希望預測的目標label是連續的值,就好像是計算題。


  • 非監督式學習(Unsupervised Learning)
 但是對於非監督式學習(Unsupervised Learning),從現有資料我們不知道要預測的答案,所以沒有label(預測目標)。cluster集群分析的目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高。
  • 強化學習(Reinforcement Learning)
 增強式學習的原理,藉由定義:動作(Actions)、狀態(States)、獎勵(Rewards)的方式,不斷訓練機器循序漸進,學會執行某項任務的演算法。例如:訓練機器玩超級瑪莉電玩,動作:左/右/跳,狀態:目前遊戲的畫面,獎勵:得分/受傷,藉由不斷訓練,學會玩遊戲。常見的演算法: Q-learning、TD (Temporal Difference),常用於動態系統及機器人控制。


我們可以整理如下列表格:
分類
細分類
Features
(特徵)
Label
(預測目標)
監督式學習
Binary Classification
二元分類
濕度、風向、風速、季節、氣壓...
只有01選項(是非題)
0:不會下雨、1:會下雨
監督式學習
Multi-Class Classification
多元分類
濕度、風向、風速、季節、氣壓...
有多個選項(選擇題)
1:晴天、2:雨天、3:陰天、4:下雪
監督式學習
Regression
回歸分析
濕度、風向、風速、季節、氣壓...
值是數值(計算題)
溫度可能是 -5050度的範圍
非監督式學習
Clustering
群集
濕度、風向、風速、季節、氣壓...
label
Cluster集群分析;目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高
強化學習
Q-learning、 TD (Temporal Difference)

強化學習的原理,藉由定義:動作(Actions)、狀態(States)、獎勵(Rewards)的方式,不斷訓練機器循序漸進,學會執行某項任務的演算法。
機器學習分類,可以整理如下圖:




以上內容節錄自這本書,很適合Python程式設計師學習Spark機器學習與大數據架構,點選下列連結查看本書詳細介紹:
  Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
  http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html

《購買本書 限時特價專區》
博客來網路書店: http://www.books.com.tw/products/0010730134?loc=P_007_090

天瓏網路書店: https://www.tenlong.com.tw/items/9864341537?item_id=1023658
  

PChome個人賣場免運(作者簽名):http://seller.pcstore.com.tw/S149783177/C1115178907.htm
兩書合購 *75折* 又免運:http://seller.pcstore.com.tw/S149783177/C1115202736.htm 


Share on Google Plus

About kevin

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

2 意見:

  1. 這是我看見的標題:由於機器學習技術的進步,應用相當廣泛,例如推薦引擎、定向廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識別、手寫識別..等等。及操作行

    我想請教您,對於“ 資料 ” 兩字的操作行定義及描述行定義,您能否不吝分享指導?
    期待您的回覆,感謝您。

    回覆刪除
  2. 增強式學習(Unsupervised Learning)-> (Reinforcement Learning)

    回覆刪除