Spark 的核心是 RDD ( Resilient Distributed Dataset )彈性分散式資料集,是由 AMPLab 實驗室所提出的概念,屬於一種分散式的記憶體。 Spark 主要優勢是來自 RDD 本身的特性。 RDD 能與其他系統相容,可以匯入外部儲存系統的...
Read More
Home / Archive for 9月 2015
第8章 Apache Spark 安裝指令
8.1 安裝scala Step1~4 下載安裝 Scala wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz tar xvf scala-2.11.6.tgz sudo mv scala-2.1...
Read More
第5章 Hadoop 2.6 Multi Node Cluster安裝指令
Hadoop Multi Node Cluster規劃如下圖, 由多台電腦組成: 有一台主要的電腦master,在HDFS擔任NameNode角色,在MapReduce2(YARN)擔任ResourceManager角色 有多台的電腦data1、data2、data3...
Read More
訂閱:
文章
(
Atom
)