第9章. Spark RDD介紹與範例指令 kevin 晚上9:43:00 Add Comment Edit Spark 的核心是 RDD ( Resilient Distributed Dataset )彈性分散式資料集,是由 AMPLab 實驗室所提出的概念,屬於一種分散式的記憶體。 Spark 主要優勢是來自 RDD 本身的特性。 RDD 能與其他系統相容,可以匯入外部儲存系統的... Read More
第8章 Apache Spark 安裝指令 kevin 凌晨4:48:00 8 Comments Edit 8.1 安裝scala Step1~4 下載安裝 Scala wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz tar xvf scala-2.11.6.tgz sudo mv scala-2.1... Read More
第6章. Hadoop HDFS命令介紹 kevin 下午6:25:00 1 Comment Edit 6.1 啟動Hadoop Multi-Node Cluster start-all.sh 6.2 建立與查看HDFS目錄 Step1 建立HDFS目錄 hadoop fs -mkdir /user hadoop fs -mkdir /user/hduser hado... Read More
第5章 Hadoop 2.6 Multi Node Cluster安裝指令 kevin 清晨7:42:00 6 Comments Edit Hadoop Multi Node Cluster規劃如下圖, 由多台電腦組成: 有一台主要的電腦master,在HDFS擔任NameNode角色,在MapReduce2(YARN)擔任ResourceManager角色 有多台的電腦data1、data2、data3... Read More