Apache Spark是開放原始碼的叢集運算框架,由加州大學柏克萊分校的AMPLab開發。Spark是一個彈性的運算框架,適合做Spark Streaming資料流處理、Spark SQL互動分析、ML Lib機器學習等應用,因此Spark可成為一個用途廣泛的大數據運算平台...
Read More
Home / Archive for 2015
第19章 使用Apache Zeppelin資料視覺化指令整理
Zeppelin由NFLAB開發提供了web介面,類似ipython的notebook,可做為資料分析與資料視覺化,支援Apache Spark Scala, Apache Spark Python, SparkSQL, Hive, Markdown and Shell。Ze...
Read More
第9章. Spark RDD介紹與範例指令
Spark 的核心是 RDD ( Resilient Distributed Dataset )彈性分散式資料集,是由 AMPLab 實驗室所提出的概念,屬於一種分散式的記憶體。 Spark 主要優勢是來自 RDD 本身的特性。 RDD 能與其他系統相容,可以匯入外部儲存系統的...
Read More
訂閱:
文章
(
Atom
)