Apache Spark 是用於大規模資料處理的整合分析引擎,內建 SQL、串流、機器學習和圖形處理等多種模組。Spark 可在 Apache Hadoop、Kubernetes、獨立部署或雲端環境中執行,處理各種資料來源。這項服務提供豐富的 Java、Scala、Python (PySpark) 和 R API,可供廣大開發人員和資料科學家使用。
在 Google Cloud,Apache Spark 轉型為「資料至 AI」平台。Google Cloud 提供無伺服器選項和 Lightning Engine 等突破性效能強化功能,解決傳統 Spark 部署作業的「調優稅」問題。透過與統一資料和 AI 平台深度整合,使用者能以前所未有的速度,將原始資料轉化為 AI 輔助的行動。
常會有人問 Apache Spark 和 Apache Hadoop 的個別使用時機,Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業,而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構。Spark 是一個快速的通用型叢集運算引擎,可以部署在 Hadoop 叢集中或獨立模式下。瞭解每種工具的特性,將有助於根據工作負載的延遲和記憶體需求決定實作項目。
Spark 生態系統包括五個主要元件,每個元件都透過 Google Cloud 的基礎架構獲得強化:
Google Cloud 提供專屬環境,滿足資料專業人員的獨特需求: