什麼是 Apache Spark?

Apache Spark 是用於大規模資料處理的整合分析引擎,內建 SQL、串流、機器學習和圖形處理等多種模組。Spark 可在 Apache Hadoop、Kubernetes、獨立部署或雲端環境中執行,處理各種資料來源。這項服務提供豐富的 Java、Scala、Python (PySpark) 和 R API,可供廣大開發人員和資料科學家使用。

在 Google Cloud,Apache Spark 轉型為「資料至 AI」平台。Google Cloud 提供無伺服器選項和 Lightning Engine 等突破性效能強化功能,解決傳統 Spark 部署作業的「調優稅」問題。透過與統一資料和 AI 平台深度整合,使用者能以前所未有的速度,將原始資料轉化為 AI 輔助的行動。

Apache Spark 與 Apache Hadoop 的比較

常會有人問 Apache Spark 和 Apache Hadoop 的個別使用時機,Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業,而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構。Spark 是一個快速的通用型叢集運算引擎,可以部署在 Hadoop 叢集中或獨立模式下。瞭解每種工具的特性,將有助於根據工作負載的延遲和記憶體需求決定實作項目。

Apache Spark 生態系統和元件

Spark 生態系統包括五個主要元件,每個元件都透過 Google Cloud 的基礎架構獲得強化:

  • Spark Core:基礎執行引擎,可管理分散式任務分派和 I/O。Spark Core 引進了彈性分散式資料集 (RDD) 的概念,這是可在容錯模式下平行處理的不可變分散式物件集合。
  • Spark SQL:使用 DataFrames 處理結構化資料的模組。Google Cloud 透過 Lightning Engine 進一步提升這些作業的速度,無需手動調整。
  • Spark Streaming:可為批次和即時工作建構可擴充的容錯串流解決方案。
  • MLlib:可擴充的機器學習程式庫。搭配 Vertex AI 使用時,MLlib 工作流程可順暢整合至 MLOps 管道,並透過 Gemini 進行程式設計和疑難排解,進而提升開發效率。
  • GraphX:用於圖形和圖形平行運算的 API。

為資料科學家和工程師創造獨特價值

Google Cloud 提供專屬環境,滿足資料專業人員的獨特需求:

  • 在 BigQuery Studio 整合開發:資料科學家可以直接在 BigQuery Studio 筆記本中編寫及執行 Spark 程式碼。這項服務提供單一可查詢的中繼資料服務,讓您在 Spark 和 BigQuery 中享有一致體驗。
  • 運用 Gemini 提升工作效率Gemini 可輔助開發、部署、監控、疑難排解複雜的 PySpark 工作,完成整個生命週期。
  • 零營運負擔的無伺服器執行環境:管理叢集不再負擔。有了 Serverless Spark,只要提交單一指令,其他工作就交給 Google 處理,不必建立、設定或管理叢集。
  • 統一治理:使用 Dataplex Universal Catalog 管理資料和 AI 治理機制,為代理程式提供語意,確保資料生命週期從擷取到 AI 輔助洞察分析都保持一致。

其他資源

後續行動

運用價值 $300 美元的免費抵免額和 20 多項一律免費的產品,開始在 Google Cloud 建構產品與服務。

Google Cloud