什麼是 Apache Spark？

Apache Spark 是用於大規模資料處理的整合分析引擎，內建 SQL、串流、機器學習和圖形處理等多種模組。Spark 可在 Apache Hadoop、Kubernetes、獨立部署或雲端環境中執行，處理各種資料來源。這項服務提供豐富的 Java、Scala、Python (PySpark) 和 R API，可供廣大開發人員和資料科學家使用。

在 Google Cloud，Apache Spark 轉型為「資料至 AI」平台。Google Cloud 提供無伺服器選項和 Lightning Engine 等突破性效能強化功能，解決傳統 Spark 部署作業的「調優稅」問題。透過與統一資料和 AI 平台深度整合，使用者能以前所未有的速度，將原始資料轉化為 AI 輔助的行動。

Apache Spark 與 Apache Hadoop 的比較

常會有人問 Apache Spark 和 Apache Hadoop 的個別使用時機，Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業，而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構。Spark 是一個快速的通用型叢集運算引擎，可以部署在 Hadoop 叢集中或獨立模式下。瞭解每種工具的特性，將有助於根據工作負載的延遲和記憶體需求決定實作項目。

Apache Spark 生態系統和元件

Spark 生態系統包括五個主要元件，每個元件都透過 Google Cloud 的基礎架構獲得強化：

Spark Core：基礎執行引擎，可管理分散式任務分派和 I/O。Spark Core 引進了彈性分散式資料集 (RDD) 的概念，這是可在容錯模式下平行處理的不可變分散式物件集合。
Spark SQL：使用 DataFrames 處理結構化資料的模組。Google Cloud 透過 Lightning Engine 進一步提升這些作業的速度，無需手動調整。
Spark Streaming：可為批次和即時工作建構可擴充的容錯串流解決方案。
MLlib：可擴充的機器學習程式庫。搭配 Vertex AI 使用時，MLlib 工作流程可順暢整合至 MLOps 管道，並透過 Gemini 進行程式設計和疑難排解，進而提升開發效率。
GraphX：用於圖形和圖形平行運算的 API。

為資料科學家和工程師創造獨特價值

Google Cloud 提供專屬環境，滿足資料專業人員的獨特需求：

在 BigQuery Studio 整合開發：資料科學家可以直接在 BigQuery Studio 筆記本中編寫及執行 Spark 程式碼。這項服務提供單一可查詢的中繼資料服務，讓您在 Spark 和 BigQuery 中享有一致體驗。
運用 Gemini 提升工作效率：Gemini 可輔助開發、部署、監控、疑難排解複雜的 PySpark 工作，完成整個生命週期。
零營運負擔的無伺服器執行環境：管理叢集不再負擔。有了 Serverless Spark，只要提交單一指令，其他工作就交給 Google 處理，不必建立、設定或管理叢集。
統一治理：使用 Dataplex Universal Catalog 管理資料和 AI 治理機制，為代理程式提供語意，確保資料生命週期從擷取到 AI 輔助洞察分析都保持一致。

什麼是 Apache Spark？

Apache Spark 與 Apache Hadoop 的比較

Apache Spark 生態系統和元件

為資料科學家和工程師創造獨特價值

相關產品和服務

其他資源

後續行動

需要入門協助嗎？

與值得信賴的夥伴合作

繼續瀏覽