O que é Apache Spark?

O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de gráficos. O Spark pode ser executado no Apache Hadoop, Kubernetes, por conta própria, na nuvem e em diversas fontes de dados. Ele oferece APIs avançadas em Java, Scala, Python (PySpark) e R, o que o torna acessível a uma ampla gama de desenvolvedores e cientistas de dados.

No Google Cloud, o Apache Spark é transformado em uma plataforma "de dados para IA". Ao aproveitar opções sem servidor e melhorias de desempenho inovadoras, como o Lightning Engine, o Google Cloud resolve o "imposto de ajuste" associado às implantações tradicionais do Spark. As integrações profundas em uma plataforma unificada de dados e IA permitem que os usuários passem de dados brutos para ações baseadas em IA mais rapidamente do que nunca.

Apache Spark versus Apache Hadoop

Uma dúvida comum é quando usar o Apache Spark no lugar do Apache Hadoop? O Hadoop é usado principalmente para operações com uso intenso de disco com o paradigma MapReduce, enquanto o Spark é uma arquitetura de processamento na memória mais flexível e geralmente mais cara. O Apache Spark é um mecanismo de computação de cluster rápido de uso geral que pode ser implantado em um cluster Hadoop ou no modo independente. Compreender os recursos de cada um guiará suas decisões sobre o que implementar com base nos requisitos de latência e memória da sua carga de trabalho.

Ecossistema e componentes do Apache Spark

O ecossistema Spark inclui cinco componentes principais, cada um aprimorado pela infraestrutura do Google Cloud:

Spark Core: o mecanismo de execução fundamental, que gerencia a distribuição descentralizada de tarefas e a E/S. Ele introduziu os conjuntos de dados distribuídos resilientes (RDDs), coleções distribuídas imutáveis de objetos processados em paralelo com tolerância a falhas.
Spark SQL: o módulo para trabalhar com dados estruturados usando DataFrames. O Google Cloud acelera ainda mais essas operações com o Lightning Engine, oferecendo aumentos significativos na velocidade sem a necessidade de ajustes manuais.
Spark Streaming: permite soluções de streaming escalonáveis e tolerantes a falhas para jobs em lote e em tempo real.
MLlib : uma biblioteca de machine learning escalonável. Quando combinados com a Vertex AI, é possível integrar totalmente os fluxos de trabalho do MLlib aos pipelines de MLOps e melhorar o desenvolvimento com o Gemini para programação e solução de problemas.
GraphX: a API para gráficos e computação paralela a gráficos.

Valor exclusivo para cientistas e engenheiros de dados

O Google Cloud oferece um ambiente especializado que atende às necessidades exclusivas dos profissionais de dados:

Desenvolvimento integrado no BigQuery Studio : os cientistas de dados podem criar e executar código Spark diretamente nos notebooks do BigQuery Studio. Isso oferece uma experiência unificada no Spark e no BigQuery usando um único serviço de metadados consultáveis.
Produtividade com assistência de IA usando o Gemini : aproveite o Gemini para ajudar em todo o ciclo de vida, desde o desenvolvimento e a implantação até o monitoramento e a solução de problemas de jobs complexos do PySpark.
Execução sem servidor e sem operações: elimine a sobrecarga operacional do gerenciamento de clusters. Com o Spark sem servidor, você pode enviar um único comando e deixar o Google cuidar do resto. Não é preciso criar, configurar ou gerenciar clusters.
Governança unificada: use o Dataplex Universal Catalog para gerenciar a governança de dados e IA, fornecendo semântica para agentes e garantindo um ciclo de vida de dados consistente, desde a ingestão até insights baseados em IA.

Produtos e serviços relacionados

Embora o Apache Spark seja um framework de código aberto, o Google Cloud oferece um pacote de ferramentas que automatizam, aceleram e governam suas cargas de trabalho do Spark:

Outros recursos

Documentação do Dataproc sem servidor para Apache Spark: o guia oficial para executar lotes e sessões interativas do Spark sem gerenciar a infraestrutura.
Execução do Spark no BigQuery Studio: um guia específico para cientistas de dados sobre como criar e executar código PySpark diretamente no espaço de trabalho do BigQuery.
Guia do Apache Iceberg no Google Cloud: instruções detalhadas sobre como configurar e usar o formato de tabela do Apache Iceberg com o Spark e o BigLake.
Conector do Spark para o BigQuery (GitHub): documentação e repositório oficiais e acessíveis ao público do conector de código aberto desenvolvido pelo Google.
Blog do Google Cloud: Acelere o Spark com o Lightning Engine: artigos técnicos e benchmarks de desempenho que demonstram o impacto real das nossas melhorias de desempenho.

O que é Apache Spark?

Apache Spark versus Apache Hadoop

Ecossistema e componentes do Apache Spark

Valor exclusivo para cientistas e engenheiros de dados

Produtos e serviços relacionados

Outros recursos

Vá além

Precisa de ajuda para começar?

Trabalhe com parceiros de confiança

Continue navegando