O que é Apache Spark?

O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de gráficos. O Spark pode ser executado no Apache Hadoop, Kubernetes, por conta própria, na nuvem e em diversas fontes de dados. Ele oferece APIs avançadas em Java, Scala, Python (PySpark) e R, o que o torna acessível a uma ampla gama de desenvolvedores e cientistas de dados.

No Google Cloud, o Apache Spark é transformado em uma plataforma "de dados para IA". Ao aproveitar opções sem servidor e melhorias de desempenho inovadoras, como o Lightning Engine, o Google Cloud resolve o "imposto de ajuste" associado às implantações tradicionais do Spark. As integrações profundas em uma plataforma unificada de dados e IA permitem que os usuários passem de dados brutos para ações baseadas em IA mais rapidamente do que nunca.

Apache Spark versus Apache Hadoop

Uma dúvida comum é quando usar o Apache Spark no lugar do Apache Hadoop? O Hadoop é usado principalmente para operações com uso intenso de disco com o paradigma MapReduce, enquanto o Spark é uma arquitetura de processamento na memória mais flexível e geralmente mais cara. O Apache Spark é um mecanismo de computação de cluster rápido de uso geral que pode ser implantado em um cluster Hadoop ou no modo independente. Compreender os recursos de cada um guiará suas decisões sobre o que implementar com base nos requisitos de latência e memória da sua carga de trabalho.

Ecossistema e componentes do Apache Spark

O ecossistema Spark inclui cinco componentes principais, cada um aprimorado pela infraestrutura do Google Cloud:

  • Spark Core: o mecanismo de execução fundamental, que gerencia a distribuição descentralizada de tarefas e a E/S. Ele introduziu os conjuntos de dados distribuídos resilientes (RDDs), coleções distribuídas imutáveis de objetos processados em paralelo com tolerância a falhas.
  • Spark SQL: o módulo para trabalhar com dados estruturados usando DataFrames. O Google Cloud acelera ainda mais essas operações com o Lightning Engine, oferecendo aumentos significativos na velocidade sem a necessidade de ajustes manuais.
  • Spark Streaming: permite soluções de streaming escalonáveis e tolerantes a falhas para jobs em lote e em tempo real.
  • MLlib : uma biblioteca de machine learning escalonável. Quando combinados com a Vertex AI, é possível integrar totalmente os fluxos de trabalho do MLlib aos pipelines de MLOps e melhorar o desenvolvimento com o Gemini para programação e solução de problemas.
  • GraphX: a API para gráficos e computação paralela a gráficos.

Valor exclusivo para cientistas e engenheiros de dados

O Google Cloud oferece um ambiente especializado que atende às necessidades exclusivas dos profissionais de dados:

  • Desenvolvimento integrado no BigQuery Studio : os cientistas de dados podem criar e executar código Spark diretamente nos notebooks do BigQuery Studio. Isso oferece uma experiência unificada no Spark e no BigQuery usando um único serviço de metadados consultáveis.
  • Produtividade com assistência de IA usando o Gemini : aproveite o Gemini para ajudar em todo o ciclo de vida, desde o desenvolvimento e a implantação até o monitoramento e a solução de problemas de jobs complexos do PySpark.
  • Execução sem servidor e sem operações: elimine a sobrecarga operacional do gerenciamento de clusters. Com o Spark sem servidor, você pode enviar um único comando e deixar o Google cuidar do resto. Não é preciso criar, configurar ou gerenciar clusters.
  • Governança unificada: use o Dataplex Universal Catalog para gerenciar a governança de dados e IA, fornecendo semântica para agentes e garantindo um ciclo de vida de dados consistente, desde a ingestão até insights baseados em IA.

Outros recursos

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos sem gastar nada.

Google Cloud