O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de gráficos. O Spark pode ser executado no Apache Hadoop, Kubernetes, por conta própria, na nuvem e em diversas fontes de dados. Ele oferece APIs avançadas em Java, Scala, Python (PySpark) e R, o que o torna acessível a uma ampla gama de desenvolvedores e cientistas de dados.
No Google Cloud, o Apache Spark é transformado em uma plataforma "de dados para IA". Ao aproveitar opções sem servidor e melhorias de desempenho inovadoras, como o Lightning Engine, o Google Cloud resolve o "imposto de ajuste" associado às implantações tradicionais do Spark. As integrações profundas em uma plataforma unificada de dados e IA permitem que os usuários passem de dados brutos para ações baseadas em IA mais rapidamente do que nunca.
Uma dúvida comum é quando usar o Apache Spark no lugar do Apache Hadoop? O Hadoop é usado principalmente para operações com uso intenso de disco com o paradigma MapReduce, enquanto o Spark é uma arquitetura de processamento na memória mais flexível e geralmente mais cara. O Apache Spark é um mecanismo de computação de cluster rápido de uso geral que pode ser implantado em um cluster Hadoop ou no modo independente. Compreender os recursos de cada um guiará suas decisões sobre o que implementar com base nos requisitos de latência e memória da sua carga de trabalho.
O ecossistema Spark inclui cinco componentes principais, cada um aprimorado pela infraestrutura do Google Cloud:
O Google Cloud oferece um ambiente especializado que atende às necessidades exclusivas dos profissionais de dados:
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos sem gastar nada.