Apache Spark es un motor de análisis unificado con el que se procesan datos a gran escala con módulos integrados para SQL, transmisión, aprendizaje automático y procesamiento de grafos. Spark puede ejecutarse en Apache Hadoop, Kubernetes, por sí solo, en la nube y en varias fuentes de datos. Proporciona APIs enriquecidas en Java, Scala, Python (PySpark) y R, por lo que está a disposición de una amplia variedad de desarrolladores y científicos de datos.
En Google Cloud, Apache Spark se transforma en una plataforma de “datos a IA”. Con el uso de opciones sin servidores y mejoras revolucionarias en el rendimiento como Lightning Engine, Google Cloud resuelve el "impuesto de ajuste" asociado con las implementaciones tradicionales de Spark. Las integraciones profundas en una plataforma unificada de datos y de IA permiten a los usuarios pasar de datos sin procesar a acciones basadas en IA más rápido que nunca.
Una de las preguntas más comunes es: ¿cuándo se usan Apache Spark y Apache Hadoop? Si bien Hadoop se usa en mayor parte para operaciones que consumen mucho espacio en el disco con el paradigma de MapReduce, Spark es una arquitectura de procesamiento en la memoria más flexible y, a menudo, más costosa. Spark es un motor de procesamiento de clústeres rápido de uso general que puede implementarse en un clúster de Hadoop o en modo independiente. Comprender las características de cada uno te ayudará a decidir cuál implementar según los requisitos de latencia y memoria de tu carga de trabajo.
El ecosistema de Spark incluye cinco componentes clave, cada uno mejorado por la infraestructura de Google Cloud:
Google Cloud proporciona un entorno especializado que aborda las necesidades únicas de los profesionales de datos:
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.