¿Qué es Apache Spark?

Apache Spark es un motor de análisis unificado con el que se procesan datos a gran escala con módulos integrados para SQL, transmisión, aprendizaje automático y procesamiento de grafos. Spark puede ejecutarse en Apache Hadoop, Kubernetes, por sí solo, en la nube y en varias fuentes de datos. Proporciona APIs enriquecidas en Java, Scala, Python (PySpark) y R, por lo que está a disposición de una amplia variedad de desarrolladores y científicos de datos.

En Google Cloud, Apache Spark se transforma en una plataforma de “datos a IA”. Con el uso de opciones sin servidores y mejoras revolucionarias en el rendimiento como Lightning Engine, Google Cloud resuelve el "impuesto de ajuste" asociado con las implementaciones tradicionales de Spark. Las integraciones profundas en una plataforma unificada de datos y de IA permiten a los usuarios pasar de datos sin procesar a acciones basadas en IA más rápido que nunca.

Apache Spark versus Apache Hadoop

Una de las preguntas más comunes es: ¿cuándo se usan Apache Spark y Apache Hadoop? Si bien Hadoop se usa en mayor parte para operaciones que consumen mucho espacio en el disco con el paradigma de MapReduce, Spark es una arquitectura de procesamiento en la memoria más flexible y, a menudo, más costosa. Spark es un motor de procesamiento de clústeres rápido de uso general que puede implementarse en un clúster de Hadoop o en modo independiente. Comprender las características de cada uno te ayudará a decidir cuál implementar según los requisitos de latencia y memoria de tu carga de trabajo.

Ecosistema y componentes de Apache Spark

El ecosistema de Spark incluye cinco componentes clave, cada uno mejorado por la infraestructura de Google Cloud:

Spark Core: Es el motor de ejecución fundamental que administra el envío de tareas distribuidas y las E/S. Presentó los conjuntos de datos resilientes y distribuidos (RDD), colecciones distribuidas inmutables de objetos procesados en paralelo con tolerancia a fallas.
Spark SQL: Es el módulo para trabajar con datos estructurados usando DataFrames. Google Cloud acelera aún más estas operaciones con Lightning Engine, lo que ofrece mejoras de velocidad significativas sin necesidad de ajustes manuales.
Spark Streaming: Permite soluciones de transmisión escalables y tolerantes a errores para trabajos por lotes y en tiempo real.
MLlib: Una biblioteca de aprendizaje automático escalable. Cuando se combinan con Vertex AI, los flujos de trabajo de MLlib se pueden integrar sin problemas en las canalizaciones de MLOps, y el desarrollo se puede mejorar con Gemini para la programación y la solución de problemas.
GraphX: La API para grafos y procesamiento paralelo de grafos.

Valor único para ingenieros y científicos de datos

Google Cloud proporciona un entorno especializado que aborda las necesidades únicas de los profesionales de datos:

Desarrollo integrado en BigQuery Studio: Los científicos de datos pueden crear y ejecutar código de Spark directamente en notebooks de BigQuery Studio. Esto proporciona una experiencia unificada en Spark y BigQuery con un único servicio de metadatos consultable.
Productividad asistida por IA con Gemini: Aprovecha Gemini para ayudar en todo el ciclo de vida, desde el desarrollo y la implementación hasta la supervisión y la solución de problemas de trabajos complejos de PySpark.
Ejecución sin servidores y sin operaciones: Elimina la carga operativa de administrar clústeres. Con Serverless Spark, puedes enviar un solo comando y dejar que Google se encargue del resto: no hay clústeres que crear, configurar o administrar.
Administración unificada: Usa Dataplex Universal Catalog para administrar los datos y la administración de la IA, lo que proporciona semántica para los agentes y garantiza un ciclo de vida de los datos coherente desde la transferencia hasta las estadísticas basadas en IA.

Productos y servicios relacionados

Si bien Apache Spark es un framework de código abierto, Google Cloud ofrece un paquete de herramientas que automatizan, aceleran y rigen tus cargas de trabajo de Spark:

Recursos adicionales

Documentación de Dataproc Serverless for Apache Spark: La guía oficial para ejecutar lotes de Spark y sesiones interactivas sin administrar la infraestructura.
Ejecuta Spark en BigQuery Studio: Una guía específica para científicos de datos sobre cómo crear y ejecutar código de PySpark directamente en el espacio de trabajo de BigQuery.
Guía de Apache Iceberg en Google Cloud: Instrucciones detalladas sobre cómo configurar y usar el formato de tabla Apache Iceberg con Spark y BigLake.
Conector de BigQuery de Spark (GitHub): Documentación y repositorio oficiales y de acceso público para el conector de código abierto desarrollado por Google.
Blog de Google Cloud: Acelera Spark con Lightning Engine: Artículos técnicos y comparativas de rendimiento que demuestran el impacto real de nuestras mejoras de rendimiento.

¿Qué es Apache Spark?

Apache Spark versus Apache Hadoop

Ecosistema y componentes de Apache Spark

Valor único para ingenieros y científicos de datos

Productos y servicios relacionados

Recursos adicionales

Da el siguiente paso

¿Necesitas ayuda para comenzar?

Trabaja con un socio confiable

Sigue explorando