External

Internal

Overview

Spark is a third generation unified analytics engine for large-scale data processing. It natively supports batch processing and stream processing. Stream processing is implemented as micro-batching. It uses HDFS as state backend.

Subjects

Concepts

Organizatorium

Spark SQL
PySpark/Spark SQL in interactive mode on JupyterHub.
Spark batch and streaming.
Spark job.
Spark UI
Spark history server
Spark remote shuffle service
Spark Operator

Spark

Contents

External

Internal

Overview

Subjects

Organizatorium

Navigation menu

Spark

External

Internal

Overview

Subjects

Organizatorium

Navigation menu

Search