![](https://webcf.waybackmachine.org/web/20231129224518im_/https://habrastorage.org/r/w1560/getpro/habr/upload_files/565/8f0/bf0/5658f0bf01d7f31e6d7e1c6a524a8bcd.png)
Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.
В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.