Я бы вам посоветовал пойти двумя путями(хотя наверное это все же один путь):
1) прочитайте книгу
https://www.litres.ru/matey-zahariya/izuchaem-spark-molnienosnyy-analiz-dannyh-22849675/2) изучите документацию самой библиотеки Spark и разберите ее по "винтикам" , какой метод / функция для чего нужны. И сверьте с фундаментальными основами Data Science. Все равно это все математика, а Spark лишь инструмент как бумага и ручка, маркер и доска и т.д.