Я писала где-то ответ по тому, как научиться работать с базами данных. Копирую еще сюда:
Есть работа с базами данных, есть визуализация баз данных, есть получение информации из баз данных.
Следовательно, начинаем с изучения SQL, чтобы можно было поковыряться в самой базе. Мне больше всего понравился учебник из серии "для чайников".
Для того, чтобы то, что мы вытащили из базы данных, можно было оформить, изучаем визуализацию. Очень круто и просто все рассказывается в учебнике Robert Spence "Information Visualization".
Теперь можно идти к чему-то более крутому - это data mining. Для этого нужно прокачать знание теории вероятности, статистики и выбрать себе язык программирования, которым вы будете пользоваться при работе с базами данных. Очень важно (!) разобраться в machine learning. Учебников и пособий тут миллиард. Я бы не стала брать что-то серьезное, если у вас нет бэкграунда, а совмещала бы этот этап с предыдущими, чтобы можно было делать крутые штуки уже с самого начала - это очень вдохновляет.
# get titanic & test csv files as a DataFrame
titanic_df = pd.read_csv("../input/train.csv")
test_df = pd.read_csv("../input/test.csv")
# preview the data
titanic_df.head()
titanic_df.info()
# drop unnecessary columns, these columns won't be useful in analysis and prediction
titanic_df = titanic_df.drop(['PassengerId','Name','Ticket'], axis=1)
test_df = test_df.drop(['Name','Ticket'], axis=1)