# get titanic & test csv files as a DataFrame
titanic_df = pd.read_csv("../input/train.csv")
test_df = pd.read_csv("../input/test.csv")
# preview the data
titanic_df.head()
titanic_df.info()
# drop unnecessary columns, these columns won't be useful in analysis and prediction
titanic_df = titanic_df.drop(['PassengerId','Name','Ticket'], axis=1)
test_df = test_df.drop(['Name','Ticket'], axis=1)
Изучение Data Science стоит начать с построения фундамента, а в фундаменте чего только нет, математика, статистика, алгоритмы, языки программирования. Собрал список курсов которые помогут заложить качественный фундамент под изучение DS.
На сегодня основная проблема Data Science - недостаток людей, которые могут её грамотно применить с прибылью для компании.
Поэтому начинать лучше с эконометрики, статистики, экономики, правовых основ работы с данными, устраиваться на работу в компании, где данные широко используются (поисковые системы, мобильные операторы, страховые компании, банки), и практиковаться, практиковаться... проверяя всё что вам говорят на прецедентах из реальной жизни.
Например, если говорят, что нужна сертификация для работы с персональными данными, нужно поинтересоваться, сертифицируется ли на эту работу соседний ларёк и почему, есть ли по этому вопросу правоприменительная практика.
Постепенно Вы (как я в своё время) поймете, что модные Big Data и Data Science - это фетиш разработчиков и айтишников в новой обертке, а проработку экономики и постановку задачи нужно делать полностью самому (либо с людьми, хорошо разбирающимися в экономике и праве конкретных отраслей и имеющих в них обширную практику). Именно к этому и нужно готовиться.
Я бы посоветовал заглядывать на сайт R-bloggers.com Так можно составить представление о том, чем люди вообще занимаются - и не только в какой-нибудь компании, но и в академической среде, в здравоохранении, в госуправлении и т.п. Многие авторы анонсируют там свои книжки при помощи коротких заметок. Часто предлагается решение какой-нибудь задачи, и сразу публикуется код на R. Разумеется, ограничением является использование именно R, а не, скажем, python. Но R фантастически популярен, за последние годы издано более 400 книжек, посвящённых его применению в разных областях науки и практики. Причём практически всегда к задаче прилагаются и наборы данных, и готовый код, т.е. понять, о чём идёт речь, можно довольно быстро.
Я писала где-то ответ по тому, как научиться работать с базами данных. Копирую еще сюда:
Есть работа с базами данных, есть визуализация баз данных, есть получение информации из баз данных.
Следовательно, начинаем с изучения SQL, чтобы можно было поковыряться в самой базе. Мне больше всего понравился учебник из серии "для чайников".
Для того, чтобы то, что мы вытащили из базы данных, можно было оформить, изучаем визуализацию. Очень круто и просто все рассказывается в учебнике Robert Spence "Information Visualization".
Теперь можно идти к чему-то более крутому - это data mining. Для этого нужно прокачать знание теории вероятности, статистики и выбрать себе язык программирования, которым вы будете пользоваться при работе с базами данных. Очень важно (!) разобраться в machine learning. Учебников и пособий тут миллиард. Я бы не стала брать что-то серьезное, если у вас нет бэкграунда, а совмещала бы этот этап с предыдущими, чтобы можно было делать крутые штуки уже с самого начала - это очень вдохновляет.