Специалист по большим данным Data Scientist должен знать и уметь:
Во-первых, должен уметь программировать, ибо работать с большим объемом данных вручную, не мыслимо.
Во-вторых, специалист по большим данным занимается создание модели для оценки гипотез, аналитики или оценки данных. Этого никак не сделать без знаний основных языков программирования, применяемых в области Data Science, таких ка: Вам пригодятся знания:
Java, Hive для работы с Hadoop;
Python – его основы и понимание того, как работать с ним в анализе данных.
SQL – для извлечения данных;
языка R, который пригодится для расчетов статистики.
Следующей областью знаний, важнейшей для специалиста по большим данным Data Scientist является математика. Он данных должен знать и владеть методами математического анализа, теории вероятности и математической статистики, линейной алгебры. Эти знания пригодятся, для того чтобы составлять прогнозы, работать над поиском закономерностей и построением математических моделей.
В математическом анализе специалисту понадобятся производные, правило дифференцирования сложной функции и градиенты. Описательная статистика, планирование эксперимента и математическая статистика. Линейная алгебра нужна для понимания механизмов машинного обучения, там обратите внимание на векторы и пространства, матричные преобразования.
Третьей областью знаний является машинное обучение. Без него в работе большими данными никуда. Машинное обучение нужно для создания новых моделей и переобучения существующих. Также оно связано не только с искусственным интеллектом, но и с генетическими, эволюционными алгоритмами, кластерными задачами и так далее. Благодаря машинному обучению работа Data Scientist с большими объемами данных становится эффективной.
Таким образом, профессия Data Scientist не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных ВУЗах по подготовке специалистов по большим данным. В России также растет спрос на специалистов Data Scientist.