Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Data Scientist создаёт программный алгоритм. А что конкретно он делает?

ПрограммированиеData science+2
Абдисоторов Дилшод
  ·   · 2,0 K
Лучший
Openstack DevOps and IBM/Informix Certified DBA...  · 17 дек 2021
Какую профессию Гарвард назвал самой притягательной работой 21 века? Правильно ... специалист по анализу данных.
Таинственный специалист по данным. Так в чем же секрет специалистов по данным и чем этот человек на самом деле занимается каждый день на работе? В этой статье дается определение и обсуждение науки о данных, призванное помочь определить роль и цель специалиста по данным, а также типичные навыки, квалификацию, образование, опыт и обязанности. Это определение несколько расплывчато, поскольку на самом деле нет стандартизированного определения роли специалиста по данным, а также учитывая, что идеальный опыт и набор навыков относительно редко можно найти у одного человека.
Это определение может быть дополнительно запутано тем фактом, что есть и другие роли, которые иногда считаются одинаковыми, но часто совершенно разные. Некоторые из них включают аналитика данных, инженера данных и так далее. Подробнее об этом позже.
Вот диаграмма, показывающая некоторые из общих дисциплин, на которые может опираться специалист по данным. Уровень опыта и знаний специалиста по обработке данных в каждом из них часто варьируется по шкале от новичка до опытного и, в идеальном случае, до эксперта.
Хотя эти и другие дисциплины и области знаний (не показанные здесь) являются характеристиками роли специалиста по обработке данных, мне нравится думать, что его основа основана на четырех столпах. Из этих столпов можно почерпнуть и другие, более конкретные области знаний. Давай обсудим их сейчас.
Основы экспертизы в области обработки данных
Хотя специалисты по обработке данных часто имеют разное образование и опыт работы, большинство из них должны быть сильными или, в идеальном случае, быть экспертами в четырех фундаментальных областях. В произвольном порядке приоритета или важности это:
1.Бизнес / Домен
2.Математика (включает статистику и вероятность)
3.Информатика (например, архитектура программного обеспечения / данных и инженерия)
  1. Общение (как письменное, так и устное)
=========================
Основываясь на этих принципах, мое определение специалиста по данным - это человек, который должен уметь использовать существующие источники данных и создавать новые по мере необходимости, чтобы извлекать значимую информацию и практические идеи. Специалист в области данных делает это за счет экспертных знаний в области бизнеса, эффективной коммуникации и интерпретации результатов, а также использования любых и всех соответствующих статистических методов, языков программирования, программных пакетов и библиотек, а также инфраструктуры данных. Понимание, которое открывают специалисты по данным, следует использовать для принятия бизнес-решений и действий, направленных на достижение бизнес-целей.
==========================
Диаграммы Венна для анализа данных
Можно найти множество различных версий диаграммы Венна, разработанной специалистом по данным, чтобы помочь визуализировать эти столпы (или варианты) и их отношения друг с другом. Дэвид Тейлор написал отличную статью об этих диаграммах Венна, озаглавленную «Битва диаграмм Венна в области науки о данных». Я очень рекомендую это прочитать.
Как показано на этой диаграмме, Стефан Коласса называет «идеального специалиста по данным» человеком, который одинаково силен в бизнесе, программировании, статистике и коммуникации.
=================================
Цели и результаты работы с данными
=================================
Вот краткий список общих результатов в области науки о данных:
Прогноз (прогнозирование значения на основе входных данных)
Классификация (например, спам или не спам)
Рекомендации (например, рекомендации Amazon и Netflix)
Обнаружение и группировка шаблонов (например, классификация без известных классов)
Обнаружение аномалий (например, обнаружение мошенничества)
Распознавание (изображение, текст, аудио, видео, лица,…)
Практическая информация (с помощью информационных панелей, отчетов, визуализаций и т. Д.)
Автоматизированные процессы и принятие решений (например, утверждение кредитной карты)
Оценка и ранжирование (например, оценка FICO)
Сегментация (например, демографический маркетинг)
Оптимизация (например, управление рисками)
Прогнозы (например, продажи и выручка)
====================================
Каждый из них предназначен для решения конкретной цели и/или решения конкретной проблемы. Настоящий вопрос заключается в том, какая цель и чья это цель?
====================================
Например, специалист по анализу данных может подумать, что его цель - создать высокопроизводительный механизм прогнозирования. С другой стороны, бизнес, который планирует использовать механизм прогнозирования, может иметь цель увеличения дохода, чего можно достичь с помощью этого механизма прогнозирования. Хотя на первый взгляд может показаться, что это не проблема, на самом деле описанная ситуация является причиной того, почему так важен первый столп (опыт в области бизнеса). Часто члены высшего руководства имеют образование, ориентированное на бизнес, например степень магистра делового администрирования. Хотя многие руководители являются исключительно умными людьми, они могут плохо разбираться во всех инструментах, методах и алгоритмах, доступных специалисту по данным (например, статистический анализ, машинное обучение, искусственный интеллект и т. д.). Учитывая это, они могут быть не в состоянии сказать специалисту по данным, что они хотели бы получить в качестве конечного результата, или предложить источники данных, функции (переменные) и путь к этому.
Даже если руководитель может определить, что конкретный механизм рекомендаций поможет увеличить доход, он может не осознавать, что, вероятно, есть много других способов использования данных компании для увеличения дохода.
Поэтому нельзя только подчеркнуть, что идеальный специалист по данным имеет достаточно полное представление о том, как работают компании в целом, и как данные компании могут быть использованы для достижения бизнес-целей высшего уровня.
Обладая значительным опытом в области бизнеса, специалист по данным должен иметь возможность регулярно обнаруживать и предлагать новые инициативы в области данных, чтобы помочь бизнесу достичь своих целей и максимизировать свои KPI.
==================================
Процесс обработки данных
Ниже представлена диаграмма модели процесса GABDO, которую я создал и представил в своей книге «ИИ для людей и бизнеса». Специалисты по обработке данных обычно следуют аналогичному процессу, особенно при создании моделей с использованием машинного обучения и связанных с ним методов.
Модель процесса GABDO состоит из пяти итерационных этапов - цели, приобретение, создание, доставка, оптимизация - поэтому они представлены аббревиатурой GABDO.
Каждая фаза является итеративной, потому что любая фаза может возвращаться к одной или нескольким предыдущим фазам. Не стесняйтесь прочитать книгу, если хотите узнать больше об этом процессе и его деталях.
Это правда, что многие из этих готовых продуктов можно использовать относительно легко, и можно, вероятно, получить довольно приличные результаты в зависимости от решаемой проблемы, но есть много аспектов науки о данных, где опыт и навыки критически важны.
Некоторые из них включают способность:
=========================================
Настроить подход и решение конкретной проблемы под рукой, чтобы максимизировать результаты, включая возможность писать новые алгоритмы и / или значительно изменять существующие, по мере необходимости.
Доступ и запросы к множеству различных баз данных и источников данных (СУБД, NoSQL, NewSQL), а также интеграция данных в источник данных, управляемый аналитикой (например, OLAP, хранилище, озеро данных и т. д.)
Найдите и выберите оптимальные источники данных и функции данных (переменные), включая создание новых по мере необходимости (разработка функций)
Изучите все доступные параметры статистики, программирования и библиотек / пакетов и выберите лучший
Убедитесь, что данные имеют высокую целостность (хорошие данные), качество (правильные данные) и находятся в оптимальной форме и состоянии, чтобы гарантировать точные, надежные и статистически значимые результаты.
Избегайте проблем, связанных с мусором, как мусор на выходе
Выбирайте и внедряйте лучшие инструменты, алгоритмы, платформы, языки и технологии для получения максимальных результатов и масштабирования по мере необходимости.
Выберите правильные показатели производительности и примените соответствующие методы, чтобы максимизировать производительность.
Откройте для себя способы использования данных для достижения бизнес-целей без указаний и/или результатов, диктуемых сверху вниз, т. е. от специалиста по данным в качестве идеолога.
Эффективная кросс-функциональная работа в сотрудничестве со всеми отделами и группами компании.
Отличать хорошие результаты от плохих и тем самым снижать потенциальные риски и финансовые потери, которые могут возникнуть в результате ошибочных выводов и последующих решений.
Понимать клиентов и/или пользователей продукта (или услуги) и создавать идеи и решения с их учетом
============================================
С точки зрения образования нет единого пути к тому, чтобы стать специалистом по данным. Многие университеты создали специальные программы по науке о данных и аналитике, в основном на уровне магистра. Некоторые университеты и другие организации также предлагают программы сертификации.
В дополнение к традиционным программам на получение степени и сертификации предлагаются учебные курсы продолжительностью от нескольких дней или месяцев до завершения, самостоятельное онлайн-обучение и курсы MOOC, ориентированные на науку о данных и смежных областях, а также самостоятельное практическое обучение.
Независимо от того, какой путь обучения выбран, специалист по анализу данных должен обладать передовыми количественными знаниями и высокотехнологичными навыками, в первую очередь в области статистики, математики и информатики.
Аналитик, программист, финансовый эксперт...  · 14 июн 2022
Вопрос непростой, дело в том, что алгоритмов в ds множество. Например, есть у нас статистика по продажам за несколько лет и вот на основании этой статистики мы пытаемся обучить компьютерную модель. По результатам обучения... Читать далее