Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя
Первый
Директор центра Big Data МТС  · 13 окт 2021

Прямая линия с Виктором Кантором: когда данные становятся большими и какие выводы из них можно делать

Привет! Меня зовут Виктор Кантор, я - директор центра Big Data МТС.
Я работаю в Data Science с 2010 года: занимался машинным обучением и образовательными проектами в ABBYY, разрабатывал рекомендательные системы в Yandex Data Factory, строил службу машинного обучения и анализа данных в Яндекс.Такси, запустил академию больших данных Mail.Ru. Кому-то могу быть известен как один из авторов курса "Машинное обучение и анализ данных" на Coursera.
Сейчас я руковожу направлением, которое помогает МТС эффективнее строить сеть, продавать гаджеты, фильмы и книги, таргетировать рекламу, оценивать городскую инфраструктуру и турпотоки и многое другое.
22 октября в 17:00 я отвечу на ваши вопросы о Big Data - от самых общих до технических.
Расскажу о том, как данные позволяют заглянуть в будущее, найти ценные для бизнеса инсайты и где учиться на дата-саентиста.
Пишите вопросы в комментариях.
Вопрос: насколько объективными можно считать выводы, основанные на больших данных? Ведь цифровые данные - это... Читать дальше
@Гульмира Жамантикова, обычно решения насчет людей принимаются на основе данных про людей, про компании - на основе данных про компании, про роботов - на основе данных про роботов и так далее :) При применении больших данных очень важно не выходить за границы применимости аналитики и моделей и применять на том домене данных, в рамках которого и делался анализ.
Много ли дадут онлайн-курсы дата-саенса на известных платформах или лучше отучиться на профильной программе в университете?
@Ghelow Tham, как в любом деле, нужно понимать, что результат зависит и от прикладываемых усилий, и от ваших способностей к этому делу, и, конечно, от качества обучающих материалов и отлаженности процесса обучения. Здесь у онлайн-курсов есть преимущество в виде меньшей зарегулированности процесса обучения и возможности обеспечить слушателя актуальным материалом. Университетские курсы имеют свои плюсы: если онлайн-курс может проводить кто угодно, то преподавать в университете все же берут не всех. Однако далеко не всегда академические успехи коррелируют с практическими знаниями. Таким образом, полезно может быть и то и другое, но нужно внимательно смотреть на: 1) программу курса, 2) преподавательский состав, 3) самостоятельную работу в процессе курса и будете ли вы получать обратную связь, выполняя задания. Лично я знаю много людей, разобравшихся в Data Science как на Курсере, так и в университете.
Как Big Data будет развиваться дальше?
@Дарья Тарасова, я думаю, что основной вопрос сейчас будет - как применять Big Data. Ответы на него и определять дальнейшее развитие отрасли. Дело в том, что просто агрегировать данные, вычистить и привести в пригодный к использованию вид, это только полдела. Остается вопрос как извлекать из них пользу: 1) делать продукты на основе Big Data и пытаться строить бизнес чисто про данные, 2) дополнительно зарабатывать и экономить деньги существующему бизнесу (не связанному с Big Data), 3) создавать возможности делать что-то, что ранее бизнесу было недоступно, т.е. создавать выходы на новые рынки или преображать существующие. Есть ощущение, что в первые две истории бизнес уже наигрался, они полезные, но потенциал не так велик, как у третьей. Как пример на третий сценарий можно привести то, что Netflix сделал с просмотром сериалов и фильмов. Их основной бизнес конечно не про Big Data, но за счет качества своих рекомендательных систем, анализирующих данные по всем пользователям, компания радикально изменила отрасль. Появление новых таких примеров будет драйвить определенные направления работы с данными (как Netflix рекомендательные системы).
Как выглядит рабочий день data scientist ?
Насколько непредсказуемы результаты до начала работы ?
@Екатерина Комиссарова, на самом деле многие задачи для DS очень похожи. Когда работаешь в отрасли 3-5 лет, уже видишь все основные сценарии применения DS и становится легче предсказать результаты работы. Кроме того, в начале работы обычно прикидывают, какие результаты могут получиться, делая бейзлайн (простое решение задачи, не требующее много времени на разработку) на каких-то минимальных для него данных. Радикально ошибиться с оценкой будущих результатов после этого уже сложно.
Что касается рабочего дня, нет какой-то стандартной структуры (что в каком порядке происходит), но в среднем процентов 50-70 занимают манипуляции с данными, 20 процентов - эксперименты с моделями, оставшееся время - встречи для уточнения прогресса и планов с менеджерами и заказчиком задачи.
Часто ли происходят серьёзные просчеты в гипотезах и прогнозах, основанных на анализе больших данных? Откуда чаще всего приходится ждать ловушек?
@Ксения Смирнова, просчеты происходят когда реалистичные прогнозы эффектов притягивают за уши к слишком оптимистичным бизнес-целям, так что первая ловушка - обещать больше, чем можешь сделать. Другая причина для просчетов - недостаточно тщательная проверка результатов. Например, если аналитик только что получил какой-то результат, прежде чем показывать его бизнесу, стоит хотя бы проверить. Желательно провести ревью с другим аналитиком. Еще одна опасность: не хватка компетенций или спешка. Например, если не знать про важность оценки статистической значимости в А/В тестах, можно начать принимать важные для бизнеса решения на основе, фактически, случайных графиков по недостаточно полным данным.
Можно ли сказать, что сейчас остались люди, данные которых не собираются и не обрабатываются никак и нигде? Например, если у них нет смартфона и компьютера
@Катя Тамилина, такие люди, возможно, есть, но их невероятно мало. Их доля заметно меньше 1%. Но это на самом деле не так важно, как может показаться. Для крупного бизнеса важнее по какой доле активных потребителей есть данные, и тут покрытие близко к 100%
С чего начался Ваш путь? Почему стала интересовать именно эта тема?
@Анна Шефель, мы с однокурсниками делали Data Science стартап, т.к. нам понравилась идея в его основе (идея не наша, а одного из наших преподавателей - замысел был в том, чтобы автоматически структурировать по смыслу за человека все текстовые документы на компьютере). В процессе поняли, что гораздо круче что-то делать, когда уже умеешь (наш опыт в DS тогда был более чем скромным). Дальше я довольно успешно учился на курсе по машинному обучению у себя в университете, начал вести семинары по этой дисциплине сам, потом занялся DS уже на наемной работе и постепенно втянулся.
Какое будущее нас ждет в мире Big Data?
@Константин Артемьев, есть несколько классических картинок на этот счет. Первая - про "цифрового консьержа", т.е. Big Data позволит про каждого человека понимать, какие именно услуги ему нужны и в какой момент. Т.е. это такая идеально подстраивающаяся под вас жизнь. Вторая картинка - про всеобщий тоталитарный цифровой контроль. Я вижу много причин, почему победит первый сценарий, но это отдельная тема для обсуждения.
Какой первый шаг сделать человеку из "далекой сферы" для того, чтобы начать понимать биг дату?
@Настя Федорова, просто почитать статьи и послушать выступления на YouTube вида "что такое Big Data/Data Science/Machine Learning", а также "как применяется". Каких-то готовых курсов не могу пока посоветовать.
Как считаете, настанет ли такой момент, когда придется слепо следовать решениям предложенным "Big Data" не понимая, как это работает.
Например, чтобы вылечится от гриппа, надо встать с постели на левую ногу, чистить зубы левой рукой держа зубную щетку, не зашнуровывать левую кроссовку и т.д если это "работает".
Это будет рационально для машины, но иррационально для человека, но разбираться с подобными "советами" будет нерационально из-за нехватки необходимых на то ресурсов, ибо в потоке, тот кто их не выполняет-проиграет.