Виктор Кантор
Технологии
Директор центра Big Data МТС  · 13 окт 2021

Прямая линия с Виктором Кантором: когда данные становятся большими и какие выводы из них можно делать

Привет! Меня зовут Виктор Кантор, я - директор центра Big Data МТС.
Я работаю в Data Science с 2010 года: занимался машинным обучением и образовательными проектами в ABBYY, разрабатывал рекомендательные системы в Yandex Data Factory, строил службу машинного обучения и анализа данных в Яндекс.Такси, запустил академию больших данных Mail.Ru. Кому-то могу быть известен как один из авторов курса "Машинное обучение и анализ данных" на Coursera.
Сейчас я руковожу направлением, которое помогает МТС эффективнее строить сеть, продавать гаджеты, фильмы и книги, таргетировать рекламу, оценивать городскую инфраструктуру и турпотоки и многое другое.
22 октября в 17:00 я отвечу на ваши вопросы о Big Data - от самых общих до технических.
Расскажу о том, как данные позволяют заглянуть в будущее, найти ценные для бизнеса инсайты и где учиться на дата-саентиста.
Пишите вопросы в комментариях.
4 оценили
  · 2,6 K
Вопрос: насколько объективными можно считать выводы, основанные на больших данных? Ведь цифровые данные - это... Читать дальше
@Гульмира Жамантикова, обычно решения насчет людей принимаются на основе данных про людей, про компании - на основе данных про компании, про роботов - на основе данных про роботов и так далее :) При применении больших данных очень важно не выходить за границы применимости аналитики и моделей и применять на том домене данных, в рамках которого и делался анализ.
Можете описать простыми словами, как устроен процесс машинного обучения?
@Анастасия Умарова, модели машинного обучения показывают данные, на которых уже известен правильный ответ, модель учится на них (настраивает параметры модели так, чтобы хотя бы на исторических данных отвечать правильно), и после этого модель может более-менее точно прогнозировать правильный ответ на новых данных. Например: 1) показываем модели данные по людям, которые перестали пользоваться услугами компании и по тем, кто еще пользуется услугами, 2) модель учится по этим данным отличать одних от других, 3) модель можно применять для того, чтобы заранее замечать клиентов, которых что-то не устраивает. В первую очередь модель машинного обучения учится замечать очевидные вещи (например, что частые гневные звонки в поддержку свидетельствуют о том, что клиент недоволен оказываемыми услугами). Но, т.к. анализируемых факторов обычно сотни или тысячи, модель может находить и нетривиальные зависимости.
Много ли дадут онлайн-курсы дата-саенса на известных платформах или лучше отучиться на профильной программе в университете?
@Ghelow Tham, как в любом деле, нужно понимать, что результат зависит и от прикладываемых усилий, и от ваших способностей к этому делу, и, конечно, от качества обучающих материалов и отлаженности процесса обучения. Здесь у онлайн-курсов есть преимущество в виде меньшей зарегулированности процесса обучения и возможности обеспечить слушателя актуальным материалом. Университетские курсы имеют свои плюсы: если онлайн-курс может проводить кто угодно, то преподавать в университете все же берут не всех. Однако далеко не всегда академические успехи коррелируют с практическими знаниями. Таким образом, полезно может быть и то и другое, но нужно внимательно смотреть на: 1) программу курса, 2) преподавательский состав, 3) самостоятельную работу в процессе курса и будете ли вы получать обратную связь, выполняя задания. Лично я знаю много людей, разобравшихся в Data Science как на Курсере, так и в университете.
Как Big Data будет развиваться дальше?
@Дарья Тарасова, я думаю, что основной вопрос сейчас будет - как применять Big Data. Ответы на него и определять дальнейшее развитие отрасли. Дело в том, что просто агрегировать данные, вычистить и привести в пригодный к использованию вид, это только полдела. Остается вопрос как извлекать из них пользу: 1) делать продукты на основе Big Data и пытаться строить бизнес чисто про данные, 2) дополнительно зарабатывать и экономить деньги существующему бизнесу (не связанному с Big Data), 3) создавать возможности делать что-то, что ранее бизнесу было недоступно, т.е. создавать выходы на новые рынки или преображать существующие. Есть ощущение, что в первые две истории бизнес уже наигрался, они полезные, но потенциал не так велик, как у третьей. Как пример на третий сценарий можно привести то, что Netflix сделал с просмотром сериалов и фильмов. Их основной бизнес конечно не про Big Data, но за счет качества своих рекомендательных систем, анализирующих данные по всем пользователям, компания радикально изменила отрасль. Появление новых таких примеров будет драйвить определенные направления работы с данными (как Netflix рекомендательные системы).
Как выглядит рабочий день data scientist ?
Насколько непредсказуемы результаты до начала работы ?
@Екатерина Комиссарова, на самом деле многие задачи для DS очень похожи. Когда работаешь в отрасли 3-5 лет, уже видишь все основные сценарии применения DS и становится легче предсказать результаты работы. Кроме того, в начале работы обычно прикидывают, какие результаты могут получиться, делая бейзлайн (простое решение задачи, не требующее много времени на разработку) на каких-то минимальных для него данных. Радикально ошибиться с оценкой будущих результатов после этого уже сложно.
Что касается рабочего дня, нет какой-то стандартной структуры (что в каком порядке происходит), но в среднем процентов 50-70 занимают манипуляции с данными, 20 процентов - эксперименты с моделями, оставшееся время - встречи для уточнения прогресса и планов с менеджерами и заказчиком задачи.
Часто ли происходят серьёзные просчеты в гипотезах и прогнозах, основанных на анализе больших данных? Откуда чаще всего приходится ждать ловушек?
@Ксения Смирнова, просчеты происходят когда реалистичные прогнозы эффектов притягивают за уши к слишком оптимистичным бизнес-целям, так что первая ловушка - обещать больше, чем можешь сделать. Другая причина для просчетов - недостаточно тщательная проверка результатов. Например, если аналитик только что получил какой-то результат, прежде чем показывать его бизнесу, стоит хотя бы проверить. Желательно провести ревью с другим аналитиком. Еще одна опасность: не хватка компетенций или спешка. Например, если не знать про важность оценки статистической значимости в А/В тестах, можно начать принимать важные для бизнеса решения на основе, фактически, случайных графиков по недостаточно полным данным.
Можно ли сказать, что сейчас остались люди, данные которых не собираются и не обрабатываются никак и нигде? Например, если у них нет смартфона и компьютера
@Катя Тамилина, такие люди, возможно, есть, но их невероятно мало. Их доля заметно меньше 1%. Но это на самом деле не так важно, как может показаться. Для крупного бизнеса важнее по какой доле активных потребителей есть данные, и тут покрытие близко к 100%
Может ли однажды закончиться место для информации и какие сценарии выхода из этого положения есть?
@Анастасия Умарова, может, выхода три: 1) сделать больше места, 2) эффективнее хранить данные (не обязательно нужно переходить на более эффективные носители, можно просто избегать дублирования и использовать более экономные форматы данных), 3) отказаться от хранения каких-то данных (например, хранить детальную историю действий пользователей приложений не за два года, а за последние шесть месяцев - так часто решают вопрос компании, чтобы ограничить рост затрат на хранение)
С чего начался Ваш путь? Почему стала интересовать именно эта тема?
@Анна Шефель, мы с однокурсниками делали Data Science стартап, т.к. нам понравилась идея в его основе (идея не наша, а одного из наших преподавателей - замысел был в том, чтобы автоматически структурировать по смыслу за человека все текстовые документы на компьютере). В процессе поняли, что гораздо круче что-то делать, когда уже умеешь (наш опыт в DS тогда был более чем скромным). Дальше я довольно успешно учился на курсе по машинному обучению у себя в университете, начал вести семинары по этой дисциплине сам, потом занялся DS уже на наемной работе и постепенно втянулся.
Какое будущее нас ждет в мире Big Data?
@Константин Артемьев, есть несколько классических картинок на этот счет. Первая - про "цифрового консьержа", т.е. Big Data позволит про каждого человека понимать, какие именно услуги ему нужны и в какой момент. Т.е. это такая идеально подстраивающаяся под вас жизнь. Вторая картинка - про всеобщий тоталитарный цифровой контроль. Я вижу много причин, почему победит первый сценарий, но это отдельная тема для обсуждения.
Комментировать пост…Комментировать…