Этот текст не совсем про Россию и тем не менее
================================================
Наука о данных похожа на плутоний. Гораздо мощнее и опаснее урановой руды. Сам по себе он может генерировать электричество,приводить в действие спутники и производить очень большие взрывы.
Наука о данных, как и плутоний, должна быть частью дисциплинированного производственного процесса, чтобы высвободить его энергию и предотвратить взрывы. Вот четыре типа "взрывов", которые регулярно происходят с использованием науки о данных:
1.«Ой, мы просто использовали этническую принадлежность, чтобы отказать кому-то в ипотечной ссуде». Нарушения в использовании информации, позволяющей установить личность (PII), происходят в DS постоянно. Цена такого нарушения конфиденциальности очень высока, и, как правило, ваш генеральный директор попадает на первую полосу Wall Street Journal. Учитывая, что в мае 2018 года громкий грохот GDPR перерос в шум, за этим стоит наблюдать.
2.«Ну и дела, эта модель отлично сработала на тестовых данных». В науке о данных существует целый класс «взрывов сверхновых», которые происходят из-за того, что называется «утечкой во времени». Например, если вы прогнозируете сегодняшнюю цену акций, совершенно разумно построить прогнозную модель, используя вчерашнюю цену акций и любую информацию, которая у вас есть за любой день в прошлом. Что не нормально, так это использовать информацию, которая у вас есть с сегодняшнего дня (это было бы обманом). Но удивительно много раз строятся модели, в которых информация о будущем (также известная как «ответ») просачивается назад во времени (временно). Это может произойти из-за неправильного названия поля или из-за ошибки в заборе в компьютерных науках. В конечном итоге модель на практике не так хороша, как в лаборатории. Это может привести к неправильному инвестированию и потере крупных сумм. Вы редко говорите о таких ошибках, потому что они очень дорогостоящие и неудобные.
- «Модель прекрасно предсказывала неверные вещи». Один из моих любимых примеров из моей книги («Создание приложений интеллектуального анализа данных для CRM») - это когда оператор мобильной связи строит модель, чтобы предсказать, какие клиенты подвергаются наибольшему риску непродления контракта (отказа от контракта). Модель, которую они создали, отлично предсказывала тех, кто уйдет. Затем маркетологи упреждающе разослали этим клиентам с высоким риском специальные и ценные маркетинговые предложения, напоминая им о необходимости продления. И наоборот, это резко увеличило отток, потому что это напомнило подверженным риску клиентам, что срок их контракта приближается.Модель была потрясающей, но плохо интегрировалась с остальным бизнесом.
4.«Модель просто больше не работает с этим набором данных». Мой друг управлял хедж-фондом, и он обнаружил много случаев, когда поставщики, предоставляющие отраслевые наборы данных, действительно имели ошибки в своих данных. Они и другие хедж-фонды правильно построили модели, основанные на неверных данных. А в мире науки о данных: отличное построение модели + плохие данные = плохая модель. К счастью, его хедж-фонд обнаружил ошибки в данных и фактически смог использовать поведение других хедж-фондов, которые использовали те же данные, но не заметили ошибок.
===============================================
Хедж-фонд (от англ. hedge — преграда, защита, страховка, гарантия) — инвестиционный фонд, ориентированный на максимизацию доходности при заданном риске или минимизацию рисков для заданной доходности. Представляет собой пул активов инвесторов, управляющийся профессионалами в интересах инвесторов.