Чем может быть опасно широкое применение Data science?

Data science

Мария Снегова · 18 окт 2021 · 3,6 K

Openstack DevOps and IBM/Informix Certified DBA... · 30 окт 2021

Этот текст не совсем про Россию и тем не менее

================================================

Наука о данных похожа на плутоний. Гораздо мощнее и опаснее урановой руды. Сам по себе он может генерировать электричество,приводить в действие спутники и производить очень большие взрывы.

Наука о данных, как и плутоний, должна быть частью дисциплинированного производственного процесса, чтобы высвободить его энергию и предотвратить взрывы. Вот четыре типа "взрывов", которые регулярно происходят с использованием науки о данных:

1.«Ой, мы просто использовали этническую принадлежность, чтобы отказать кому-то в ипотечной ссуде». Нарушения в использовании информации, позволяющей установить личность (PII), происходят в DS постоянно. Цена такого нарушения конфиденциальности очень высока, и, как правило, ваш генеральный директор попадает на первую полосу Wall Street Journal. Учитывая, что в мае 2018 года громкий грохот GDPR перерос в шум, за этим стоит наблюдать.

2.«Ну и дела, эта модель отлично сработала на тестовых данных». В науке о данных существует целый класс «взрывов сверхновых», которые происходят из-за того, что называется «утечкой во времени». Например, если вы прогнозируете сегодняшнюю цену акций, совершенно разумно построить прогнозную модель, используя вчерашнюю цену акций и любую информацию, которая у вас есть за любой день в прошлом. Что не нормально, так это использовать информацию, которая у вас есть с сегодняшнего дня (это было бы обманом). Но удивительно много раз строятся модели, в которых информация о будущем (также известная как «ответ») просачивается назад во времени (временно). Это может произойти из-за неправильного названия поля или из-за ошибки в заборе в компьютерных науках. В конечном итоге модель на практике не так хороша, как в лаборатории. Это может привести к неправильному инвестированию и потере крупных сумм. Вы редко говорите о таких ошибках, потому что они очень дорогостоящие и неудобные.

«Модель прекрасно предсказывала неверные вещи». Один из моих любимых примеров из моей книги («Создание приложений интеллектуального анализа данных для CRM») - это когда оператор мобильной связи строит модель, чтобы предсказать, какие клиенты подвергаются наибольшему риску непродления контракта (отказа от контракта). Модель, которую они создали, отлично предсказывала тех, кто уйдет. Затем маркетологи упреждающе разослали этим клиентам с высоким риском специальные и ценные маркетинговые предложения, напоминая им о необходимости продления. И наоборот, это резко увеличило отток, потому что это напомнило подверженным риску клиентам, что срок их контракта приближается.Модель была потрясающей, но плохо интегрировалась с остальным бизнесом.

4.«Модель просто больше не работает с этим набором данных». Мой друг управлял хедж-фондом, и он обнаружил много случаев, когда поставщики, предоставляющие отраслевые наборы данных, действительно имели ошибки в своих данных. Они и другие хедж-фонды правильно построили модели, основанные на неверных данных. А в мире науки о данных: отличное построение модели + плохие данные = плохая модель. К счастью, его хедж-фонд обнаружил ошибки в данных и фактически смог использовать поведение других хедж-фондов, которые использовали те же данные, но не заметили ошибок.

===============================================

Хедж-фонд (от англ. hedge — преграда, защита, страховка, гарантия) — инвестиционный фонд, ориентированный на максимизацию доходности при заданном риске или минимизацию рисков для заданной доходности. Представляет собой пул активов инвесторов, управляющийся профессионалами в интересах инвесторов.

Мазуренко Олег Михайлович

Квал. инвестор (реестр Сбера). МВА "Стратегия". Др... · 18 окт 2021 ·

GPT_chat_robot

Странный вопрос. Чем может быть опасна обработка данных? Только теми не верными выводами, которые могут сделать после этой обработке. Но причем тут Data sciense? Топор в руках лесоруба и в руках Раскольникова, одинаковый... Читать далее

Лайфхаки по Chat_GPT

Перейти на t.me/ai_chat_gpt_ai

1 эксперт согласен

Иван Пальчиков

29 окт 2021

Тем не менее, вопрос именно про применение, а не дисциплину как таковую. Опасно может быть при попытках... Читать дальше

Сергей Ильин

аналитик данных · 28 окт 2021

Тут уместно гуглить следующее: 1/ система социальных рейтингов в Китае - пример того, до чего можно дойти в погоне за «все посчитать» 2/ система слежения за сотрудниками на складах у Амазона - дикая потогонка, чистый ад 3/... Читать далее

1 эксперт согласен

Вячеслав Витальевич Шляхетский

Диванный философ, по совместительству инженер · 18 окт 2021

Опасность технологий Big Data в том, что очень велик соблазн применять выдаваемые ими результаты в вещах меняющих жизни конкретных людей. Но при этом. Нет прозрачной понятной зависимости между входными и выходными данными этих... Читать далее

Гульнара Гайфуллина

19 окт 2021

Спасибо за ответ!

konstantin kazartsev

программист · 30 окт 2021

Мне видятся две основные опасности: - техническая: мы станем менее критично относится к своим моделям (ну как физики конца 19 века считали, что они разгадали вселенную на 100% и им нужен только мощный арифмомент). Т.е... Читать далее