Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Стоит ли Kaggle рассматривать как подспорье для входа в Data Science?

ПрограммированиеData science+2
Анонимный вопрос
  ·   · 7,8 K
Датасаентист. Увлекают технологии: VR, NFT...  · 8 июн 2022
За:
  • Возможность перенять практические приемы по раскачке модели, о которых мало говорят на курсах и которые вовсе не встретить в академическом поле
  • Звездный статус на Kaggle откроет для вас новые возможности для карьеры, ваша репутация будет на высоте, может помочь решить проблему с синдромом самозванца
  • Шанс "поднять бабла", сопоставимый с выигрышем в лотерею.
Против:
  • Формируется неверное представление о том, как ведется разработка моделей машинного обучения в индустрии. Ноутбуки - не являются основным артефактом разработки, основной артефакт разработки: python-пакеты, проект должен быть понятно структурирован, должна вестись документация и т.д. по правилам воспроизводимости.
  • Формируется неверный акцент на поиск прироста метрик модели: вместо feature engineering акцент у новичков смещается в применение как можно более пафосного алгоритма ML и настройку его гиперпараметров. В индустрии у вас легко может оказаться задача: выжать максимум из логистической регрессии, а вы привыкли мыслить, что все, что не catboost - что-то, что даже неприлично подумать применять.
  • Формируется неверное представление о распределении времени в работе. На Kaggle можно заниматься моделированием 50% процентов времени. В реальности 80% времени и более вы будете заниматься предобработкой и поиском новых данных. Новички очень расстраиваются, ударившись о такую реальность.
  • Данные на Kaggle чистые - формируется неверное представление, что в индустрии человек будет тоже работать с отпалированными под моделирование данными и сильно демотивируется, столкнувшись с тем, что самому нужно добывать данные у подразделений компании и доводить их до приличного вида
  • Данные на Kaggle могут быть специально приведены к неинтерпретируемому виду - формируется неверное представление, что можно обойтись autoML предобработкой, а понимание природы взаимосвязи между таргетом и фичей не так важно
  • Моделирование на Kaggle обычно не предполагает обогащение датасета данными извне, но в реальности это первое, чем стоит заняться: можно сколько угодно заниматься инжинирингом фичей на базе столбца с индексами, но никакого результата, скорее всего, это не даст.
  • Формируется навык на читинг соревнования путем поиска лика в метаданных. Применение ликов в индустриальном моделировании приведет к экстремальному переобучению модели со всеми вытекающими.
  • Многие статьи на Kaggle написаны теми же новичками / среднячками и качество контента сомнительное. Снова закрепляется в этих статьях мысль, что вести разработку модели в ноутбуке - это нормально (нет).
  • Пока вы не начнете выигрывать соревнования - профита от Kaggle вы не получите в плане репутации и карьеры, а у новичка на это шансов почти нет.
Резюмирую мое видение: Kaggle - это платформа самореализации состоявшихся мастеров. Новички же тут формируют неверные представления о процессе производства моделей и потом их представления надо корректировать, за что не каждый в индустриальной разработкке захочет браться.
Специалист в области управления и информатики в...  · 21 янв 2022
Kaggel и ODS. Это две основные платформы DS. Kaggle - международная, ODS - Россия. Стоит, однозначно.
3 эксперта согласны
Специалисты по данным всех уровней могут извлечь выгоду из ресурсов и сообщества Kaggle.
Разработчик программного обеспечения 5G ML/AI...  · 25 янв 2022
Безусловно. Для состоявшегося специалиста в DS это может быть не столь уже важно, (можно рассматривать как хобби, например), то для новичка в DS очень важно иметь что-то в портфолио, кроме образования. И профиль на Kaggle -... Читать далее
Программирование. Машинное обучение.  · 24 янв 2022
1. Обучение. https://www.kaggle.com/alexisbcook/titanic-tutorial 2. Реальные работающие открытые проекты. 3. Наборы данных на все направления. 4. Встроенная ML система с тяжелыми библиотеками, которые и на личный комп не... Читать далее
Учёный, доктор наук, математика, информатика и...  · 19 янв 2022
Однозначно да. Это комьюнити специалистов, которые занимаются именно этой проблемой. Решением задач мирового уровня в сфере Data Science