Возможность перенять практические приемы по раскачке модели, о которых мало говорят на курсах и которые вовсе не встретить в академическом поле
Звездный статус на Kaggle откроет для вас новые возможности для карьеры, ваша репутация будет на высоте, может помочь решить проблему с синдромом самозванца
Шанс "поднять бабла", сопоставимый с выигрышем в лотерею.
Против:
Формируется неверное представление о том, как ведется разработка моделей машинного обучения в индустрии. Ноутбуки - не являются основным артефактом разработки, основной артефакт разработки: python-пакеты, проект должен быть понятно структурирован, должна вестись документация и т.д. по правилам воспроизводимости.
Формируется неверный акцент на поиск прироста метрик модели: вместо feature engineering акцент у новичков смещается в применение как можно более пафосного алгоритма ML и настройку его гиперпараметров. В индустрии у вас легко может оказаться задача: выжать максимум из логистической регрессии, а вы привыкли мыслить, что все, что не catboost - что-то, что даже неприлично подумать применять.
Формируется неверное представление о распределении времени в работе. На Kaggle можно заниматься моделированием 50% процентов времени. В реальности 80% времени и более вы будете заниматься предобработкой и поиском новых данных. Новички очень расстраиваются, ударившись о такую реальность.
Данные на Kaggle чистые - формируется неверное представление, что в индустрии человек будет тоже работать с отпалированными под моделирование данными и сильно демотивируется, столкнувшись с тем, что самому нужно добывать данные у подразделений компании и доводить их до приличного вида
Данные на Kaggle могут быть специально приведены к неинтерпретируемому виду - формируется неверное представление, что можно обойтись autoML предобработкой, а понимание природы взаимосвязи между таргетом и фичей не так важно
Моделирование на Kaggle обычно не предполагает обогащение датасета данными извне, но в реальности это первое, чем стоит заняться: можно сколько угодно заниматься инжинирингом фичей на базе столбца с индексами, но никакого результата, скорее всего, это не даст.
Формируется навык на читинг соревнования путем поиска лика в метаданных. Применение ликов в индустриальном моделировании приведет к экстремальному переобучению модели со всеми вытекающими.
Многие статьи на Kaggle написаны теми же новичками / среднячками и качество контента сомнительное. Снова закрепляется в этих статьях мысль, что вести разработку модели в ноутбуке - это нормально (нет).
Пока вы не начнете выигрывать соревнования - профита от Kaggle вы не получите в плане репутации и карьеры, а у новичка на это шансов почти нет.
Резюмирую мое видение: Kaggle - это платформа самореализации состоявшихся мастеров. Новички же тут формируют неверные представления о процессе производства моделей и потом их представления надо корректировать, за что не каждый в индустриальной разработкке захочет браться.
Разработчик программного обеспечения 5G ML/AI... · 25 янв 2022
Безусловно.
Для состоявшегося специалиста в DS это может быть не столь уже важно, (можно рассматривать как хобби, например), то для новичка в DS очень важно иметь что-то в портфолио, кроме образования. И профиль на Kaggle -... Читать далее
1. Обучение. https://www.kaggle.com/alexisbcook/titanic-tutorial
2. Реальные работающие открытые проекты.
3. Наборы данных на все направления.
4. Встроенная ML система с тяжелыми библиотеками, которые и на личный комп не... Читать далее