Естественно, всегда трудозатраты зависят от конкретной задачи. Опираясь на ваши примеры:
Атака ботов
- У компании есть есть название, следовательно, я бы искал через api соцсетей все упоминания данной компании и дальше работал с ними.
- Для работы с ними нам потребовалась бы модель, обученная распознавать негативный и позитивный контекст. А лучше две разные модели: одна выявляет негативный, другая - позитивный. На сочетании вероятностей позитивного и негативного, можно было бы относительно достоверное срабатывание получать.
- Для тренировки той и другой моделей, нужно подобрать соответствующие тесты. Для работы с комментариями, а не с полноценными текстами, тренькать нужно на комментариях же, т.к. стилистика новостных материалов сильно отличается от комментариев. Так что, возможно, потребовалось бы не 2, а уже 4 модели (2 для комментов, 2 для новостей) и 2 или 4 набора материалов (положительные и отрицательные комментарии + положительные и отрицательные статьи).
- Далее, материалы, полученные в пункте 1, передаются в модели. Получаем соотношение позитива к негативу. Если начинается перекос резкий в сторону негатива - скорее всего что-то идет не так. Не важно, боты это или нет.
Доходность акций
На сколько я в курсе, доходность зависит от прибыли компании. Следовательно, задача заключается в том, чтобы получить вчерашнюю прибыль и спрогнозировать сегодняшнюю.
- Я бы начал с того, что получил из открытых источников информацию за прошлые года, на сколько это возможно ,по компаниям из интересующего сектора. В том числе и по объему дивидендов на акцию по каждой из компаний.
- В зависимости от отрасли, можно было бы использовать дополнительные данные по объемам импорта/экспорта какой-то группы товаров + информацию по задействованным валютным парам или по объемам потребления электроэнергии данной отраслью, или по объемам грузоперевозок. В общем, постарался бы получить все возможные данные, которые могут указывать на то, хорошо ли идут дела в отрасли. Естественно, эти данные также нужно было бы получить за прошлые периоды, чтобы была возможность проверить гипотезу о взаимных влияниях и корреляции в целом.
- Далее нужно было бы обучить предиктовую модель. Для повышения качества прогноза, потребовалось бы, скорее всего, понизить влияния различных глобальных событий, типа кризисов мировых или пандемии ковидной. Для выявления самого влияния, нужна была бы еще одна модель, которая выявляет тренды и цикличность, чтобы их можно было вычесть из наших данных на стадии обучения, или же для корректировки полученного прогноза.
- И мне кажется, что в данной теме можно было бы использовать два вида прогноза: прогноз по каждой компании + усредненный прогноз доходности на акцию в отрасли. Полученные прогнозы женить между собой.
Десятков тысяч "фич", как правило, не требуется. И веса влияния каждого из критериев могут меняться в зависимости от совокупности всех критериев.
Так или иначе, описанные вами задачи вполне выполнимы в разумные сроки. И подбирать нужно не "фичи", а опорные данные.