Сколько нужно времени, чтобы подобрать фичи для конкретной задачи? Например, выявить ботов в соцсети?

Вопрос технический, в рамках ликбеза (простите, если глупый) : как долго/быстро делаются программы? И главное - фичи, признаки для решения подбирают люди? ведь речь идёт о десятках тысячах признаков. Или для этого тоже уже есть алгоритмы, способные обойтись без человека.

У меня 2 вопроса для примера

рассчитать доходность акций сектора через доступные данные о торгуемых на бирже компаниях сектора. Это сильно сложно сделать?
выявить, что в соцсети на тебя / компанию идёт атака ботов ( и нужно ли здесь применять ML вообще?).

Спасибо

Машинное обучениеИнтернет+1

Плотонова Ольга · 14 сент 2021 · 1,1 K

Руберг Дмитрий

Физик, математик, программист. Люблю нейронные... · 20 сент 2021

Естественно, всегда трудозатраты зависят от конкретной задачи. Опираясь на ваши примеры:

Атака ботов

У компании есть есть название, следовательно, я бы искал через api соцсетей все упоминания данной компании и дальше работал с ними.
Для работы с ними нам потребовалась бы модель, обученная распознавать негативный и позитивный контекст. А лучше две разные модели: одна выявляет негативный, другая - позитивный. На сочетании вероятностей позитивного и негативного, можно было бы относительно достоверное срабатывание получать.
Для тренировки той и другой моделей, нужно подобрать соответствующие тесты. Для работы с комментариями, а не с полноценными текстами, тренькать нужно на комментариях же, т.к. стилистика новостных материалов сильно отличается от комментариев. Так что, возможно, потребовалось бы не 2, а уже 4 модели (2 для комментов, 2 для новостей) и 2 или 4 набора материалов (положительные и отрицательные комментарии + положительные и отрицательные статьи).
Далее, материалы, полученные в пункте 1, передаются в модели. Получаем соотношение позитива к негативу. Если начинается перекос резкий в сторону негатива - скорее всего что-то идет не так. Не важно, боты это или нет.

Доходность акций

На сколько я в курсе, доходность зависит от прибыли компании. Следовательно, задача заключается в том, чтобы получить вчерашнюю прибыль и спрогнозировать сегодняшнюю.

Я бы начал с того, что получил из открытых источников информацию за прошлые года, на сколько это возможно ,по компаниям из интересующего сектора. В том числе и по объему дивидендов на акцию по каждой из компаний.
В зависимости от отрасли, можно было бы использовать дополнительные данные по объемам импорта/экспорта какой-то группы товаров + информацию по задействованным валютным парам или по объемам потребления электроэнергии данной отраслью, или по объемам грузоперевозок. В общем, постарался бы получить все возможные данные, которые могут указывать на то, хорошо ли идут дела в отрасли. Естественно, эти данные также нужно было бы получить за прошлые периоды, чтобы была возможность проверить гипотезу о взаимных влияниях и корреляции в целом.
Далее нужно было бы обучить предиктовую модель. Для повышения качества прогноза, потребовалось бы, скорее всего, понизить влияния различных глобальных событий, типа кризисов мировых или пандемии ковидной. Для выявления самого влияния, нужна была бы еще одна модель, которая выявляет тренды и цикличность, чтобы их можно было вычесть из наших данных на стадии обучения, или же для корректировки полученного прогноза.
И мне кажется, что в данной теме можно было бы использовать два вида прогноза: прогноз по каждой компании + усредненный прогноз доходности на акцию в отрасли. Полученные прогнозы женить между собой.

Десятков тысяч "фич", как правило, не требуется. И веса влияния каждого из критериев могут меняться в зависимости от совокупности всех критериев.

Так или иначе, описанные вами задачи вполне выполнимы в разумные сроки. И подбирать нужно не "фичи", а опорные данные.

1 эксперт не согласен

Артём Бойко

возражает

20 сент 2021

Слишком много пространственных рассуждений, ни на чём не основанных.

Стас Торгашов

Разработчик программного обеспечения 5G ML/AI... · 20 сент 2021

В вашем вопросе уже частично есть ответ. А именно: нужно ли вообще применять ML? Тут никакой шутки нет, наоборот, важно понять, какую цель вы преследуете и затем максимально точно поставить задачу. Ибо это позволит вам... Читать далее

1 эксперт согласен

alexandr azevich

Учитель - увлекаюсь нейронными сетями, создаю... · 20 сент 2021

Мне кажется с такими задачами справятся нейронки выявление ботов в соцсети ( анализ реакции на определённые слова, анализ вопросов-ответов, анализ тональности текста - известные задачи по тексту делаются быстро), Доходность... Читать далее

1 эксперт согласен

Лики BOGA

24 сент 2021

Секунд 30

Артём Бойко

Специалист в области управления и информатики в... · 15 сент 2021

Ваш вопрос в целом имеет очень обобщенный характер. Поэтому ответ на него будет настолько же размытым - все зависит от кол-ва пользователей соцсети и сложности применяемых ботов.

2 эксперта не согласны

Виталий Сергеев

возражает

18 сент 2021

Вы попросили меня верифицировать ответ, но подтвердить его я не могу, т.к. нет ответа на вторую часть вопроса:... Читать дальше