Дата-сайнтесты занимаются тремя вещами:
1) Разбираются, какие данные есть и как их связать друг с другом
2) Создают таблички и графики, показывающие что эти данные означают
3) Строят модели предсказывающие что-либо важное для науки или бизнеса на основе данных
Данные в общем случае могут быть любыми, но чаще всего это логи крупных систем сбора информации, например счетчиков расхода электроэнергии, логов посещения вебсайтов, или гео-логов мобильных телефонов.