Нужно следующее:
- Достаточное количество данных
- Правильная методика оценки данных
Например, нужно заранее рассчитать какое количество пользователей будет достаточным, чтобы проверить гипотезу. Точно не 5 и не 10 и точно не "миллион" это слишком долго. Нужно решить какая ошибка допустима (например 5%) взять формулу из статистики и посчитать необходимый объем данных, (есть калькуляторы онлайн). Потом запускать тест на рассчитанное количество пользователей.