Добрый день
Спасибо за вопрос. Специалистам по машинному обучению как начинающим, так и продолжающим полезно знать или вспоминать про этот метод.
Его чаще всего используют при решении задач регрессии. Т.е. когда нужно по набору признаков предсказать какую-либо непрерывную величину (в качестве примера, доход клиента по социально-демографическим признакам, цена автомобиля по техническим характеристикам).
Его суть в подборе коэффициентов регрессии таким образом, чтобы минимизировать (поиск наименьшего значения) отклонение предсказанного значения от реального, возведенного в квадрат( вы предсказали цену на автомобиль 200000, а на самом деле автомобиль стоил 220000. Квадрат отклонения это (220000-200000)^2, т.е. 400000000). В данном случае возведение в квадрат необходимо для нивелирования влияния знака перед числом.
Оценить же качество предсказания по тестовой выборки можно как раз по усреднению этих отклонений на разных наблюдениях. И эта метрика называется Mean Square Error(MSE) или средняя квадратическая ошибка. Складываем все отклонения и делим на их количество :)