Для любых конкретных обучающей и тестовой выборок точность это "точечная оценка". Для уверенности в результате вам нудна его "интервальная оценка" (например "95% доверительный интервал").
Вы можете получить такой интервал применив различные варианты бутстрепа. n-fold например. Делаете много вариантов обучающей и тестовой выборок и для каждой получаете точность результата обучения. Объединив результаты у вас есть уже интервальная оценка в пределах какой находится итоговая точность (если конечно вы нигде не промахнулись с рандомизацией в выборках и самих данных). Это пожалуй самая точная оценка которая у вас возможна для конкретных данных.
Но можно заняться и "аугментацией данных", то есть увеличивать размер данных найдя некие инвариантные преобразования опирающиеся на природу собираемых данных. Тогда можно существенно снизить неопределенность оценки точности решения. И даже в самых удачных случаях обучить более сложную модель и увеличить точность решения.