В ответе на данный вопрос нужно разделить понятия:
У людей одной национальности банально одинаковый язык общения. Уже это сформирует внешнее сходство голоса.
До ~ 5 лет у человека формируется "акцент", что также приводит к тому, что в рамках одного региона все люди (и мужчины, и женщины) будут говорить схоже. В дальнейшем, акцент меняется, но не сильно.
Несмотря на язык и акцент, звуки, которые может воспроизвести человек (или любое другое животное), определяются биологическими системами и резонаторами. У человека - это вся верхняя половина туловища. От физического строения организма (по факту - генетики), зависит то, что именно сможет воспроизвести человек.
У каждой нации есть некоторые схожести в строения организма, которые приводят к схожему звучанию, если голоса усреднить среди большого количества представителей нации.
Что касается каждого индивида, то почти каждый человек обладает разной амплитудно-частотной и фазо-частотной характеристиками голоса (которые могут быть настроены самим человеком в пределах физических органичений индивида), за исключением близнецов.
Амплитудно-частотная характеристика голоса человека, при воспроизведении гласных звуков, представляет собой дискретный график из набора определенных звуковых частот, как правило кратных некоторой базовой частоте голоса человека. В зависимости от напряжения мышц эта базовая, минимальная, частота голоса может меняться у каждого по-разному, формируя "динамический диапазон" голоса. У уникальных людей динамический диапазон достигает 4-5 октав. 4 октавы - это изменение частоты в 2^4=16 раз. Т.е., допустим, в норме базовая частота равна 100 Гц, а при напряжении мышц она становится 1600 Гц. У большинства людей динамический диапазон равен 1.5-2 октавам. Динамический диапазон во-многом определяется эластичностью тканей организма. Чем выше эластичность - тем выше динамический диапазон. Эластичность человека во-многом определяется коллагеном (в-принципе, гибкость). Количество коллагена в человеке, если не использовать спец средства в пищу, будет определяться генетически.
Кроме динамического диапазона у человека имеется определенный тембр голоса. Тембр - это отношение амплитуды и частоты гармоник в голосе человека. Гармоника - это звуковая волна, по своей частоте кратная целочисленно некоторой базовой частоте. Количество гармоник и их амплитуда определяются строением организма, количеством переотражений звуковых волн и пр. Это тот параметр, который определяется генетическим строением организма. Чем ближе друг к другу люди по строению организма, тем ближе будет их тембр. В частности, в пределах одной семьи количество гармоник в голосе родителей и детей часто сопоставимо.
Тембр будет "резонирующим" в случае большого количества отчетливо слышимых гармоник (10-20-40, что характерно для голоса негров) и "мягким", "ламповым" в случае малого количества основных (с наибольшей амплитудой) гармоник (1-2 шт, характерно для голосов азиатов).
В процессе разговора люди за счет напряжения мышц меняют амплитуды гармоник (почти не меняя при этом частоту гармоник), меняя тем самым произносимый звук, букву, некоторую усредненную частоту голоса.
Выше сказанное относится к гласным звукам и согласным не шипящим. Шипящие звуки (т,ш,х,с) в своей основе имеют преимущественно непрерывный спекты (амплитудно-частотную характеристику). Воспроизведение шипящих звуков, безусловно, зависит от генетических факторов, но, также, очень большое влияние имеет именно методика воспроизведения, то, как человек это научился делать.