В IP телефонии данные (и сигнализация, и голос) передаются в виде IP-пакетов, как и любые другие данные, передаваемые в интернете или локальных сетях по протоколу IP. Сигнализация (данные, необходимые для совершения вызова, такие, как номер телефона) передаётся по протоколам SIP или H.323, или через какой-то свой проприетарный протокол в мессенджерах типа Skype (все эти протоколы работают поверх TCP или UDP), а медиа (голос или видео) передаётся по протоколу RTP (он работает только поверх UDP, так как передача голоса критична к задержкам и лучше пропустить пакет, чем перезапросить и дождаться ответа).
Упрощённо говоря, через SIP или другой протокол сигнализации по номеру телефона или имени пользователя получается IP-адрес и порт, по которому надо посылать или принимать данные, посылается сигнал звонка и принимается подтверждение вызова (по этому адресу может находиться непосредственно телефон другого абонента или какой-то промежуточный сервер, например, передающий вызов в городскую телефонную сеть или записывающий разговоры). После чего передаваемый голос кодируется со сжатием и передаётся сравнительно малыми пакетами (для уменьшения задержек), длиной до нескольких десятков миллисекунд (в зависимости от кодека может быть разная длина), и передаётся на указанный адрес и порт, а принимаемые на согласованный по протоколу сигнализации адрес и порт пакеты собираются в буфер, данные из которого декодируются и воспроизводятся как голос другого абонента (возможно и с изображением, если вызов с видео).
IP-телефония отличается от обычной, где голос передаётся непрерывно, тем, что она требует хорошего канала связи, чтобы пакеты приходили без разброса задержек, приёмный буфер заполнялся и декодер успевал восстанавливать звук.