Что происходит с файлами при сжатии. Куда пропадает часть информации. Если на примере аудио формата mp3 урезаются низкие и высокие частоты, которые человеческое ухо не слышит, то что тогда урезается в простых наборах букв и единиц?
С помощью словаря.
Программа-архиватор просматривает данные и создаёт частотный словарь - определяет последовательности символов, которые наиболее часто встречаются. Ну и потом заменяет их на более короткие символы.
Например, в вашем сообщении таких комбинаций мало, можно заменить разве что блок "пробел + пр". Ваш вопрос будет сложно архивировать.
А в моём ответе можно сразу в словаре указать, что вместо "словар" пишем "0", вместо "символ" - "1", вместо "про" - символ "3" и так далее. В результате запись кода выйдет гораздо короче - что-то типа:
С помощью 0я.
3грамма-архиватор 3сматривает данные и создаёт частотный 0ь - определяет последовательности 1ов.
И в конце файла словарь для расшифровки.
Это, конечно, выдуманный пример записи, но в реальности оно примерно так и выглядит.
Разные форматы сжатия - это пляски с бубном вокруг этого процесса. Где-то один метод создания словаря, где-то другой. Например, rar, в отличие от zip, может создать один словарь на несколько файлов - то есть, сделать непрерывный архив. Более старые архиваторы могли использовать не свои словари, а стандартные, например. Или не анализировать символы, а разбивать текст на блоки определённой длинны и искать совпадения - форматов и способов архивирования сейчас уже довольно много. Но суть одна и та же.