Мы сохранили весь контент, но добавить что-то новое уже нельзя
Почему для кодирования одного символа используют один или более байт, если в байт можно уместить последовательность символов?
Например для кодирования числа до 255 можно использовать один байт в соответствии с двоичной системой, однако для маркировки иных символов стоило бы занять ряд значений. Тогда буква маркировалась бы значением 11111111, означающим что следующий за маркером байт буквенный, включающий в свою очередь все единичные буквы и некоторые из сочетания, а что не вошло в байт так же маркируется. Таким образом система кодирования сократила бы объем затраченных на хранение информации ресурсов. Существует ли поробная система кодирования, и реально ли с ее помощью "сжать" информацию?
Веб-разработчик, геймер, специалист по этике · 6 июн 2022
Давайте определимся вот с чем.
В оперативной памяти хранятся только числа. То же самое относится к файлам на диске. Более того, оператива физически не способна хранить ничего, кроме электрических сигналов, которые мы интерпретируем как числа. Группа из восьми транзисторов используется для кодирования числа от 0 до 255, которое мы называем "байтом". Если северный мост по шине данных снимает показания с ячейки памяти, и там под напряжением два транзистора: второй справа и крайний левый, то процессор интерпретирует это как то, что в этой ячейке памяти "хранится" "число" 10000010b = 2^7+2^1 = 130.
Теперь, зная это, зададимся вопросом, как нам хранить в оперативе по-настоящему интересные данные, а именно, текстовые. Ответ на это очень прост: мы пронумеруем каждый интересующий нас символ, а при чтении из оперативной памяти будем как-то заранее знать, числа мы читаем или символы. Раньше была популярна кодировка ASCII, гореть ей в аду, которая давала числа 128 символам, в том числе 64 буквам и 10 цифрам. Теперь у нас есть проект Unicode, миссия которого - дать числовые номера абсолютно всем символам в человеческой цивилизации и их комбинациям.
Теперь, надеюсь, мы будем с вами говорить на одном языке, и я смогу прокомментировать ваши умозаключения и вопросы.
система кодирования сократила бы объем затраченных на хранение информации ресурсов.
То, что я только что упомянул - абстрактная система кодирования, в которой каждому символу ставится один конкретный номер, представляется мне самой оптимальной, какой только возможно. Задача, которую решают системы кодировки в компьютерах - как номера символов запихнуть в наименьший возможный объём, то есть, как оптимально хранить числа. Например, UTF-8 использует маркеры, похожие на то, что вы предлагаете, только на маркер используется не целый байт, а старшие биты самого байта. Вот демо-скриншот с википедии:
Благодаря этому, часто встречающиеся символы кодируются меньшим числом байтов, в идеале - одним. Если вы пользуетесь только первыми 128 символами из ASCII, разницы между ASCII и UTF-8 нет.
Тогда буква маркировалась бы значением 11111111, означающим что следующий за маркером байт буквенный,
Маркировать каждый байт, содержащий информацию, которую следует читать как символы, очень расточительно. Обычно символы идут подряд большими длинными строчками, поэтому выгоднее маркировать сразу всю строку.
Языки, которые используют динамическую типизацию, делают именно так. Любое значение, которое хранится в оперативной памяти, хранится вместе с дополнительными отметками о том, какого типа это значение. Например, строка, или пользовательский тип какой-то. Имейте в виду, что и само значение, и эти дополнительные отметки в оперативе хранятся числами ("байтами"), и отделить, что является данными, что является метаданными - задача самой языковой среды исполнения программы.
Научные заметки о жизни:
zen.yandex.ru/id/5c434983... · 4 июн 2022
Байт может иметь 256 различных значений. Использовать их можно по разному, но нельзя впихнуть невпихуемое.
Можно договориться, что в байте хранится номер главы романа "Война и мир" (пусть только первых 256). И утверждать, что... Читать далее
Хранить числа в бинарном виде в тексте? Подобное с оговорками практикуется в способе кодирования Base64, который используется для передачи бинарных файлов по электронной почте. Есть также ASCII85, который совместим оказывается... Читать далее
Диванный философ, по совместительству инженер · 12 июн 2022
Тут надо представить характер информации, которую мы пытаемся кодировать. Ваш способ кодировки будет эффективен, если у нас есть неструктурированные данные состоящие в основном из последовательностей цифр (которые можно... Читать далее
Пенсионер, электрохимик, доцент кафедры физики... · 30 дек 2022
Когда я был студентом, компьютеров не было вовсе, а были ЭВМ и появились первые калькуляторы. А еще были занятия по программированию. :) В то время нашей основной задачей было написание компактных алгоритмов - то есть способа... Читать далее
Кои7 была такая кодировка. Использовалось не 8 бит а 7. Тогда да, в один байт можно было запихнуть больше одного символа. То что вы предлагаете, не имеет смысла, в современных реалиях. Потому что экономить память используя... Читать далее
В бытность студентом мы изучали кодировку с минимальной избыточностью информации (не помню как она называется). Она построена на подобие азбуки Морзе, то есть наиболее часто встречающийся символ кодируется одним битом. И так... Читать далее
Программирование, большие данные, криптопанк... · 9 июн 2022
Кодирование текстовой информации имеет несколько различных аспектов, которые можно разделить по целям использования. Например закодированную информацию можно хранить, обрабатывать и передавать. Если информацию нужно... Читать далее