Статистическая теория информации связывает понятие информации с уменьшением неопределенности состояния (энтропии) объекта. К. Шеннон и Н. Винер предложили математический аппарат для количественного измерения неопределенности и информации.
I = Ha – Hap
где Ha – неопределенность до опыта(априори); Hap – неопределенность после опыта (апостериори); I – количество информации
Этот подход способствовал пониманию того, что нет абсолютной информации об объекте, определение информации зависит от составленной модели объекта.
За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределенность знаний в два раза. Такая единица названа бит.
Во многих случаях используют группы бит состоящие из 16 разрядов (слово), 32 разрядов (двойное слово), 48 – разрядов (учетверенное) слово.
Наименьшей единице измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объему в символах (за исключением кодировки Unicode).
Более крупная единица измерения - килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что для вычислительной техники, работающей с двоичными числами, более удобно представление чисел в виде степени двойки, и потому на самом деле 1 Кбайт равен 210 байт (1024 байт).
В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт. Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига-, тера: