Задача сортировки часто возникает при создании различных систем автоматизации обработки данных на базе ЭВМ. В настоящее время известно множество алгоритмов сортировки, свойства которых достаточно хорошо изучены. Прежде чем рассмотреть основные из них, необходимо ввести базовые исходные понятия и сформулировать задачу.
Под данными в системах обработки данных понимаются описания фактов и понятий предметной области на формализованном входном языке описания данных. Средствами языка данные представляются в виде наборов (совокупностей) различных символов из некоторого исходного конечного множества символов, называемого алфавитом. Отдельные символы, входящие в эти наборы, являются элементами данных (простейшими данными). Они могут группироваться (объединяться), образуя различные структуры данных.
Под структурой данных в широком смысле понимается группа простейших данных, между которыми по определенному принципу установлены различные отношения. Структура данных, состоящая из элементов, связанных друг с другом по смыслу и обрабатываемых совместно, называется записью данных. Записи обычно делятся на части, которые называются полями. В ряде задач обработки данных к записям добавляется специальное поле, служащее для идентификации (определения) каждой записи по отношению к другим записям. Содержимое такого поля называется ключом записи. Конечная совокупность нескольких поименованных записей, в каждой из которых хранится однотипная информация на некотором внешнем носителе, например, магнитном, образует структуру данных, называемую файлом. Подобная же совокупность записей, хранящаяся в памяти, называется массивом.
Задача сортировки данных, решаемая для массивов и файлов, может быть сформулирована следующим образом.
Пусть имеется массив (файл) записей R1, R2, …, RN с ключами K1, K2, …, KN . На множестве ключей Ki, i=1, N вводится такое отношение порядка типа “≤”, что для любых трех значений ключей a, b, c выполняются следующие условия:
1) рефлексивность: a≤a;
2) антисимметричность: если a≤b, b≤a, то a=b;
3) транзитивность: если a≤b, b≤c, то a≤c;
4) линейность: для произвольных a и b
Любое множество записей, ключи которых удовлетворяют свойствам 1-4, называется полностью (линейно) упорядоченным (или совершенно упорядоченным).
Задача упорядочения (сортировки) данных состоит в том, чтобы найти такую перестановку записей, т.е. такую комбинацию их взаимного расположения, при которой ключи Ki расположились бы в неубывающем порядке:
K1 ≤ K2 ≤ … KN.
Если имеется возможность переставлять записи в произвольном порядке (в случае, когда все Ki различны, получится N! таких перестановок), то процесс переразмещения записей в упорядоченную последовательность называется сортировкой. Сортировка называется устойчивой, если она сохраняет упорядоченность записей и в случае равенства ключей отдельных записей. Сортировка записей, хранящихся в памяти, называется внутренней. Сортировка, которая выполняется для записей в файлах, называется внешней.
В дальнейшем рассматриваются методы внутренней сортировки на примере упорядочения простой последовательности целых чисел (x1, x2, …,xn), для которых значение ключа совпадает со значением элемента последовательности.
Примечание. Помимо понятия линейного упорядочения существует понятие лексикографического упорядочения, которое используется в задачах обработки буквенно-символьной информации. В узком смысле лексикографический порядок – это порядок слов в словаре, определяемый последовательностью букв некоторого алфавита. В общем случае рассматривается некоторое множество символов S={xi}, i=1, n, на котором существует отношение порядка “≤”. Для n>0 вводится множество T n-кортежей (x1, x2, …,xn), для которых определяется отношение упорядочения:
(x1, x2, …,xn) < (y1, y2, …,yn)
тогда и только тогда, когда существует некоторое значение k, 1≤k≤n, для которого xi=yi при 1≤i
Если все кортежи расположены в соответствии с указанным отношением, то множество T считается лексикографически упорядоченным. Рассмотренное понятие может быть обобщено и для кортежей (строк) неодинаковой длины. При этом порядок строк будет совпадать с порядком слов в словаре. |