Идею можно распространить на последовательности символов произвольной длины.
Текст второго порядка был получен формированием каждой буквы в зависимости от предыдущих двух (пара букв часто называется диграммой). За диграммой ТН в английском обычно следуют гласные А, Е, I, О, U и Y, реже — согласные R и W, и еще реже прочие буквы алфавита. Текст третьего порядка был получен путем формирования очередной буквы по трем предыдущим (триграмма). В тексте четвертого порядка почти все слова уже выглядят нормальными, и вас, думаю, не удивит, если я скажу, что он был получен из рассказа Конан-Дойля «The Adventure of Abbey Grange». Один из тех людей, кто читал черновик этой главы, обладал классическим образованием. Он отметил, что эта последовательность отрывков напомнила ему переход от староанглийского языка к языку Викторианской эпохи.
Читатели с математическим образованием могут увидеть здесь цепи Маркова. Каждое состояние представляется k-граммой, и вероятности перехода от одного состояния к другому не меняются, поэтому это можно назвать щепъю Маркова с конечным числом состояний и стационарными вероятностями перехода».
Мы можем формировать случайный текст на уровне слов. Самый примитивный подход заключается в случайном выборе слов из словаря. Более «продвинутый» состоит в анализе некоторого документа, подсчете количества слов и корректировании вероятностей появления новых слов соответствующим образом (для решения такой задачи можно использовать программы из раздела 15.1). Более интересный текст можно получить с помощью цепей Маркова, учитывающих несколько предыдущих слов для получения следующего. Вот случайный текст, полученный из черновика первых 14 глав этой книги.
1- й порядок: The table shows how many contexts; it uses two or equal to the sparse matrices were not chosen. In Section 13.1, for a more efficient that “the more time was published by calling recursive structure translates to build scaffolding to try to know of selected and testing and more robust and a binary search).
2- й порядок: The program is guided by verification ideas, and the second errs in the STL implementation (which guarantees good worst-case performance), and is especially rich in speedups due to Gordon Bell. Eveiy thing should be to use a macro: for n * 10,000, its run time; that point Martin picked up from his desk.
3- й порядок: A Quicksort would be quite efficient for the main-memory sorts and it requires only a few distinct values in this particular problem, we can write them all down in the program, and they were making progress towards a solution at a snail's pace.
Текст первого порядка почти можно читать вслух, тогда как текст 3 порядка содержит длинные фразы из оригинала без искажений, но со случайными переходами от одной к другой. Для пародий лучше всего использовать тексты второго порядка.
Первый раз я столкнулся с генерацией английского текста на уровне букв и слов с различными порядками цепей в классической книге Шеннона «Математическая теория связи». Шеннон пишет: «Чтобы получить, к примеру, [текст 1 порядка на уровне букв] следует открыть книгу на случайной странице и выбрать случайную букву с этой страницы, которую и следует выписать в текст. Затем нужно открыть книгу на другой случайной странице, найти там эту же букву и выписать следующую за ней. На следующей случайной странице следует найти вторую букву и выписать последующую, и так далее. Аналогичный процесс использовался для [получения текста 1-го и 2-го порядков на уровне букв и 0-го и 1-го порядков на уровне слов]. Интересно было бы построить дальнейшие приближения, но задача на следующих порядках оказывается слишком трудоемкой».
Компьютер позволяет автоматизировать выполнение этой трудоемкой задачи.
Опубликовал vovan666
April 17 2013 00:04:51 ·
0 Комментариев ·
17068 Прочтений ·
• Не нашли ответ на свой вопрос? Тогда задайте вопрос в комментариях или на форуме! •
Комментарии
Нет комментариев.
Добавить комментарий
Рейтинги
Рейтинг доступен только для пользователей.
Пожалуйста, залогиньтесь или зарегистрируйтесь для голосования.
Нет данных для оценки.
Гость
Вы не зарегистрированны? Нажмите здесь для регистрации.