1. Повсюду в тексте главы мы использовали простое определение: слово — последовательность символов, заключенных в пробелы. Во множестве реальных форматов документов (HTML или RTF, к примеру) содержатся команды форматирования. Как можно обработать такие команды, не включив их в список слов? Может ли возникнуть необходимость выполнить какие-либо другие действия, чтобы в списке слов оказались действительно слова?
2. Как можно использовать библиотечные структуры set и тар для решения задачи поиска из раздела 13.8 главы 13 на компьютере с большим объемом оперативной памяти? Каковы будут затраты памяти по сравнению с программой Макилроя?
3. Насколько можно ускорить программу хэширования из раздела 15.1, если в нее добавить специальный вызов malloc (для однократного выделения памяти)?
4. Если таблица велика и функция хэширования хорошо разбрасывает по ней данные, почти все списки в этой таблице оказываются короткими. Если одно из этих условий оказывается нарушенным, время поиска элемента в списке существенно возрастает. Если мы не находим некоторую строку в таблице хэширования из раздела 15.1, то она помещается в начало списка. Чтобы промоделировать ситуацию с небольшой таблицей, установите NHASH = 1 и поэкспериментируйте с этой и другими стратегиями формирования списка. Например, новый элемент можно дописывать не к началу, а к концу списка или перемещать элементы при их успешном обнаружении к его началу.
5. В разделе 15.1 частотный словарь выводился в порядке убывания частоты слов. Как можно изменить программу на С и C++, чтобы достигнуть этого? Как можно вывести только М первых по частоте повторения слов, если М — некоторая константа (например, 100 или 1000)?
6. Как найти подстроку, лучше всего совпадающую с данной, с помощью мае- сива остатков? Как бы вы реализовали графический интерфейс пользователя для этой задачи?
7. Наша программа поиска повторяющихся строк работала очень быстро для «типичных» текстов, но для некоторых специально подобранных последовательностей она может работать очень медленно (медленнее, чем за 0(п2)). Измерьте скорость работы программы в такой ситуации. Может ли реально встретиться такой входной текст?
8. Как бы вы изменили программу поиска повторяющихся строк, чтобы она находила самую длинную строку, встречающуюся в тексте не менее М раз?
9. Если даны два текста, как найти самую длинную общую подстроку?
10. Покажите, как можно уменьшить количество указателей в программе поиска повторяющихся строк, если устанавливать их только на начала слов? Как это повлияет на выводимый программой текст?
11. Реализуйте программу для порождения марковского текста на уровне букв.
12. Как бы вы применили средства и методы из раздела 15.1 для порождения случайного текста порядка 0 (то есть не-марковского)?
13. Программа, порождающая марковский текст на уровне слов, есть на сайте этой книги. Исследуйте ее на своих текстах.
14. Как бы вы применили хэширование для увеличения скорости работы программы порождения марковского текста?
15. Цитата из Шеннона в разделе 15.3 относится к алгоритму, с помощью которого он порождал марковский текст. Реализуйте этот алгоритм с помощью программы. Она дает хорошее, но не совсем точное приближение к марковским частотам. Объясните, почему. Реализуйте программу, сканирующую всю строку целиком для порождения каждого слова (и следовательно, использующую реальные значения частот).
16. Как бы вы применили методы этой главы для подготовки списка слов для словаря? С этой задачей столкнулся Дуг Макилрой (раздел 13.8 главы 13). Как бы вы написали программу проверки орфографии без словаря? Как бы вы написали программу проверки грамматики без внесения в нее грамматических правил?
17. Исследуйте, как методики, относящиеся к анализу k-грамм, используются в приложениях типа систем распознавания речи, сжатия данных и им подобных.
Опубликовал vovan666
April 17 2013 00:05:00 ·
0 Комментариев ·
2579 Прочтений ·
• Не нашли ответ на свой вопрос? Тогда задайте вопрос в комментариях или на форуме! •
Комментарии
Нет комментариев.
Добавить комментарий
Рейтинги
Рейтинг доступен только для пользователей.
Пожалуйста, залогиньтесь или зарегистрируйтесь для голосования.
Нет данных для оценки.
Гость
Вы не зарегистрированны? Нажмите здесь для регистрации.