Первоначально, все возможные ходы в любой позиции равновероятны. Начиная с исходной позиции, вы делаете первый ход, и после этого программа может сделать любой разрешенный ход. Ход программа делает случайным образом. Никакой определенной стратегии нет и она еще ничего не умеет.
Модернизация технологии и оборудования, прочистка водосточных систем и обезвреживание промышленных отходов, проектирование очистных сооружений предлагает группа экологических компаний здесь: http://www.ecoservice-prim.ru/.
Обучение происходит следующим образом. Любая партия закончится после третьего хода программы. Если партию программа выиграла, то стратегия не меняется. Если программа проиграет, то необходимо понизить оценку (“вероятность”) тех ходов, которые сделала программа. Более подробно, пусть S1, S2, S3, S4, S5, S6, S7 - список последовательных позиций в партии, которую проиграла программа (для упрощения изложения, возможно, пришлось изменить нумерацию позиций). Программа делала ходы в позициях S2, S4 и S6. Таким образом, для обучения программы необходимо уменьшить оценку S6 и, возможно, вероятности S2, S4.
Можно придумать и другую систему обучения. Например, можно не только наказывать программу после проигрыша, уменьшая вероятности плохих ходов, но и поощрять после обед, увеличивая вероятности хороших ходов.
Для быстрейшего самообучения в программу следует заложить и второго партнера, играющего по той же или другой системе, так чтобы машина играла сама с собой. |