- 29, May 2017
- #1
Генератор текста на основе цепей Маркова на php
Генератор текста на основе цепей Маркова. php скрипт
На основе заранее подготовленного текста генерирует случайный.
Схема работы.
Сначала загружается файл "text.txt", он должен быть в кодировке win-1251 (в принципе utf-8 тоже работает, только необходимо все файлы перевести в кодировку utf-8). Скрипт удаляет все символы, кроме букв и некоторых знаков препинания, затем вырезает лишние пробелы.
Полученный (чистый текст) разделяется на отдельные слова.
Теперь есть отдельные звенья цепи.
Определяет связи слов (какие слова и за какими могут располагаться). Это самый ресурсоемкий процесс, так что на больших файлах придется подождать.
Если генерация требуется часто, то, наверное, имеет смысл уменьшить минимальную и максимальную длину текста (в примере это цифры 200-мин и 600-макс). Дальше определяются слова, с которых начинаются предложения.
И на последнем этапе составляется предложения.
Кому интересна теория - https://ru.wikipedia.org/wiki/Цепь_Маркова
Скачать »