PDA

Просмотр полной версии : Написать свой генератор текста


Палево-Шмалево
03.08.2009, 23:21
Здавствуйте, всем. Такое дело: есть боль�?ое желание написать свой генератор текста. �?менно генератор. Чтоб придумывал предложения в соответствии с правилами русс. языка. Ну, или почти в соответствии. Чтобы получались вполне согласованные читаемые предложения. Для начала. В идеале - чтоб сохранялся смысл не только в пределах предложения, но, по мень�?ей мере, в абзаце/статье. Т.е. на одну тему.
Мои варианты реализации:
1. Парсим словари, набираем базу слов(прилаг,сущ, глаг, и т.д.), по исходным формам создаем базу возможных вариантов употребления, составляем �?аблоны (долго).
2. Пи�?ем своеобразный распознаватель частей речи и их форм, он же - анализатор �?аблонов предложений. На базе проанализированного текста создаем свой. С набором статистических данных качество текстов сильно улуч�?ится (перспективно).
Что думаете на этот счет? Может еще есть идеи?

SmItHrIx
03.08.2009, 23:49
Еще стихи можно писать...

Палево-Шмалево
03.08.2009, 23:55
Можно! �? рисовать и скульптуры делать... и все на автомате.

SmItHrIx
04.08.2009, 00:04
Пол года назад, я трое или четверо суток убил на второй вариант. В итоге яндекс эту хуйню так и не сожрал. Если все же хочется написать генератор контента, то предлагаю посмотреть на парсинг>синонимайзинг>замена слов на ключи с похожей структурой. Так текст будет довольно читаем и иметь нормальную уникальность. �?МХО

Палево-Шмалево
04.08.2009, 00:30
Пол года назад, я трое или четверо суток убил на второй вариант. В итоге яндекс эту хуйню так и не сожрал. Если все же хочется написать генератор контента, то предлагаю посмотреть на парсинг>синонимайзинг>замена слов на ключи с похожей структурой. Так текст будет довольно читаем и иметь нормальную уникальность. �?МХО

и насколько текст получился человеческим? правила языка соблюдались? видимо, не до конца доработал или косяки были серьезные, не обратил внимания. В первый эксперимент, результат обычно никакой... Чего не продолжил дело?

SmItHrIx
04.08.2009, 00:54
и насколько текст получился человеческим? правила языка соблюдались?

Выглядел красиво, все как задумывалось. Но вот только текст по смыслу получался бредовее чем от марковки.


Чего не продолжил дело?

Я через 2 недели исходник открыл и охуел. Проще с нуля написать.

fromnull
04.08.2009, 01:33
Зачем писать второй RedButton VVS? :greeting:

Eladi
04.08.2009, 13:55
Здавствуйте, всем. Такое дело: есть боль�?ое желание написать свой генератор текста. �?менно генератор. Чтоб придумывал предложения в соответствии с правилами русс. языка.
...
Что думаете на этот счет? Может еще есть идеи?

Во-первых, уже есть ред баттон ввс.
Во-вторых, доры на ред баттон ввс хренового лезут в индекс я�?и.
В-третьих, чтобы такие доры хоро�?о лезли в индекс нужны хоро�?ие ресурсы.
В-четвертых, оно того не стоит, есть методы попроще и похитрее.

Палево-Шмалево
04.08.2009, 22:38
2 Eladi
Такие генерированные тексты можно юзать не только в дорах.
Если придумать как сохранять смысл на протяжении хотя бы 3-4 предложений, то это будет офигенно. Много ифны прочитал про принципы работы поисковых систем. Существуют быстрые алгоритмы извлечения информации из текста и ее структуризации... Если текст не получается структуризовать, то ПС делает вывод, что текст - бред. �?МХО, конечно.

SmItHrIx
05.08.2009, 00:05
Над алгоритмами пс работают дохуя лингвистов, филологов и еще хуй знает кого. Потом плод их коллективного труда, воплощает в жизнь команда кодеров. Так что на данный момент у яндекса охуенное преимущество над одиночными разработчиками чудо генераторов.

Как уже сказал Eladi, есть гораздо более простые рабочие метоты, не стоит ебать мозги и просиживать сутками за созданием сомнительных алгоритмов. Луч�?е за это время нахуярить пол сотни тех же сателлитов, у них и контент со смыслом и в бан редко попадают.