PDA

Просмотр полной версии : Генерация текста. Нужен совет.


chayka
22.09.2009, 01:19
Всем привет. В общем, имеется наработка. Генератор контента. Боль�?ая база слов, на основе которых анализируется данный текст на �?аблоны, затем, по этим �?аблонам делаются замены по принадлежности к той или иной части речи, естественно, в нужном роде и падеже.

В общем, принцип работы, надеюсь, все поняли, если не поняли. Вот пример работы:

Текст, который использовался для составления �?аблонов:
Я генератор текста.
Я предназначен для автоматической генерации текста.
Я буду делать текст по �?аблонам, но потом.
Как быть?
Посоветуйте или оцените мое свободное творчество!
Всем спасибо!

�? то что вы�?ло на основе имеющейся базы, пока что неболь�?ой.
Результат 1:
Я зеленоград литра. Я напряжен для теплой груди взгляда. Я осмотрю работать зад в бокам, но потом. Так прижимать? Возьмите же простите какое вчера�?нее ударение! Всем спасибо!

Результат 2:
Я вкус порога. Ты устроен для сомнительной груди пальца. Я приведу работать зад в фонарям, но потом. Как убирать? Подумайте чтоб извините моё необходимое появление! Всем спасибо!

Результат 3:
Я стон февраля. Я удивлён для правой информации дивана. Я подпи�?у общаться год с столбикам, но потом. Как продолжать? Трахните или прекратите самое ко�?ачье горло! Всем спасибо!


Думаю все выросли уже из того возраста что б смеяться с полученных комбинаций, хотя, надо признать, они довольно забавны :)

Выскажите, пожалуйста, что думаете по этому поводу. Нет ли критических о�?ибок с ва�?ей точки зрения, и что стоило бы улуч�?ить.

Спасибо.

Apollon
22.09.2009, 02:53
Улуч�?и разнообразие склонений слов и распознания частей речи! Некоторые не органично вписались, т.к. были заменены не на ту же самую часть речи.

Как понял по твоим словарям - могут быть конфликты при замене!

Советую нормализовывать части речи, а потом подставлять в нужном склонении, т.о. можно разнообразить уникальность предложений с помощью произвольного склонения и последующего согласования слов.

Продемонстрируй луч�?е примеры с вклейкой КВ в предложения, там всплывут самые сильные косяки! :)

Apollon
22.09.2009, 02:57
У меня похожий софт, щяс его совер�?енствую... более умные алгоритмы вводить буду... ну и органичную вклейку... щяс разрабатываю правила, тестовые варианты подобного текста в этот ап за�?ли в индекс будем смотреть че будет делать яндекс... пока к сожалению без органичной вклейки...:drinks:

chayka
22.09.2009, 03:27
Улуч�?и разнообразие склонений слов и распознания частей речи!
Оно на невьебезном уровне ;) Все четко по правилам, о�?ибок нет.
Некоторые не органично вписались, т.к. были заменены не на ту же самую часть речи.
Опять таки, не в обиду, но с русский у тебя по�?аливает :) Все заменилось правильно, но, например, после же "или", "же" и "что б" стоит ставить слова в других формах для правильного восприятия. Тут два варианта - разбить эту группу по смыслу, либо же оставлять без замен.
Как понял по твоим словарям - могут быть конфликты при замене!
Дык, тут дело не в словарях. Словари, как я уже сказал, точные. Вопрос в том, какие правила стоит задать что б избежать конфликтов. Шаблонов может быть до пизды, поэтому можно их немного сократить при помощи некоторых фильтров, все равно их будет нереально много.

Советую нормализовывать части речи, а потом подставлять в нужном склонении, т.о. можно разнообразить уникальность предложений с помощью произвольного склонения и последующего согласования слов.
На мой взгляд - ли�?няя морока. Зачем при помощи каких-то заебатых алгоритмов, а так же при изменении склонений в самом �?аблоне(!) налету(!) в зависимости от изменения, например, подлежащего, уникализировать �?аблон, если можно взять из почти бесконечного списка еще?

Продемонстрируй луч�?е примеры с вклейкой КВ в предложения, там всплывут самые сильные косяки! :)
�?�?ь какой хитрый :) Там своя система будет, не для паблика ;) �? не так как в хайде было предложено ;)
более умные алгоритмы вводить буду...
Ну, дык вот и поведай о более умных, хоть капельку намекни. Я то принцип выложил, между прочим уже второй раз ;) Хотя на этот раз это не только моя идея.
тестовые варианты подобного текста в этот ап за�?ли в индекс
Сам ведь прекрасно понимае�?ь, что это нихуя не значит :) Первые апы живет даже банальное переме�?ивание, тупо рандомное :) А вот когда пойдет проверочка текста, там и будет самое интересное :)

В любом случае, спасибо за участие ;)

Apollon
22.09.2009, 03:49
chayka (https://arbadoor.ru/member.php?u=2), дак я и не говорю, что текст про�?ел фильтр яндекса, я говорю, что эксперимент запустился... :)

Ну алгоритмы будут прежде всего направлены на более качественое и естественное вкрапления КВ. Кстати у тебя чета предлоги не меняются "для" и вводные слова "но потом" и "Всем Спасибо!"

Нормализация слов и последующее их склонение и согласование позволят сделать скрипт более гибким, а в некоторых случаях более быстрым и легким для интеграции в ДГ, покрайней мере как я это вижу.

Также не будет не согласованных предлогов и прочего...

П.С. алгоритмы направлены прежде всего на вкрапление КВ... на них здесь можно боль�?е всего спалится! :)

Apollon
22.09.2009, 03:51
Есть ли погре�?ности в твоих словарях?

chayka
22.09.2009, 04:24
Ну алгоритмы будут прежде всего направлены на более качественое и естественное вкрапления КВ.
Моим методом? :)
Кстати у тебя чета предлоги не меняются "для" и вводные слова "но потом" и "Всем Спасибо!"
Просто, в генераторе есть возможность включать и выключать замену разных частей речи. При боль�?ом количестве �?аблонов это уникализация предлогов нах не всралась :) Вводные слова - опять таки, меняя вводное слово, в некоторых случаях надо менять и падежи после него. Легче такие �?аблоны сливать в топку или просто их не заменять.


Нормализация слов и последующее их склонение и согласование позволят сделать скрипт более гибким, а в некоторых случаях более быстрым и легким для интеграции в ДГ, покрайней мере как я это вижу.

Ты ведь пойми, что как правило те же обороты, и тому подобное, что выносится за запятые, с одной стороны независимо, но с другой изменение падежей может вызвать конфликт со всем предложением. Зачем менять это находу, если ведь просто можно сделать дофига �?аблонов.

Доработать немного морфологию в стыковочных местах, и о�?ибок практически нет. Проблемные места зафильтровать - и их вообще нет. А в твоем случае это тупик, либо получится все, либо ничего не получится. Но т.к. задача далеко нелегкая - создать генерацию морфологически правильного предложения, то это займет минимум 3 месяца. Сам подумай. Хотя б взять те же падежи числа и роды и склонения(!) различных существительных, да сопоставить их с прилагательными - это уже мозгоебка.

�?, между прочим, никакой легкости в передачи текста к доргену я не вижу. Ты планируе�?ь оставлять место под ключевик незаполненное ничем? Тогда текстген должен знать ключевик заранее, а если он знает заранее, почему б сразу не вставить, если сразу вставить - то уже выходит замена в момент генерации. А ежели так, то это уже комплекс. Опять нестыковка :)

Также не будет не согласованных предлогов и прочего...
Не велика потеря, как говорится. Ну не будет менять предлог, и че блин :) �?з предложения в 10 слов все слова поменялись, от исходного осталось ли�?ь "для" или "в" - не спалят же :lol: А при учете нереального количества �?аблонов и словаря - вообще звучит сме�?но. Зато сколько это добавит мозгоебки...

Есть ли погре�?ности в твоих словарях?
Не замечал.

P.S. Раз общаемся мы двоем, нахуя левым у�?ам все это слу�?ать? Завтра в аське еще попиздим.

sklip
22.09.2009, 12:36
перенесите тему с раздела рынок

chayka
22.09.2009, 18:39
Если есть полномочия вообще снеси тему, пожалуйста.

Форум из ветки апдейтов и флудилки не вырос, и судя по всему, не выростет.

Арбайтен
22.09.2009, 18:57
chayka (https://arbadoor.ru/member.php?u=2),а может вам в таком случае этот форум покинуть?

Eladi
23.09.2009, 00:48
Но т.к. задача далеко нелегкая - создать генерацию морфологически правильного предложения, то это займет минимум 3 месяца.

Зачем создавать, если уже есть ред баттон vvs. На выходе именно то, о чем идет речь.

П�?пморфи используе�?ь?

chayka
23.09.2009, 01:14
Зачем создавать, если уже есть ред баттон vvs. На выходе именно то, о чем идет речь.
Далеко не то, и база там настолько кривая, что ее только вручную составлять хуй знает сколько. А в итоге у тебя даже нет возможности правильно вставить ключи.

groov
23.09.2009, 11:45
Я так понимаю, словари у тебя постоянные и создания новых словарей для каждого нового текса не происходит?

Как определяе�?ь часть речи? Сравнивае�?ь слова из текста со словами из словаря или по каким-либо признакам частей речи?

Что значит для тебя правильно вставить ключи?

vestal
23.09.2009, 18:20
что велосипед изобретать, дми это уже сто лет как все умеет делать

4ync
23.09.2009, 19:03
а сам генератор текста от dmi всего 80 баксов стоит

Арбайтен
23.09.2009, 19:05
а сам генератор текста от dmi всего 80 баксов стоит

А там % кеев можно прикрутить или просто на отъебись всё генерится?

DarkDante
23.09.2009, 19:34
А там % кеев можно прикрутить или просто на отъебись всё генерится?
можно.........

Арбайтен
23.09.2009, 19:42
Блядство какое то. Несколько доргенов щас и все рабочие. А времени на всё не хватает, не могу выбрать чем генерить.

Godmod
24.09.2009, 11:30
Мы на нулледе скидывались на это чудо. Вкратце - сразу генератор не захотел работать, мы сунулись к автору, а он в аське неотвечает. Вобщем, ебались мы с этим генератором месяц, пока не пригрозили взять автора за жопу и выложить генератор на серче. После длительной доработки автором оказалось, что вся генерация происходит у него на сервере (скрипт только отсылает запросы на фтп), соответсвенно, если лежит серв, генератор неработает.

Godmod
24.09.2009, 11:33
Да, и на денвер эту хрень не поставить, нужно искать хостинг с какой-то библиотекой для питона

Палево-Шмалево
24.09.2009, 11:38
Это не пхпморфи и вообще не скрипт - десктопная программулина

chayka
24.09.2009, 16:36
Может облом сделать, и написать яндексу, что б забанил эти ко�?ельки?:)