Форум о seo технологиях  
Друзья Форум вебмастеров
Bookmark and Share
Старый 22.09.2009, 01:19   #1
chayka
Дорвейщик
 
Регистрация: 04.07.2009
Сообщений: 130
По умолчаниюГенерация текста. Нужен совет.

Всем привет. В общем, имеется наработка. Генератор контента. Большая база слов, на основе которых анализируется данный текст на шаблоны, затем, по этим шаблонам делаются замены по принадлежности к той или иной части речи, естественно, в нужном роде и падеже.

В общем, принцип работы, надеюсь, все поняли, если не поняли. Вот пример работы:

Текст, который использовался для составления шаблонов:
Цитата:
Я генератор текста.
Я предназначен для автоматической генерации текста.
Я буду делать текст по шаблонам, но потом.
Как быть?
Посоветуйте или оцените мое свободное творчество!
Всем спасибо!
И то что вышло на основе имеющейся базы, пока что небольшой.
Результат 1:
Цитата:
Я зеленоград литра. Я напряжен для теплой груди взгляда. Я осмотрю работать зад в бокам, но потом. Так прижимать? Возьмите же простите какое вчерашнее ударение! Всем спасибо!
Результат 2:
Цитата:
Я вкус порога. Ты устроен для сомнительной груди пальца. Я приведу работать зад в фонарям, но потом. Как убирать? Подумайте чтоб извините моё необходимое появление! Всем спасибо!
Результат 3:
Цитата:
Я стон февраля. Я удивлён для правой информации дивана. Я подпишу общаться год с столбикам, но потом. Как продолжать? Трахните или прекратите самое кошачье горло! Всем спасибо!
Думаю все выросли уже из того возраста что б смеяться с полученных комбинаций, хотя, надо признать, они довольно забавны :)

Выскажите, пожалуйста, что думаете по этому поводу. Нет ли критических ошибок с вашей точки зрения, и что стоило бы улучшить.

Спасибо.
__________________
ICQ#: 429-363-521
chayka вне форума  Ответить с цитированием
Старый 22.09.2009, 02:53   #2
Apollon
Дорвейщик
 
Регистрация: 13.08.2009
Сообщений: 282
По умолчанию

Улучши разнообразие склонений слов и распознания частей речи! Некоторые не органично вписались, т.к. были заменены не на ту же самую часть речи.

Как понял по твоим словарям - могут быть конфликты при замене!

Советую нормализовывать части речи, а потом подставлять в нужном склонении, т.о. можно разнообразить уникальность предложений с помощью произвольного склонения и последующего согласования слов.

Продемонстрируй лучше примеры с вклейкой КВ в предложения, там всплывут самые сильные косяки! :)
Apollon вне форума  Ответить с цитированием
Старый 22.09.2009, 02:57   #3
Apollon
Дорвейщик
 
Регистрация: 13.08.2009
Сообщений: 282
По умолчанию

У меня похожий софт, щяс его совершенствую... более умные алгоритмы вводить буду... ну и органичную вклейку... щяс разрабатываю правила, тестовые варианты подобного текста в этот ап зашли в индекс будем смотреть че будет делать яндекс... пока к сожалению без органичной вклейки...
Apollon вне форума  Ответить с цитированием
Старый 22.09.2009, 03:27   #4
chayka
Дорвейщик
 
Регистрация: 04.07.2009
Сообщений: 130
По умолчанию

Цитата:
Улучши разнообразие склонений слов и распознания частей речи!
Оно на невьебезном уровне ;) Все четко по правилам, ошибок нет.
Цитата:
Некоторые не органично вписались, т.к. были заменены не на ту же самую часть речи.
Опять таки, не в обиду, но с русский у тебя пошаливает :) Все заменилось правильно, но, например, после же "или", "же" и "что б" стоит ставить слова в других формах для правильного восприятия. Тут два варианта - разбить эту группу по смыслу, либо же оставлять без замен.
Цитата:
Как понял по твоим словарям - могут быть конфликты при замене!
Дык, тут дело не в словарях. Словари, как я уже сказал, точные. Вопрос в том, какие правила стоит задать что б избежать конфликтов. Шаблонов может быть до пизды, поэтому можно их немного сократить при помощи некоторых фильтров, все равно их будет нереально много.

Цитата:
Советую нормализовывать части речи, а потом подставлять в нужном склонении, т.о. можно разнообразить уникальность предложений с помощью произвольного склонения и последующего согласования слов.
На мой взгляд - лишняя морока. Зачем при помощи каких-то заебатых алгоритмов, а так же при изменении склонений в самом шаблоне(!) налету(!) в зависимости от изменения, например, подлежащего, уникализировать шаблон, если можно взять из почти бесконечного списка еще?
Цитата:
Продемонстрируй лучше примеры с вклейкой КВ в предложения, там всплывут самые сильные косяки! :)
Ишь какой хитрый :) Там своя система будет, не для паблика ;) И не так как в хайде было предложено ;)
Цитата:
более умные алгоритмы вводить буду...
Ну, дык вот и поведай о более умных, хоть капельку намекни. Я то принцип выложил, между прочим уже второй раз ;) Хотя на этот раз это не только моя идея.
Цитата:
тестовые варианты подобного текста в этот ап зашли в индекс
Сам ведь прекрасно понимаешь, что это нихуя не значит :) Первые апы живет даже банальное перемешивание, тупо рандомное :) А вот когда пойдет проверочка текста, там и будет самое интересное :)

В любом случае, спасибо за участие ;)
__________________
ICQ#: 429-363-521
chayka вне форума  Ответить с цитированием
Старый 22.09.2009, 03:49   #5
Apollon
Дорвейщик
 
Регистрация: 13.08.2009
Сообщений: 282
По умолчанию

chayka, дак я и не говорю, что текст прошел фильтр яндекса, я говорю, что эксперимент запустился... :)

Ну алгоритмы будут прежде всего направлены на более качественое и естественное вкрапления КВ. Кстати у тебя чета предлоги не меняются "для" и вводные слова "но потом" и "Всем Спасибо!"

Нормализация слов и последующее их склонение и согласование позволят сделать скрипт более гибким, а в некоторых случаях более быстрым и легким для интеграции в ДГ, покрайней мере как я это вижу.

Также не будет не согласованных предлогов и прочего...

П.С. алгоритмы направлены прежде всего на вкрапление КВ... на них здесь можно больше всего спалится! :)

Последний раз редактировалось Apollon; 22.09.2009 в 03:52.
Apollon вне форума  Ответить с цитированием
Старый 22.09.2009, 03:51   #6
Apollon
Дорвейщик
 
Регистрация: 13.08.2009
Сообщений: 282
По умолчанию

Есть ли погрешности в твоих словарях?
Apollon вне форума  Ответить с цитированием
Старый 22.09.2009, 04:24   #7
chayka
Дорвейщик
 
Регистрация: 04.07.2009
Сообщений: 130
По умолчанию

Цитата:
Ну алгоритмы будут прежде всего направлены на более качественое и естественное вкрапления КВ.
Моим методом? :)
Цитата:
Кстати у тебя чета предлоги не меняются "для" и вводные слова "но потом" и "Всем Спасибо!"
Просто, в генераторе есть возможность включать и выключать замену разных частей речи. При большом количестве шаблонов это уникализация предлогов нах не всралась :) Вводные слова - опять таки, меняя вводное слово, в некоторых случаях надо менять и падежи после него. Легче такие шаблоны сливать в топку или просто их не заменять.

Цитата:
Нормализация слов и последующее их склонение и согласование позволят сделать скрипт более гибким, а в некоторых случаях более быстрым и легким для интеграции в ДГ, покрайней мере как я это вижу.
Ты ведь пойми, что как правило те же обороты, и тому подобное, что выносится за запятые, с одной стороны независимо, но с другой изменение падежей может вызвать конфликт со всем предложением. Зачем менять это находу, если ведь просто можно сделать дофига шаблонов.

Доработать немного морфологию в стыковочных местах, и ошибок практически нет. Проблемные места зафильтровать - и их вообще нет. А в твоем случае это тупик, либо получится все, либо ничего не получится. Но т.к. задача далеко нелегкая - создать генерацию морфологически правильного предложения, то это займет минимум 3 месяца. Сам подумай. Хотя б взять те же падежи числа и роды и склонения(!) различных существительных, да сопоставить их с прилагательными - это уже мозгоебка.

И, между прочим, никакой легкости в передачи текста к доргену я не вижу. Ты планируешь оставлять место под ключевик незаполненное ничем? Тогда текстген должен знать ключевик заранее, а если он знает заранее, почему б сразу не вставить, если сразу вставить - то уже выходит замена в момент генерации. А ежели так, то это уже комплекс. Опять нестыковка :)

Цитата:
Также не будет не согласованных предлогов и прочего...
Не велика потеря, как говорится. Ну не будет менять предлог, и че блин :) Из предложения в 10 слов все слова поменялись, от исходного осталось лишь "для" или "в" - не спалят же А при учете нереального количества шаблонов и словаря - вообще звучит смешно. Зато сколько это добавит мозгоебки...

Цитата:
Есть ли погрешности в твоих словарях?
Не замечал.

P.S. Раз общаемся мы двоем, нахуя левым ушам все это слушать? Завтра в аське еще попиздим.
__________________
ICQ#: 429-363-521
chayka вне форума  Ответить с цитированием
Старый 22.09.2009, 12:36   #8
sklip
Особый статус
Дорвейщик
 
Аватар для sklip
 
Регистрация: 05.07.2009
Сообщений: 109
По умолчанию

перенесите тему с раздела рынок
__________________
icq 529788
sklip вне форума  Ответить с цитированием
Старый 22.09.2009, 18:39   #9
chayka
Дорвейщик
 
Регистрация: 04.07.2009
Сообщений: 130
По умолчанию

Если есть полномочия вообще снеси тему, пожалуйста.

Форум из ветки апдейтов и флудилки не вырос, и судя по всему, не выростет.
__________________
ICQ#: 429-363-521
chayka вне форума  Ответить с цитированием
Старый 22.09.2009, 18:57   #10
Арбайтен
Бесмертный
 
Аватар для Арбайтен
 
Регистрация: 04.07.2009
Сообщений: 3,271
По умолчанию

chayka,а может вам в таком случае этот форум покинуть?
__________________
Мой блог - палим темы тоннами
Арбайтен вне форума  Ответить с цитированием
Ответ

« Предыдущая тема | Следующая тема »

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Версия для печатиВерсия для печати
Отправить по электронной почтеОтправить по электронной почте

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 21:32. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.6
Copyright ©2000 - 2010, Jelsoft Enterprises Ltd. Перевод: zCarot
General Media Group