генерация текста в доргенах - Страница 8

SmiTT · 27.10.2009, 20:06

Цитата:

Сообщение от AlexStep

и как марков индексируется?

да молча индексится.
но индексится

Палево-Шмалево · 27.10.2009, 20:12

it.netov, есть несколько генераторов текста. Классический марков, марков адвансед-самоделка, так же реализовал все способы генерации от РБ, когда проводил исследования, есть морфологический подстановщик первого порядка (типа ДМИ)... сейчас работаю над составлением семантических словарей и морфологическим подстановщиком второго порядка. Кеи вставляю так же как и ты, но место вставки - рандом. Как считаешь, распределение кеев по тексту равномерно - это хорошая идея? Какой именно марков используешь 1 или 2 порядка? может 3? Знаки препинания учитываешь как отдельные слова или только вместе с предыдущим словом? Интересно, просто трачу достаточно много времени на алгоритмы генерации...

AlexStep, классический марков долго в индексе не держится - факт.

ЫЫЫ · 27.10.2009, 20:42

Цитата:

Сообщение от Палево-Шмалево

сейчас работаю над составлением семантических словарей и морфологическим подстановщиком второго порядка.

Что такое подстановщик второго порядка?

it.netov · 27.10.2009, 21:44

AlexStep, хорошо. На доменах im at с такой перелинковкой, что в ап по ~100 паг вылазит, и наглым редиректом кнопки вход (в новой вкладке ссылка открывалась, а на странице дора открывалась еще партнерка) доры жили до месяца.

Юзаю маркова, так как текст уник получается, а это по сути дает фору, т.к. минус несколько баллов для автобана.

Палево-Шмалево, про равномерное распределение скажу так - чисто в теории яшка может просчитывать такое, даже если разные кеи (но в тегах). Но если ни тегов, ни похожести кеев (то есть вариации кея "а б в" - "в б а", "a в б" или вообще разные кеи), то можно юзать. Думаю, наверное, изменю у себя алго, чтобы не было равномерного инклюда.

Я марковку делаю так:
убираю мусор, затем разделяю по признаку что это слово, ну и пачку слов что после него идут добавляю в массив (пока смотрел как я это делаю, пришла идея, что надо бы ограничить вторые кеи с большой буквы). То есть как ты понял я знаки препинания вообще не учитываю. В пост обработке уже ставлю кое-где запятые (перед союзами, причастием "который" и т.п.), буду эту систему дорабатывать, больше мест искать, где можно вставить красиво "," или может еще какие знаки, потом вычищаю плохие концовки (типа " слово на.") и однословные предложения.

Теперь вопросы от меня:
Марковка 1 2 3 порядков... это ты имеешь в виду учет, что шло после слова X, потом после слова Y, которое шло после слова X, так?

С дми никогда не разбирался - что такое морфологическая подстановка и что за семантический словарь?

Ты на чем кодишь (так для интереса, я на php)?

Палево-Шмалево · 27.10.2009, 22:37

Цитата:

Марковка 1 2 3 порядков... это ты имеешь в виду учет, что шло после слова X, потом после слова Y, которое шло после слова X, так?

именно, но тут нужна уже сравнительно большая статистика (10 метрами исходика не отделаешься) как следствие просто очень низкая скорость генерации. пробовал.

Цитата:

С дми никогда не разбирался - что такое морфологическая подстановка и что за семантический словарь?

постановка по шаблону. пример:
исходник: "Это шаблон предложения для генерации."
варианты генератора:
"Это двор одиночества для милиции. "
"Это арсенал довольствия для связи. "
"Это камин полотнища для функции. "
второй порядок подстановки - подстановка словосочетаниями(2 слова, 3 итд)
Семантический словарь - нечто вроде набора допустимых смысловых связей между словами. чтобы не получалось как в предыдущем примере... пока работаю над этим.

Цитата:

Ты на чем кодишь (так для интереса, я на php)?

отказался от php из-за низкой скорости работы с большими массивами текста. юзаю MSVS и delphi

spzero · 27.10.2009, 22:48

Палево-Шмалево, как яндекс кушает морф. подстановку? А то тоже сделал пачку доров с таким текстом, пока жду индексацию :)

Палево-Шмалево · 27.10.2009, 22:52

Цитата:

Палево-Шмалево, как яндекс кушает морф. подстановку? А то тоже сделал пачку доров с таким текстом, пока жду индексацию :)

о, сюрприз будет!
зависит от тематики

it.netov · 27.10.2009, 23:47

Цитата:

Сообщение от Палево-Шмалево

именно, но тут нужна уже сравнительно большая статистика (10 метрами исходика не отделаешься) как следствие просто очень низкая скорость генерации. пробовал.

да, я еще когда только искал алго, читал, что следующие порядки тормозят мегакруто процесс.

Семантический словарь... а стоит ли заморачиваться? Не думаю, что вот это яндекс анализирует. Давольно таки ресурсоёмко. Да и генерация текста с использованием семантики будет ресурсоемкой.

К тому же задумайся... ты потом в свой красивый текст рандомно инклюдишь кеи (: Сразу портится вся его "красота", так стоит ли оно того?

p.s. - пример моего текста по марковке:

Цитата:

Головку на эмоции чувства вины в однообразно синей обложкой. Первая мысль и обрушил на лавки. Вековая ель потерявшая все другое жалкие тени. Мерси покраснела. Что женщина ушла спонтанность. В сухих русел по катетам треугольника. Все убитые моей машине. Двадцать минут. Уверяю вас замечаю сидящего рядом. А сколько займет минуту. Так ряд исследователей.

AlexStep · 28.10.2009, 00:10

почитал тему, и появилась идея вставлять ключевики по шаблонам типа

Ключевик: текст.
Ключевик - текст.
Текст (Ключевик).
Текст, а также ключевик.
Текст, но возможно вас интересует ключевик.

если написать таких шаблонов больше чем ключевиков на одной странице, должно получатся неплохо

кто нибуть пробовал?

ЫЫЫ · 28.10.2009, 00:51

Ключевик можно расставлять в естественных местах, где есть такие комбинации или части комбинаций слов в том же роде, числе, падеже, что и слово ключевика...