ArbаDoor.ru - форум о дорвеях

Вернуться   Форум о дорвеях > Мастерская > Доргены

Ответ
 
Опции темы
Старый 27.10.2009, 20:06   #71
Полудорвейщик
 
Регистрация: 25.10.2009
Сообщений: 27

По умолчанию

Цитата:
Сообщение от AlexStep
и как марков индексируется?
да молча индексится.
но индексится
SmiTT вне форума  Ответить с цитированием
Старый 27.10.2009, 20:12   #72
Полудорвейщик
 
Регистрация: 01.08.2009
Сообщений: 34
Отправить сообщение для Палево-Шмалево с помощью ICQ

По умолчанию

it.netov, есть несколько генераторов текста. Классический марков, марков адвансед-самоделка, так же реализовал все способы генерации от РБ, когда проводил исследования, есть морфологический подстановщик первого порядка (типа ДМИ)... сейчас работаю над составлением семантических словарей и морфологическим подстановщиком второго порядка. Кеи вставляю так же как и ты, но место вставки - рандом. Как считаешь, распределение кеев по тексту равномерно - это хорошая идея? Какой именно марков используешь 1 или 2 порядка? может 3? Знаки препинания учитываешь как отдельные слова или только вместе с предыдущим словом? Интересно, просто трачу достаточно много времени на алгоритмы генерации...

AlexStep, классический марков долго в индексе не держится - факт.
Палево-Шмалево вне форума  Ответить с цитированием
Старый 27.10.2009, 20:42   #73
Полудорвейщик
 
Регистрация: 05.07.2009
Сообщений: 41

По умолчанию

Цитата:
Сообщение от Палево-Шмалево
сейчас работаю над составлением семантических словарей и морфологическим подстановщиком второго порядка.
Что такое подстановщик второго порядка?
ЫЫЫ вне форума  Ответить с цитированием
Старый 27.10.2009, 21:44   #74
Дорвейщик
 
Регистрация: 09.07.2009
Сообщений: 234
Отправить сообщение для it.netov с помощью ICQ

По умолчанию

AlexStep, хорошо. На доменах im at с такой перелинковкой, что в ап по ~100 паг вылазит, и наглым редиректом кнопки вход (в новой вкладке ссылка открывалась, а на странице дора открывалась еще партнерка) доры жили до месяца.

Юзаю маркова, так как текст уник получается, а это по сути дает фору, т.к. минус несколько баллов для автобана.

Палево-Шмалево, про равномерное распределение скажу так - чисто в теории яшка может просчитывать такое, даже если разные кеи (но в тегах). Но если ни тегов, ни похожести кеев (то есть вариации кея "а б в" - "в б а", "a в б" или вообще разные кеи), то можно юзать. Думаю, наверное, изменю у себя алго, чтобы не было равномерного инклюда.

Я марковку делаю так:
убираю мусор, затем разделяю по признаку что это слово, ну и пачку слов что после него идут добавляю в массив (пока смотрел как я это делаю, пришла идея, что надо бы ограничить вторые кеи с большой буквы). То есть как ты понял я знаки препинания вообще не учитываю. В пост обработке уже ставлю кое-где запятые (перед союзами, причастием "который" и т.п.), буду эту систему дорабатывать, больше мест искать, где можно вставить красиво "," или может еще какие знаки, потом вычищаю плохие концовки (типа " слово на.") и однословные предложения.

Теперь вопросы от меня:
Марковка 1 2 3 порядков... это ты имеешь в виду учет, что шло после слова X, потом после слова Y, которое шло после слова X, так?

С дми никогда не разбирался - что такое морфологическая подстановка и что за семантический словарь?

Ты на чем кодишь (так для интереса, я на php)?
__________________
мой блог
it.netov вне форума  Ответить с цитированием
Старый 27.10.2009, 22:37   #75
Полудорвейщик
 
Регистрация: 01.08.2009
Сообщений: 34
Отправить сообщение для Палево-Шмалево с помощью ICQ

По умолчанию

Цитата:
Марковка 1 2 3 порядков... это ты имеешь в виду учет, что шло после слова X, потом после слова Y, которое шло после слова X, так?
именно, но тут нужна уже сравнительно большая статистика (10 метрами исходика не отделаешься) как следствие просто очень низкая скорость генерации. пробовал.

Цитата:
С дми никогда не разбирался - что такое морфологическая подстановка и что за семантический словарь?
постановка по шаблону. пример:
исходник: "Это шаблон предложения для генерации."
варианты генератора:
"Это двор одиночества для милиции. "
"Это арсенал довольствия для связи. "
"Это камин полотнища для функции. "
второй порядок подстановки - подстановка словосочетаниями(2 слова, 3 итд)
Семантический словарь - нечто вроде набора допустимых смысловых связей между словами. чтобы не получалось как в предыдущем примере... пока работаю над этим.
Цитата:
Ты на чем кодишь (так для интереса, я на php)?
отказался от php из-за низкой скорости работы с большими массивами текста. юзаю MSVS и delphi
Палево-Шмалево вне форума  Ответить с цитированием
Старый 27.10.2009, 22:48   #76
Полудорвейщик
 
Аватар для spzero
 
Регистрация: 25.07.2009
Сообщений: 60

По умолчанию

Палево-Шмалево, как яндекс кушает морф. подстановку? А то тоже сделал пачку доров с таким текстом, пока жду индексацию :)
spzero вне форума  Ответить с цитированием
Старый 27.10.2009, 22:52   #77
Полудорвейщик
 
Регистрация: 01.08.2009
Сообщений: 34
Отправить сообщение для Палево-Шмалево с помощью ICQ

По умолчанию

Цитата:
Палево-Шмалево, как яндекс кушает морф. подстановку? А то тоже сделал пачку доров с таким текстом, пока жду индексацию :)
о, сюрприз будет!
зависит от тематики
Палево-Шмалево вне форума  Ответить с цитированием
Старый 27.10.2009, 23:47   #78
Дорвейщик
 
Регистрация: 09.07.2009
Сообщений: 234
Отправить сообщение для it.netov с помощью ICQ

По умолчанию

Цитата:
Сообщение от Палево-Шмалево
именно, но тут нужна уже сравнительно большая статистика (10 метрами исходика не отделаешься) как следствие просто очень низкая скорость генерации. пробовал.
да, я еще когда только искал алго, читал, что следующие порядки тормозят мегакруто процесс.

Семантический словарь... а стоит ли заморачиваться? Не думаю, что вот это яндекс анализирует. Давольно таки ресурсоёмко. Да и генерация текста с использованием семантики будет ресурсоемкой.

К тому же задумайся... ты потом в свой красивый текст рандомно инклюдишь кеи (: Сразу портится вся его "красота", так стоит ли оно того?

p.s. - пример моего текста по марковке:
Цитата:
Головку на эмоции чувства вины в однообразно синей обложкой. Первая мысль и обрушил на лавки. Вековая ель потерявшая все другое жалкие тени. Мерси покраснела. Что женщина ушла спонтанность. В сухих русел по катетам треугольника. Все убитые моей машине. Двадцать минут. Уверяю вас замечаю сидящего рядом. А сколько займет минуту. Так ряд исследователей.
__________________
мой блог
it.netov вне форума  Ответить с цитированием
Старый 28.10.2009, 00:10   #79
Полудорвейщик
 
Регистрация: 09.08.2009
Сообщений: 61

По умолчанию

почитал тему, и появилась идея вставлять ключевики по шаблонам типа

Ключевик: текст.
Ключевик - текст.
Текст (Ключевик).
Текст, а также ключевик.
Текст, но возможно вас интересует ключевик.

если написать таких шаблонов больше чем ключевиков на одной странице, должно получатся неплохо

кто нибуть пробовал?
__________________
Зарабатываю тут. Адалт, диеты, тесты, гипноз, контроль телефонов
AlexStep вне форума  Ответить с цитированием
Старый 28.10.2009, 00:51   #80
Полудорвейщик
 
Регистрация: 05.07.2009
Сообщений: 41

По умолчанию

Ключевик можно расставлять в естественных местах, где есть такие комбинации или части комбинаций слов в том же роде, числе, падеже, что и слово ключевика...
ЫЫЫ вне форума  Ответить с цитированием
Ответ

« Предыдущая тема | Следующая тема »
Опции темы
Версия для печатиВерсия для печати
Отправить по электронной почте

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +3, время: 04:55.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2009, Jelsoft Enterprises Ltd. Перевод: zCarot