AlexStep, хорошо. На доменах
im at с такой перелинковкой, что в ап по ~100 паг вылазит, и наглым редиректом кнопки вход (в новой вкладке ссылка открывалась, а на странице дора открывалась еще партнерка) доры жили до месяца.
Юзаю маркова, так как текст уник получается, а это по сути дает фору, т.к. минус несколько баллов для автобана.
Палево-Шмалево, про равномерное распределение скажу так - чисто в теории яшка может просчитывать такое, даже если разные кеи (но в тегах). Но если ни тегов, ни похожести кеев (то есть вариации кея "а б в" - "в б а", "a в б" или вообще разные кеи), то можно юзать. Думаю, наверное, изменю у себя алго, чтобы не было равномерного инклюда.
Я марковку делаю так:
убираю мусор, затем разделяю по признаку что это слово, ну и пачку слов что после него идут добавляю в массив (пока смотрел как я это делаю, пришла идея, что надо бы ограничить вторые кеи с большой буквы). То есть как ты понял я знаки препинания вообще не учитываю. В пост обработке уже ставлю кое-где запятые (перед союзами, причастием "который" и т.п.), буду эту систему дорабатывать, больше мест искать, где можно вставить красиво "," или может еще какие знаки, потом вычищаю плохие концовки (типа " слово на.") и однословные предложения.
Теперь вопросы от меня:
Марковка 1 2 3 порядков... это ты имеешь в виду учет, что шло после слова X, потом после слова Y, которое шло после слова X, так?
С дми никогда не разбирался - что такое морфологическая подстановка и что за семантический словарь?
Ты на чем кодишь (так для интереса, я на php)?