Форум о seo технологиях  
Друзья Форум вебмастеров
Bookmark and Share
Старый 25.11.2009, 18:06   #1
spzero
Полудорвейщик
 
Аватар для spzero
 
Регистрация: 25.07.2009
Сообщений: 88
По умолчаниюАнализ текста Яндексом.

Давайте обсудим какими этапами Яндекс обрабатывает текст.

Моё представление такое:
1. Все слова в тексте преобразуются в нормальную форму. Пример:
было: "Он бросил камень на крышу." Стало: "Он бросить камень на крыша.".

2. Далее идет прогон по базе частотности появления пар слов.
Это занимает где то первые 3 АПа(в зависимости от загруженности анализатора), именно поэтому текст на Маркове и живёт первые апы, а потом вылетает.
Так же на этом шаге определяется естественность текста, т.е. сравнивают количество слов в предложениях и количество самих предложений с статистической базой. Поэтому не стоит перемешивать предложения в тексте во время генерации, т.к. может появиться подряд 10 предложений из 3 слов, что вызовет подозрения.

3. Синтаксический анализ. То есть составление графа зависимостей слов в предложении (подлежащее, сказуемое и т.д.) . Так же определяется морфология слов.
Здесь Марков вылетает.

4. Семантический анализ. Составление графа зависимостей по значению слов.
Пример:


Причем все слова рассматриваются по базе синонимов и слово "бросил" будет приравнено к "подбросил, кинул и т.д.". Любая синонимизация здесь умирает.

Итог: чтобы создавать идеальный текст, нужно проделывать все эти шаги + разработать алгоритм работы с базой семантических деревьев для синтеза читаемого текста.

Я пока что сделал более-менее синтаксический анализ, семантический несовсем правильно работает, да и с последующим составлением предложений я пока в тупике За две последние недели сделал штук 10 генераций текста, теперь жду идексацию, может что и пройдет

Рассказывайте, как вы видите этот процесс.

Последний раз редактировалось spzero; 25.11.2009 в 18:13.
spzero вне форума  Ответить с цитированием
Старый 25.11.2009, 18:10   #2
pirate
Дорвейщик
 
Аватар для pirate
 
Регистрация: 17.11.2009
Адрес: SPb
Сообщений: 156
По умолчанию

а если создать 10 шаблонов предложений и наполнять их из словаря в нужных падежах, временах и т.д.
фактически текст не будет иметь никакого смысла, но будет правильный по 4 пунктам.
pirate вне форума  Ответить с цитированием
Старый 25.11.2009, 18:34   #3
spzero
Полудорвейщик
 
Аватар для spzero
 
Регистрация: 25.07.2009
Сообщений: 88
По умолчанию

Цитата:
Сообщение от pirate Посмотреть сообщение
а если создать 10 шаблонов предложений и наполнять их из словаря в нужных падежах, временах и т.д.
фактически текст не будет иметь никакого смысла, но будет правильный по 4 пунктам.
Я думаю надо хотя бы 100 шаблонов и очень хорошо собранный словарь. Тогда, скорее всего, будет жить. Точно скажет только Яндекс )
spzero вне форума  Ответить с цитированием
Старый 25.11.2009, 18:42   #4
ne0zx
Полудорвейщик
 
Регистрация: 13.07.2009
Сообщений: 62
По умолчанию

Цитата:
Сообщение от pirate Посмотреть сообщение
а если создать 10 шаблонов предложений и наполнять их из словаря в нужных падежах, временах и т.д.
фактически текст не будет иметь никакого смысла, но будет правильный по 4 пунктам.
Если собрать корпуса тематические, будет имхо лучше. Берем например тему спорт, и придумываем кучу глаголов тематических, существительных и прилагательных. Как с предлогами хз правда.
ne0zx вне форума  Ответить с цитированием
Старый 25.11.2009, 18:45   #5
pirate
Дорвейщик
 
Аватар для pirate
 
Регистрация: 17.11.2009
Адрес: SPb
Сообщений: 156
По умолчанию

Тут ведь вопрос анализирует ли он предложения между друг другом - если нет, то и 1 шаблона хватит. Думаю, что нет... потому что эта информация не дает ничего. Ну, Хемингуэй один стиль письма, Ремарк другой, а и тот и другой блестящие авторы.

А словарь... в этом наверное главный технический вопрос.

Мне кажется многие доры палятся именно из-за несвязанной вставки ключевиков в текст (п 3). Но что бы их вставить правильно надо их разобрать на составные и правильно вставить... задача очень непростая.
pirate вне форума  Ответить с цитированием
Старый 25.11.2009, 18:49   #6
pirate
Дорвейщик
 
Аватар для pirate
 
Регистрация: 17.11.2009
Адрес: SPb
Сообщений: 156
По умолчанию

Цитата:
Сообщение от ne0zx Посмотреть сообщение
Если собрать корпуса тематические, будет имхо лучше. Берем например тему спорт, и придумываем кучу глаголов тематических, существительных и прилагательных. Как с предлогами хз правда.
тут можно составить тот же словарь частотный по тематическим текстам, НО! их надо напарсить в огромном кол-ве :)

и ясно, что слово "штрафной" "нападающий" "судья пи*арс" будут чаще встречаться в тексте, но не факт, что это признак генерированности текста
хотя возможно яша и сравнивает текст с тематическими корпусами... мэй би
pirate вне форума  Ответить с цитированием
Старый 25.11.2009, 18:53   #7
mrWEB
Дорвейщик
 
Регистрация: 05.07.2009
Сообщений: 141
По умолчанию

Вот базы(глаголы, прилагательные), может пригодятся(платно только)
seoboxer.ru/category.php?q=ideas&page=0
mrWEB вне форума  Ответить с цитированием
Старый 27.11.2009, 01:12   #8
prescott
Полудорвейщик
 
Регистрация: 05.07.2009
Сообщений: 80
По умолчанию

Яша и гугль кстати палят грамматику? Если текст абсолютно неграмотный - в каждом слове ошибка, то он видит это?
__________________
Адалт-смс траф сливать только сюда
prescott вне форума  Ответить с цитированием
Старый 27.11.2009, 01:38   #9
Centurion
Полудорвейщик
 
Регистрация: 02.11.2009
Сообщений: 45
По умолчанию

Цитата:
Сообщение от prescott Посмотреть сообщение
Яша и гугль кстати палят грамматику? Если текст абсолютно неграмотный - в каждом слове ошибка, то он видит это?
да.
Простой пример. Текст в Word скопировать. Чем больше красный подчеркиваний и зеленых, тем текст говнистей.

Если Word русский хорошо понимает по грамматике, то Яндекс тем более палит все на ура.

Например, Ответы Майла. Там ведь проиндексировано Яндексом процентов 20% от силы. Остальное "уник". Этот уник если парсить и делать сателлиты, то на 2 ап выдачи вылетают. Этот же текст если в Ворде обрабатывать: убирать ошибки, сокращения дописывать. Короче в надлежащий вид по русском приводить, то сателлиты классные выходят и сидят в индексе + трафик дают для Адсенса. Только долго это очень орфографию править, там черт ногу сломит как люди пишут. Двоешники несчастные

Уник, не уник. Главное чтобы орфография на 4 или 5 была.
А там уже пусть вычисляет, кто первоисточник. Яндекс все равно это делать не умеет, если ему не раскрывать глаза кто первоисточник.
Centurion вне форума  Ответить с цитированием
Старый 27.11.2009, 01:49   #10
pirate
Дорвейщик
 
Аватар для pirate
 
Регистрация: 17.11.2009
Адрес: SPb
Сообщений: 156
По умолчанию

с орфографией не так сложно всё, а вот с синтаксисом сложнее
pirate вне форума  Ответить с цитированием
Ответ

« Предыдущая тема | Следующая тема »

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Версия для печатиВерсия для печати
Отправить по электронной почтеОтправить по электронной почте

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 12:00. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.6
Copyright ©2000 - 2010, Jelsoft Enterprises Ltd. Перевод: zCarot
General Media Group