Форум о seo технологиях  
Друзья Форум вебмастеров
Bookmark and Share

  Форум о seo технологиях > Мастерская > Доргены

Ответ
 
Опции темы
Старый 14.03.2010, 21:03   #11
comm1x
Нуб
 
Регистрация: 14.03.2010
Сообщений: 9
По умолчанию

Арба, ты доргены сам пишешь или нанимаешь?
comm1x вне форума  Ответить с цитированием
Старый 14.03.2010, 21:05   #12
Арбайтен
Бесмертный
 
Аватар для Арбайтен
 
Регистрация: 04.07.2009
Сообщений: 3,269
По умолчанию

И сам пишу и нанимаю прогера.
__________________
Мой блог - палим темы тоннами
Арбайтен вне форума  Ответить с цитированием
Старый 15.03.2010, 00:00   #13
Eladi
Полудорвейщик
 
Регистрация: 06.07.2009
Сообщений: 24
По умолчанию

Если хочешь писать с нуля, пиши на чем удобно, принципиальной разницы нет, если написанное соответствует ТЗ.

Другое дело, что на php очень много готовых наработок, можно взять за основу уже готовое и доделывать под себя.
Eladi вне форума  Ответить с цитированием
Старый 15.03.2010, 02:10   #14
nikruba
Дорвейщик
 
Регистрация: 19.12.2009
Сообщений: 110
По умолчанию

Нереально написать что-то действительно стоящее на PHP.
Современный дорген для Яндекса - это грамматика. ПХП сдохнет от любого правильного грамматического движка с нормальным грамматическим словарем.
Впрочем, урезанную поделку без словаря можно сделать. Только этот дорген никогда не узнает, что такое "ебли" - глагол "ебать" во мн.ч. или же существительное "ебля" в родительном падеже.
Можно как угодно дергать и видоизменять текстовку из готовых файлов (марков, синонимизация, маркс, хз что там еще), но представления о грамматической структуре там не будет. phpMorphy говнобиблиотека, даже стеммеров нормальных на PHP нету.
Впрочем, все можно писать с нуля, да :)
nikruba вне форума  Ответить с цитированием
Старый 15.03.2010, 02:15   #15
Арбайтен
Бесмертный
 
Аватар для Арбайтен
 
Регистрация: 04.07.2009
Сообщений: 3,269
По умолчанию

Цитата:
Сообщение от nikruba Посмотреть сообщение
Нереально написать что-то действительно стоящее на PHP.
Современный дорген для Яндекса - это грамматика. ПХП сдохнет от любого правильного грамматического движка с нормальным грамматическим словарем.
Впрочем, урезанную поделку без словаря можно сделать. Только этот дорген никогда не узнает, что такое "ебли" - глагол "ебать" во мн.ч. или же существительное "ебля" в родительном падеже.
Можно как угодно дергать и видоизменять текстовку из готовых файлов (марков, синонимизация, маркс, хз что там еще), но представления о грамматической структуре там не будет. phpMorphy говнобиблиотека, даже стеммеров нормальных на PHP нету.
Впрочем, все можно писать с нуля, да :)
Да пиздец сдохнет.В общем не буду много писать, скажу одно - вы пишите хуйню и не понимаете что такое дорген.
__________________
Мой блог - палим темы тоннами
Арбайтен вне форума  Ответить с цитированием
Старый 15.03.2010, 03:17   #16
nikruba
Дорвейщик
 
Регистрация: 19.12.2009
Сообщений: 110
По умолчанию

Арб, давай я проясню свою позицию - будет конкретное возражение - велкам.

В качестве лирического вступления, давайте поговорим о скорости. Возьмем официально заявленные данные для phpMorphy:
Скорость нахождения нормальной формы ~700 слов в секунду(это для php5.1.1, WinXP, Duron-800), имеется возможность загрузить словарь в память, при этом скорость возрастает примерно на 20-25%.
Возьмем для сравнения коммерческий грамматический SDK для C++ _http://www.rco.ru/product.asp?ob_no=2871 - Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц). Это, кстати, не просто приведение в нормальную форму - это приведение в нормальную форму с составлением связей между словами.
Жаль только, у меня жопа треснет его покупать (278000 р. без техподдержки, с поддержкой около 350) - но есть и более дешевые аналоги.

А теперь предметно:
Начнем с того, что дорген может выдавать немодифицированную текстовку, модифицированную текстовку (марков - маркс - синонимизаторы - антонимизаторы - вставка ключевиков в готовый текст - замена существительных на ключевики - что там еще), генерированный текст.
Генерированный текст, например, выдает спартанцевский Цербер. Если речь идет про статическую обработку текста - в принципе похуй, на чем ее писать - примитивный вариант можно написать хоть в блокноте с регэкспами (например, объединение кусков предложений по запятым).

Если ставить себе задачу - разобрать грамматическую структуру ключевика, и окружить его грамматически правильным генерированным текстом - требуется, соответственно, грамматическая библиотека. Для этого может быть использована, например, phpMorphy (PHP) или pyMorphy (Python). Большинство open-source грамматических анализаторов "выросло" из наработок aot.ru, "грамматический словарь Зализняка".

Я, конечно, может и хуйню пишу. С какой стороны взглянуть. На готовом софте с примитивной обработкой готовых текстовок доры лезут. Пока. Простые цепи Маркова Яндекс неплохо определяет (привет, старый Жако!). Пройдет еще немножко времени - "спалятся" и другие алгоритмы "псевдогенерации". Приложив немножко мозга и взяв грамматические инструменты в открытом доступе, даже такой лузер, как я, может различить грамматически неправильный текст. Например, от текстовки старого Жако - "несет" за пять километров, от текстовки нового Жако - за километр. От текстовки "Цербера" - был "душок".

Нет смысла тратить свое время на разработку уже разработанной "генерации текста" (Марков - Маркс - и т.п.), это все уже написано - реально проще и дешевле купить. Но я не видел ни одного доргена, который нормально склоняет ключевики и оборачивает их в хорошую ГЕНЕРИРОВАННУЮ текстовку. Но я над этим работаю :-D. В моем случае инструмент - C#, но принципиальной разницы нет, в любом случае это должен быть полноценный язык программирования - для достижения нормальной производительности; для возможности хранить в памяти бинарные деревья приличного размера; в конце концов для статического анализа текстов (текстовку из воздуха генерить, как в Цербере - имхо глупость).
nikruba вне форума  Ответить с цитированием
Старый 15.03.2010, 03:30   #17
nikruba
Дорвейщик
 
Регистрация: 19.12.2009
Сообщений: 110
По умолчанию

Если у топикстартера нет мыслей грамматическую обработку писать "совсем с нуля", возможно есть смысл начать с материалов сайта aot.ru, хотя словарь там несуразный (ложные срабатывания. Навскидку - за 5 минут - нашел на анализе слова "хуечек" несклоняемую форму, на анализе "бзднуть" - несклоняемое существительное (хотя есть и правильная интерпретация)). И генератора для русского у них нету :)

Если найдется что получше - я бы с удовольствием в PM получил ссылку на это :)
nikruba вне форума  Ответить с цитированием
Старый 15.03.2010, 04:15   #18
Markus
Полудорвейщик
 
Аватар для Markus
 
Регистрация: 16.12.2009
Сообщений: 32
По умолчанию

А смысл холивара тогда ? Если все алгоритмы паляться.. Мож надо думать не как текст из копипаста сделать уник, а как его оптимизировать более человечно. А писать можно на чем хочется, лишь бы оно работало...
ЗЫ смысл использоваться чужие наработки нет.. Так как они уже засвечены, если че писать то самому.
__________________
BidTraffic - PPC без издержек - оплачивается каждый клик!
RX-Promotion - толкай таблетки - получай конфетки.

Последний раз редактировалось Markus; 15.03.2010 в 04:18.
Markus вне форума  Ответить с цитированием
Старый 15.03.2010, 04:40   #19
Eladi
Полудорвейщик
 
Регистрация: 06.07.2009
Сообщений: 24
По умолчанию

Цитата:
Сообщение от nikruba Посмотреть сообщение
Нереально написать что-то действительно стоящее на PHP.
Современный дорген для Яндекса - это грамматика. ПХП сдохнет от любого правильного грамматического движка с нормальным грамматическим словарем.
Hidden Block (you must be registered and have 15 posts):
You do not have sufficient rights to see the hidden data contained here.

Последний раз редактировалось Eladi; 15.03.2010 в 04:45.
Eladi вне форума  Ответить с цитированием
Старый 15.03.2010, 05:06   #20
nikruba
Дорвейщик
 
Регистрация: 19.12.2009
Сообщений: 110
По умолчанию

Hidden Block (you must be registered and have 10 posts):
You do not have sufficient rights to see the hidden data contained here.
nikruba вне форума  Ответить с цитированием
Ответ

« Предыдущая тема | Следующая тема »

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Версия для печатиВерсия для печати
Отправить по электронной почтеОтправить по электронной почте

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 11:52. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.6
Copyright ©2000 - 2010, Jelsoft Enterprises Ltd. Перевод: zCarot
General Media Group