Друзья | Форум вебмастеров |
|
Регистрация | Справка | Чат | Пользователи | Календарь | Поиск | Сообщения за день | Все разделы прочитаны |
|
|
Опции темы |
15.03.2010, 03:17 | #16 |
Дорвейщик
Регистрация: 19.12.2009
Сообщений: 110
|
Арб, давай я проясню свою позицию - будет конкретное возражение - велкам.
В качестве лирического вступления, давайте поговорим о скорости. Возьмем официально заявленные данные для phpMorphy: Скорость нахождения нормальной формы ~700 слов в секунду(это для php5.1.1, WinXP, Duron-800), имеется возможность загрузить словарь в память, при этом скорость возрастает примерно на 20-25%. Возьмем для сравнения коммерческий грамматический SDK для C++ _http://www.rco.ru/product.asp?ob_no=2871 - Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц). Это, кстати, не просто приведение в нормальную форму - это приведение в нормальную форму с составлением связей между словами. Жаль только, у меня жопа треснет его покупать (278000 р. без техподдержки, с поддержкой около 350) - но есть и более дешевые аналоги. А теперь предметно: Начнем с того, что дорген может выдавать немодифицированную текстовку, модифицированную текстовку (марков - маркс - синонимизаторы - антонимизаторы - вставка ключевиков в готовый текст - замена существительных на ключевики - что там еще), генерированный текст. Генерированный текст, например, выдает спартанцевский Цербер. Если речь идет про статическую обработку текста - в принципе похуй, на чем ее писать - примитивный вариант можно написать хоть в блокноте с регэкспами (например, объединение кусков предложений по запятым). Если ставить себе задачу - разобрать грамматическую структуру ключевика, и окружить его грамматически правильным генерированным текстом - требуется, соответственно, грамматическая библиотека. Для этого может быть использована, например, phpMorphy (PHP) или pyMorphy (Python). Большинство open-source грамматических анализаторов "выросло" из наработок aot.ru, "грамматический словарь Зализняка". Я, конечно, может и хуйню пишу. С какой стороны взглянуть. На готовом софте с примитивной обработкой готовых текстовок доры лезут. Пока. Простые цепи Маркова Яндекс неплохо определяет (привет, старый Жако!). Пройдет еще немножко времени - "спалятся" и другие алгоритмы "псевдогенерации". Приложив немножко мозга и взяв грамматические инструменты в открытом доступе, даже такой лузер, как я, может различить грамматически неправильный текст. Например, от текстовки старого Жако - "несет" за пять километров, от текстовки нового Жако - за километр. От текстовки "Цербера" - был "душок". Нет смысла тратить свое время на разработку уже разработанной "генерации текста" (Марков - Маркс - и т.п.), это все уже написано - реально проще и дешевле купить. Но я не видел ни одного доргена, который нормально склоняет ключевики и оборачивает их в хорошую ГЕНЕРИРОВАННУЮ текстовку. Но я над этим работаю :-D. В моем случае инструмент - C#, но принципиальной разницы нет, в любом случае это должен быть полноценный язык программирования - для достижения нормальной производительности; для возможности хранить в памяти бинарные деревья приличного размера; в конце концов для статического анализа текстов (текстовку из воздуха генерить, как в Цербере - имхо глупость). |
15.03.2010, 03:30 | #17 |
Дорвейщик
Регистрация: 19.12.2009
Сообщений: 110
|
Если у топикстартера нет мыслей грамматическую обработку писать "совсем с нуля", возможно есть смысл начать с материалов сайта aot.ru, хотя словарь там несуразный (ложные срабатывания. Навскидку - за 5 минут - нашел на анализе слова "хуечек" несклоняемую форму, на анализе "бзднуть" - несклоняемое существительное (хотя есть и правильная интерпретация)). И генератора для русского у них нету :)
Если найдется что получше - я бы с удовольствием в PM получил ссылку на это :) |
15.03.2010, 04:15 | #18 |
Полудорвейщик
Регистрация: 16.12.2009
Сообщений: 32
|
А смысл холивара тогда ? Если все алгоритмы паляться.. Мож надо думать не как текст из копипаста сделать уник, а как его оптимизировать более человечно. А писать можно на чем хочется, лишь бы оно работало...
ЗЫ смысл использоваться чужие наработки нет.. Так как они уже засвечены, если че писать то самому.
__________________
BidTraffic - PPC без издержек - оплачивается каждый клик! RX-Promotion - толкай таблетки - получай конфетки. Последний раз редактировалось Markus; 15.03.2010 в 04:18. |
15.03.2010, 04:40 | #19 | ||
Полудорвейщик
Регистрация: 06.07.2009
Сообщений: 24
|
Цитата:
Последний раз редактировалось Eladi; 15.03.2010 в 04:45. |
||
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1) | |
Опции темы | |
Версия для печати
Отправить по электронной почте
|
|
|