PDA

Просмотр полной версии : Парсинг текста для доров


Madness_Lvov
22.12.2009, 02:16
Люди, где вы текстовку берете для доров?
Чем парсите?
Подскажите проги, если не жалко :yes_1:

Darth Wayer
22.12.2009, 08:33
Люди, где вы текстовку берете для доров?
Чем парсите?
Подскажите проги, если не жалко :yes_1:
Тут в теме про Яко ссылка на электронную библиотеку была... А так, уже генераторы текста пи�?ут, которым не нужен исходный тест, т.е. сами с нуля генерят. Здесь где-то такой продавался за 25$, но ХЗ, автор пример проиндексированного дора не привёл.

Кабасик
22.12.2009, 09:03
Люди, где вы текстовку берете для доров?
Чем парсите?
Подскажите проги, если не жалко

Даю наводку: книги в djvu + DjvuOCR + Файнридер....
Но будущее за генераторами текста, так что луч�?е параллельно учить php - тогда будут тебе и парсеры и генераторы и баблособираторы)))

Школота
22.12.2009, 11:25
Можно и руками :) Я за 5 минут 15 метров собирал.
А вообще есть парсилка WebGrabber

Madness_Lvov
22.12.2009, 15:07
Можно и руками :) Я за 5 минут 15 метров собирал.
Школота, расскажите на примере как за 5 мин 15 метров
А вообще есть парсилка WebGrabber
Это тот WebGrabber, что за 150$ ? Школота, ссылку напи�?ите.

Даю наводку: книги в djvu + DjvuOCR + Файнридер....
Муторно это - djvu распознавать.
На выходе получим уникальный текст - это плюс конечно.
Но это ж книга будет, текст придется все равно руками обрабатывать.

Я пока так делаю - скачиваю книгу метра на три в rtf,
стираю из нее слова - "глава 1, глава 2 итд", потом действующих героев меняю на общие ключевики для дора - получается тематический текст :yes_1:
Но мля долго это все, надо софт,
чтоб статьи с нета парсил по кею или автогенератор контента по словарям :yes_1:

Арбайтен, а вы где текстовку берете?