PDA

Просмотр полной версии : Скрипт чистки текста


kedr
25.12.2009, 19:56
Вот ищу сриптик для чистки текста от ненужных вещей, таких как
кавычки, скобки и всякого другого.
чтобы в него вогнать все что не нужно и он обработал текст и на выходе получился чистенький.

it.netov
25.12.2009, 21:28
написал на php, в камментах пояснил что да как.
set_time_limit(0);
$text = file_get_contents("./text.txt"); /* text.txt - файл, где текст на обработку */
$search = explode("||", "(||)||"||'); /* тут через || указывае�?ь что удалить в тексте */
$text = str_replace($search, "", $text);
$fp = fopen("./new_text.txt", "w+"); /* new_text.txt - тут очищенный текст*/
fputs($fp, $text);
fclose($fp);
?>

1cv7
25.12.2009, 22:36
KeyWordKeeper чем плох?

1cv7
25.12.2009, 23:06
�?нтересно, и как им можно почистить текст?
насколько я знаю, если использовать функцию чистки и в форму "ключевые слова" вставить что-то, допустим кавычки ("), то при нахождении
в строчке оного, удалится вся строчка.


А если попробовать?

Там есть "элементарная чистка"

kedr
25.12.2009, 23:20
А если попробовать?

Там есть "элементарная чистка"

�? что? "элементарная чистка", она удаляет пробелы между строк и все.

nik404
25.12.2009, 23:24
Вот попробуй там всё понятно.
Я на денвере тексты чищу...

if (isset($_POST['start_erase'])) {
$time_start=microtime(true);
error_reporting(-1);
ignore_user_abort(true);
set_time_limit(300);
//ini_set('memory_limit', '1024M');
if (isset($_POST['strtolower'])) setlocale(LC_ALL, 'ru_RU.CP1251', 'Russian_Russia.1251');
$arr_files=scandir($_POST['input_dir']);
unset($arr_files[array_search('.', $arr_files, true)], $arr_files[array_search('..', $arr_files, true)]);
$erase1=trim(stripcslashes($_POST['erase1']));
$erase2=trim(stripcslashes($_POST['erase2']));
$erase3=trim(stripcslashes($_POST['erase3']));
$erase4=trim(stripcslashes($_POST['erase4']));
$arr_del_smbl=explode(' ', $erase1.' '.$erase2.' '.$erase3.' '.$erase4." \r \n ");
$all_files_to_file='';
$ia=0;
foreach ($arr_files as $file) {
$input_file=file_get_contents($_POST['input_dir'].$file);
if ($_POST['charset']=='UTF-8') $input_file=iconv("UTF-8", "CP1251", $input_file);
$input_file=strip_tags($input_file);
$input_file=str_replace($arr_del_smbl, " ", $input_file);
$input_file=preg_replace("/ +/", ' ', $input_file);
if (isset($_POST['strtolower'])) $input_file=strtolower($input_file);
$input_file=trim($input_file);
if (isset($_POST['files_to_file'])) $all_files_to_file.=$input_file.' ';
else file_put_contents($_POST['output_dir'].$file, $input_file);
$ia++;
}
if (isset($_POST['files_to_file'])) file_put_contents($_POST['output_dir'].'all.txt', trim($all_files_to_file));
echo 'Обработано '.$ia.' файлов из директории '.$_POST['input_dir'].' за '.round(microtime(true)-$time_start, 3).' сек.';
exit;
}
?>




Erase Tags 1.0









































директория исходников
директория результатов
кодировка исходников


windows-1251

UTF-8

удалить символы, разделитель пробел
удалить символы, разделитель пробел
удалить символы, разделитель пробел
удалить символы, разделитель пробел “ ” « » ! ? ." size="80">
преобразовать результат в нижний регистр
слить все файлы в один





1cv7
25.12.2009, 23:26
�? что? "элементарная чистка", она удаляет пробелы между строк и все.

Да... далеко пойде�?ь :congratulate:

http://jandi.ru/key.png

kedr
25.12.2009, 23:52
[QUOTE=1cv7;16804]Да... далеко пойде�?ь :congratulate:

Спасибо за эпитет в мой адрес.
Не видел этой версии, стоит 4.2.4

Darth Wayer
26.12.2009, 23:46
Спасибо за эпитет в мой адрес.
Не видел этой версии, стоит 4.2.4

Я 4.2.2 пользуюсь, чего-то 4.2.4 плохо идёт ((

it.netov, спасибо, сейчас потестю.

Там, справа, кнопочка есть "СПАС�?БО". Рекомендую )