Помогите создать скрипт удаления лишних строк
Существует текстовый файл. В нем много мусорных строк содержащих
1 всего один символ(букву) .
2 Только цифры.
3 Два символа вместе или через пробелы
4 Три символа один из которых не относится ни кирилице, ни цифрам, ни к латинице, символы вместе или через пробелы
Эти строки надо удалить. Объясню зачем. После разных распознавалок типа FineReader и CuneiForm в тексте остается много мусора, и ни какие пост-OCR обработчики в автомате такие строки не вычищают.
Заранее благодарен!
|
— это документ Microsoft Word, надо полагать?
|
Цитата:
Цитата Iska
— это документ Microsoft Word, надо полагать? »
|
Нет, текстовый файл с расширением txt.
Вот маленький кусочек файла тык.
|
namin78, посмотрел. Там в любом случае нужна будет вычитка и правка «ручками». Иначе такие абзацы как «"пал ьч и ка.», должные превратиться после вычитки в «пальчика», уйдут в небытие.
|
В общем файле, по моим подсчетам, около 7000-10000 мусорных строк. И если можно удалить 5000-8000 тысяч из них, то это очень облегчит чтение. Я не собираюсь причесывать текст "в ноль". Задача, максимально причесать, нажав десяток кнопок.
|
Четвертый пункт сомнительный (возможен неправильный результат), powershell:
Код:
<#
1 всего один символ(букву) .
2 Только цифры.
3 Два символа вместе или через пробелы
4 Три символа один из которых не относится ни кирилице, ни цифрам,
ни к латинице, символы вместе или через пробелы
#>
(get-content file.txt) -replace '^(.|\d+|.(\s+)?.|\W\s?.\s?.|.\s?\W\s?.|.\s?.\s?\W)$' |
set-content file.1.txt -encoding default
|
Четвертый пункт не сработал не удалился. и цифры не удалились. Как было так и осталось
|
greg zakharov |
24-03-2016 10:18 2619217 |
namin78, в том куске текста, что был представлен, вычистить мусорные строки можно так (PS v2):
Код:
gc .\bar | ? {$_ -match '\w{3}'}
|
Цитата:
Цитата greg zakharov
вычистить мусорные строки можно так »
|
А как сделать что-бы вывод в файлик, а не на экран?
|
Foreigner, добавив к вашему коду еще чуть-чуть, я добился желаемого результата. Спасибо.
|
Время: 22:08.
© OSzone.net 2001-