![]() |
Удаление большого количества папок и файлов
Доброго времени суток!
Имеется каталог с большим количеством папок, подпапок и файлов. Структура следующая: Folder_main\YYYYMMDD\Folder1\ далее подкаталоги FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder_main\YYYYMMDD\Folder2\ далее подкаталоги FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder_main - корневая, главная папка ... и т.д. может доходить до сотней подкаталогов типа FolderXXX, а соответственно и файлов в каждой из подпапок. Каждый файл занимает от нескольких байт, то нескольких килобайт (не более 10kb, где-то). Но их количество (как папок так и соответственно, файлов) очень большое, несколько миллионов. Почти за 10 лет. Каталог ежедневно, в одно определенное время, пополняется по принципу - новая папка - новая подпапка - новый файл. Нужно удалить все старые папки вместе с файлами, не трогая последние три. Пытался сделать это через Forfiles, но команда удаляет только файлы. Пытался добавить rmdir /s /q но бесполезно, выдает в ошибку о том, что путь не найден и типа того. FORFILES /p D:\Folder_main\ /s /m *dat* /d -2000 /c "CMD /c del /Q @FILE" 2000 это я указал, чтобы не сразу весь объем... Думал про вариант с RD, заранее скопировав три главных последних каталога (YYYYMMDD), но т.к. файлов и подпапок очень много, то такой вариант подойдет лишь разово. Да и неизвестно сколько по времени он будет удалять, боюсь, всю память сожрет. А нужно этот процесс поставить на поток, чтобы ежедневно удалял файлы и каталоги за минусом в три дня. Также, не хотелось бы грузить сервер во время удаления, поэтому предполагается удаление такого большого количества файлов и папок(подпапок) частями. Можно конечно просто запустить в планировщик батник в выходные, и за несколько недель почистить, а папки постепенно удалить вручную, через тот же total, или удалить через rd, как я упомянул выше, т.к. в принципе последние три дня они не критичны. Подскажите плз, кто сталкивался с подобными задачами, какое лучше решение применить в данном случае? |
@file - возвращает имя файла.
а вам надо указать @path - возвращает полный путь к файлу. |
Цитата:
Попробовал указать, ничего не изменилось. |
Цитата:
Цитата:
Folder_main\20200210\ Folder_main\20200205\ Folder_main\20200203\ А предыдущие: Folder_main\20200202\ Folder_main\20200201\ Folder_main\20200128\ Folder_main\20191231\ ....... удалить. Код:
@Echo Off Вставил визуальный контроль процесса, если это не надо - уберите выделенное красным цветом. ОцЕните скорость выполнения - если посчитаете, что всё-таки надо процесс разбить - пишите. |
Цитата:
P.S. Первый раз можно и «ручками» удалить :). |
Iska, в чём смысл? Вижу цель - оставить несколько последних по датам в имени папок. Счюпать каждый файл - никакого смысла.
Если уж очень хочется, то и рекурсия - не оптимум. ИМХО эффективнее сделать dir папок и конвейером на обратную сортировку. Убивать в папке файлы и после удаления файлов удалять папку без /s /q. Но это по времени не знаю на сколько порядков медленнее, чем удалять сразу старые папки. Эх, не хватает оценки, сколько тратится времени на удаление каждого дня. Если принять, что за 10 лет создалось 3600 папок по дням и если каждая папка удаляется 1сек, то это уже 1 час. Кстати, echo в моём коде наверное может хорошо замедлить процесс. |
finderhd, а не хотите отталкиваться от даты создания файла вместо "трёх последних папок"?
|
Вот вариант с ограничением количества удаленных папкодней
Код:
@Echo Off Set /A Skip=3 -здесь количество дней, которые нужно оставить Set /A MaxCount=365 -здесь количество дней (не более), удаляемых за один запуск батника. Батник можно поместить в планировщик, запускать хоть раз в день, хоть несколько (надо при этом быть уверенным, что предыдущий запуск уже успел отработать). При указанных параметрах и если задание в планировщике запускать раз в сутки, за 10 дней 10 лет Вы убьете и в последующем будут всегда оставаться три последних дня. |
Цитата:
|
Цитата:
|
Цитата:
- создать отдельный логический раздел - сохранять из этого раздела последние три (> ...) папки/подпапки/файла на рабочий логический раздел - удалять вышесозданные последние три (> ...) папки/подпапки/файла по прошествии какого-то времени - форматировать отдельный логический раздел когда накопилось более чем достаточно ну или по желанию |
Цитата:
YYYYMMDD/Folder1/Subfolder1/file.dat YYYYMMDD/Folder2/Subfolder2/file.dat YYYYMMDD/Folder3/Subfolder3/file.dat и т.д. У меня есть такой еще скрипт, он работает, но оооочень медленно, так медленно, что использовать его для удаления миллиона папок и файлов, просто бессмысленно. Как на поток поставить, когда уже будет всё удалено - еще норм. cd D:\Folder_main forfiles /p "C:\Folder_main" /S /D -2000 /C "cmd /c del /f /a /q @file" :repeat for /f "tokens=*" %%i in (' dir /b /s /ad "C:\Folder_main" ') do 2>nul rd /q "%%i" && goto:repeat Цитата:
Цитата:
Цитата:
Set /A Skip=2000 Set /A MaxCount=2000 выдает ошибку: %f unexpected at this time Я вот думаю, если просто оставить батник на выходные, справится он с удалением всего, за минусом трех дней? И как проследить что он точно отработал, помимо history в планировщике? Или лучше лишнюю нагрузку не создавать добавлением логирования? Или не заморачиваться, а просто как Вы посоветовали с теми параметрами skip и MaxCount, поставить батник в планировщик на ночь и ждать 10 дней... попутно проверяя его. Либо, увеличить MaxCount скажем на 2000 и поставить в планировщик по выходным. Спешки в этом плане нет, главное чтобы работа батника не отправила сервер в ступор. upd. Поставил Set /A Skip=3 Set /A MaxCount=2000 подложил каталоги за 2011 год, и за 2017. Батник их удалил, вместе с файлами. Возможно конечно, что папки только по имени такие, а по дате они свежие. Но по-другому протестить нельзя, сразу это делать на главном серваке не решусь пока. |
Цитата:
Первая (главная) папка - одна, её ни в коем случае трогать нельзя. Следующие папки (подпапки), находятся в главной папке, имеют вид YYYYMMDD т.е. согласно дате создания и их более 2180 (пару другую десятков я ранее удалял руками, но запарился это делать, ибо 10 папок с кучей подпапок и файлов через тотал удалялись в среднем примерно за 5-7 сек. при этом, по диспетчеру сразу видно было как возрастала нагрузка на оперативку). Ну и каждый день каталог пополняется новым количеством папок и файлов. Далее идут подпапки с разными названиями, и в каждой из них один маленький файл (от нескольких байт, до нескольких кб) с одинаковым названием. Т.е. например, вот так выглядит один из путей: D:\Reports\Folder_main\20110101\Folder1\Subfolder1\file.dat Так вот, этих подпапок (subfolder1), могут быть миллионы. Количество folder1 в каждой папке вида YYYYMMDD 49 штук. А вот подпапок subfolder1 может быть от одной, двух то нескольких сотен. Не поленился и зашел во все 49 папок folder1. Среднее количество в каждой штук 50 подпапок, но попадалась одна папка с тремя сотнями подпапок и штук 7 папок с более с100 подпапок. Т.е. если даже взять по среднему так сказать, 50 подпапок, то получаем порядка 105 тыс. папок в каждой folder1. Получаем: 105000х49=5 млн.145 тысяч папок и соответственно файлов. ) Конечно это не точно и могут быть погрешности как в минус, так и в плюс. Если попытаться их сосчитать через Свойства, система начинает загибаться через пару минут, ибо сильно отжирается оперативка. Больше я сосчитать их не пытался ) |
Цитата:
1. Какие три каталога надо оставить? Folder1 или Subfolder1? 2. Каталог YYYYMMDD, если старый, будет удаляться? 3. Если на пункт 2 ответ положительный, то насколько каталог YYYYMMDD должен быть старым для удаления? Цитата:
|
finderhd,
Вот структура каталогов, как я себе их представляю по Вашему изложению
Код:
Folder_main\ Сколько подпапок, файлов в этих папках скрипту глубоко фиолетово, я рассуждаю только с точки зрения количества красных папок за день Цитата:
Цитата:
Вот вариант с выдачей времени исполнения
Код:
@Echo Off Три последних дня (если укажете 3) естественно останутся. Первый скрипт попроще и отработает быстрее. Естественно, если не хотите наблюдать за процессом, Call Echo %%Time%% "%BoxIn%\%%f" & можно убрать. Не думаю, что будет как-то отжираться, как Вы выразились, оперативка. Не знаю, что такое сервер, но, если там Raid, то удаление проделается очень быстро. Основная нагрузка на диск. |
Цитата:
Цитата:
Цитата:
finderhd, Вам необходимо собраться с мыслями, откинуть "лишнюю" информацию и четко ответить на вопросы: 1. Удаляются подкаталоги первого уровня вложенности от основного (которые имеют формат YYYYMMDD)? 2. Имеются ли в основном каталоге другие подкаталоги с форматом имени отличным от YYYYMMDD? 3. Дата создания файлов, находящихся в подкаталогах от этих удаляемых каталогов, не имеет значения или имеет? 4. Так к чему относится это: "старше 3-х дней"? К каталогам с форматом YYYYMMDD или к файлам, или к чему-то ещё? Если к каталогам, то остаются три последних или таки младше трех дней от текущей даты? А пока, предварительный скрипт powershell (с учетом того, что в основном каталоге нет подкаталогов с именами, отличающимися от формата YYYYMMDD): Код:
#requires -v 3.0 |
Цитата:
Цитата:
|
Цитата:
Т.е. иерархия скорее такая: Скрытый текст
Folder_main\ 20200201\ Folder1\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder2\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder3\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat 20200202\ Folder1\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder2\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Folder3\ FolderXXX\1.dat FolderYYY\1.dat FolderZZZ\1.dat Set /A Skip=2000 - здесь я указал 2000 т.к. хотел, чтобы скрипт удалил все папки, которые старше 6 лет примерно. Т.е. 2000/365=5,4 года . Set /A MaxCount=2000 - вот здесь не понятно, зачем это условие, если есть условие выше. Какое-то противоречие получается. Set /A Skip=3 -здесь количество дней, которые нужно оставить - вот я и оставил 2000, чтобы учесть момент, что батник будет выполнять долго, если оставить 3 дня. А если за минусом 2000 дней, то батник можно спокойно оставить на работу в выходные. Цитата:
Цитата:
Решить данную задачу можно двумя, видимыми мне способами: 1. Удалить старые подпапки с файлами частями, за несколько выходных. 2. Удалить за один раз. Первый вариант предпочтительнее, на случай, "если что-то пойдет не так". Сервер (физически это комп) имеет высокую критичность в течении дня, и до глубокой ночи. На выходных на нем ничего не крутится, поэтому ресурсов на обработку к.л. заданий достаточно. Второй вариант подойдет только если батник управится за пару выходных. Но учитывая огромное количество подпапок и файлов, узнать сколько это займет, невозможно. Но можно конечно прикинуть, как подсказали megaloman выше. Теперь отвечу по вашим вопросам: 1. Да 2. Я про структуру папок приводил формат выше. Повторюсь еще раз: D:\Reports\Folder_main\20110101\Folder1\Subfolder1\file.dat D:\Reports\Folder_main\20110101\Folder2\Subfolder1\file.dat Reports - это просто папка на диске С, она чисто для примера. А вот Folder_Main это папка, в которой есть папки вида YYYYMMDD, в которых в свою очередь есть еще много папок, но без файлов, и в каждой из них тоже есть папки, но в них уже лежат файлы типа file.dat В конце каждого дня, за 10 минут до 00:00 в папке Folder_main создается папка вида YYYYMMDD, т.е. с текущей датой, и с подпапками и файлами как показано выше. 3 и 4 пункт совместил: Дата создания файла всегда соответствует текущему дню. Отличаться по времени могут (т.к. за 10 лет незначительно менялось время их создания), но это не важно. Имеет она значения или нет, не знаю, мне нужно чтобы удалялись старые папки за минусом трех дней. Наверное имеют. Все эти папки и файлы на следующий день превращаются по сути в мусор, который и нужно очищать, чтобы каталог всегда имел вид (на примере последних трех дней): D:\Reports\Folder_main\20200213\ D:\Reports\Folder_main\20200212\ D:\Reports\Folder_main\20200211\ здесь я попдапки с файлами не стал указывать, т.к. и так ясно, что внутри папок YYYYMMDD они будут лежать. Т.е. заходим в Folder_main и видим, что всегда там три каталога вида YYYYMMDD за вчерашний день, позавчерашний и позапозавчерашний. Всё. |
Вложений: 2
Чтобы внести ясность со структурой, сделал в тотале в виде дерева (разбил на две части, т.к. не вмещалось, но суть думаю, будет понятна). В каждой папке subfolder лежит файл files.dat
Его размер может быть разным, но имя во всех Subfolder одинаковое. Но по сути это не имеет значение. Должны только оставаться папки вида YYYYMMDD с вложенными в них папками, подпапками и файлами, за минусом в 3 дня т.е. сегодня это будет так: 20200211 20200212 20200213 а завтра уже так: 20200212 20200213 20200214 и т.д., т.е. папки вида YYYYMMDD только за последние 3 дня. |
Цитата:
Ещё раз - есть D:\Reports\Folder_main\, в которой есть вложенные папки. Надо грохнуть все эти вложенные папки со всем содержимым, за исключением тех, которые были созданы за последние 3 дня, верно? |
Цитата:
Да, всё именно так, как вы сказали. Нужно грохнуть все вложенные папки, чтобы оставились только за последние три дня. Но доп. услорвия про то, что таких файлов и папок очень много, и нужно максимально снизить нагрузку на сервер при выполнении батника - остаются в силе. Файлы, не смотря на то, что небольшие, занимают очень много места, которое может исчисляться десятками гигабайт. PS. С PowerShell вообще не знаком. |
"батник"
Код:
powershell -command "dir D:\Reports\Folder_main -Directory |sort creationtime |select -SkipLast 3 |del -Recurse -Force" |
Цитата:
За отсчет будет взята папка за такой год: [20110615]. Все папки вида YYYYMMDD по размеру и количеству подпапок и файлов примерно одинаковые. Количество папок YYYYMMDD примерно 2185 (точно не успел увидеть, т.к. батник уже запустил). Так мы посчитаем среднее значение. По результатам, отпишусь. Итак, запустил Ваш первый батник (вот этот: http://forum.oszone.net/post-2909428-8.html) Параметры поставил такие: Set /A Skip=3 Set /A MaxCount=365 Было каталогов вида YYYYMMDD: 2185, через 5 минут работы батника стало: 1818 Изначальная папка была [20110615], после 5 минут работы батника: [20121123]. Также забыл здесь заметить, что в выходные папки не создаются, только в будние дни, поэтому даты в названиях папок вида YYYYMMDD могут "скакать". Итого получаем, 367 папок вида YYYYMMDD за 5 минут. Очень хороший результат! :happy: Так я и не понял, про параметр Set /A MaxCount=365, при условии, что стоит параметр Set /A Skip=3 ) |
Я бы сделал проще:
|
Цитата:
Вам надо оставить 3 папки (дня). Можно, естественно, поставить иное кол-ао папок. Set /A Skip=3 Так как непонятно было, насколько быстро удаляются папки (Вы их собирались удалять чуть ли не месяц), сделал Вам вариант, какое максимальное количество папок за один запуск батник удалит. Я от фонаря поставил 365, то есть год. Set /A MaxCount=365 Можно поставить значение, равное или больше количества имеющихся папок. Тогда батник удалит все, за исключением 3 последних. Судя по Вашему отзыву, надо поставить большое значение, и убить все старье за раз. Батнику глубоко безразлично, когда папки создаются или не создаются, скачут даты или ползают. Останутся 3 последние папки с максимальными значениями даты в имени. Цитата:
|
Цитата:
|
Цитата:
Rem pause Цитата:
|
Вобщем, ситуация такая - батник запускал руками пару раз и было нормально, но потом после обработки предыдущих, запустил еще один раз и он почти сожрал всю свободную оперативку (как я и опасался). Видимо как-то "накопительно" подействовало. Хотя первые два запуска были безболезненны. Пришлось почистить память через RamMap, а иначе бы сервер упал. :( Осталось 1080 папок грохнуть и поставить на поток. Вот только планировщик не хочет останавливать батник после обработки, так и висит в состоянии "Runing"
Цитата:
|
Цитата:
|
Iska, У Вас есть соображения по этому поводу?
Цитата:
|
Перечитал всю эту эпопею.
Цитата:
Как раз ваши попытки использовать "решение поставленное на поток" для обработки десятилетнего архива и выжрет всю память, будет работать неизвестно сколько по времени и т.п. Так что Цитата:
А для ежедневного удаления одного файла и двух каталогов можно использовать уже почти любой инструмент не особо задумываясь о памяти и времени. Цитата:
Что касается ежедневной зачистки - сформулируйте задачу конкретнее и сразу станет понятнее, как её решать. Выберите вариант:
|
Как минимум есть желание поучаствовать в обсуждении, поскольку задача так скажем не самая скучная, поддержу педыдущий топик, что немного не хватает конкретики и на м.взг. не помешал бы снимок, может быть скриншот, части целевого дерева каталогов.
|
Цитата:
|
Цитата:
Цитата:
На сервере работает по будням другой софт, но он жрет определенное количество оперативки и не более того. В среднем свободно постоянно порядка 5-7 Гб из 12. Цитата:
Сегодня они такие: 20200212 20200213 20200214 а завтра (например) должны быть уже такие: 20200213 20200214 20200217 Цитата:
|
finderhd,
Цитата:
А, еще лучше, вообще без бат-файла одну команду Код:
cmd.exe /C FOR /F "usebackq Skip=3 delims=" %f IN (`Dir "\\Server\Test1\Folder_Main\2???????" /B /A:D /O:-N`) Do Rd /S /Q "\\Server\Test1\Folder_Main\%f" |
Цитата:
Цитата:
|
Цитата:
|
Цитата:
Цитата:
|
Busla,
Цитата:
Другое дело, если ежедневно создаются несколько папок с произвольными именами и надо сохранить папки за несколько последних дней - вот там будет возня с датами. Но решаемо и в CMD. |
Цитата:
в понедельник "три последние" - это пятница, четверг и среда а автор хочет Цитата:
Цитата:
это эникейский подход "на авось" завтра поменяют код приложения и у всех каталогов будет идентичная дата создания, потому что каталог может не создаваться, а копироваться из шаблона что будет при переносе ПО, восстановлении из бэкапа и прочих работах? Кто вообще сказал, что каталог формируется за сегодня, а не за вчера? А ещё Цитата:
В общем, вы и близко не понимаете бизнес-процесс, но готовы накостылять непонятно что и свалить в туман |
Busla, Обратите внимание, я адресовал Вам пост и излагал мысли в рамках деловой этики. Должен заметить, у меня за спиной более десятка лет успешного обслуживания серьезной информационной системы. Вы не привели ни одного внятного довода моей неправоты, не предложили своего, на Ваш взгляд, правильного решения. Тролльте, если Вам так нравится. Но далее без меня.
|
Цитата:
Перечитайте топик. Тут неоднократно пытались уточнить и получить четкие ответы. Из всех полученных ответов от автора следует, что ему требуется оставить три последних созданных каталога с привязкой к имени каталога YYYYMMDD и никакой привязки к реальной дате создания/изменения в запросе нет. Цитата:
Цитата:
Цитата:
Цитата:
|
Цитата:
Цитата:
А если это вы адресовали megaloman, то я категорически не соглашусь. Именно этот уважаемый форумчанин предложил самое лучшее решение задачи, предоставив решение в виде самого простого скрипта, без анализа дат, вложенных файлов и прочего: http://forum.oszone.net/post-2909269-4.html И этот скрипт работает идеально, в планировщике запускается и стопится как надо. Я его проверил уже на тестовом стенде по типу "поставить на поток". Единственное, что я не проверял его, так это на основном, т.к. прошлая попытка удалить большое количество (пусть даже частями) файлов привела к жору памяти. Но можно запланировать его запуск в выходной день. Я не могу эксперементировать с работающим основным сервером, а воссоздать это на тесте невозможно, т.к. там такого количества папок и файлов нет. Даже попытка их скопировать, может загрузить основной сервер, т.к. файлов миллионы. От них просто надо избавиться и забыть про них навсегда, добавив ежедневный запуск скрипта выше, ночью в планировщике. |
Цитата:
Вы по-русски не можете не то, что сформулировать задачу, а даже выбрать из предложенных формулировок, но почему-то берёте на себя смелость утверждать, что код работает идеально. Смешно. Цитата:
|
Цитата:
|
Цитата:
1)простой: перед командой удаления нужно поставить проверку переменной - маркера загруженности. Допустим маркер=0 (перегруз) - ожидание, маркер=1 - выполнение. Под "ожиданием" я понимаю "бесконечный" цикл с паузой внури и прерывающийся по условию (маркеру загруженности). Маркер загруженности задает подпрограмма, которая запускается параллельно основному циклу и должна периодически проверять загруженность озу и цп и исходя из параметров менять маркер. Допустим рабоча память > 80% - маркер=0 2)более продвинутый: подпрограмма проверяет загруженность цп и озу и на основе этого увеличивает или уменьшает паузу которую основной цикл использует перед удалением.. |
Цитата:
Поэтому вопрос по удалению без нагрузки на систему, пока остается открытым :( Вариант с планировщиком на удаление большого количества не подходит. Надо контролировать ситуацию. Вариант с фаром что предлагали ранее, тоже, слишком много файлов... Пока потихоньку удаляю руками через Total. Осталось еще почти тысяча каталогов. |
finderhd,
Цитата:
|
Цитата:
|
|
Цитата:
|
Время: 23:30. |
Время: 23:30.
© OSzone.net 2001-