2 jours pour sauvegarder beaucoup de fichiers pour 100Go c est long !! Help !
Bonjour à tous,
Billet un peu spécial mais je vais vous demander votre avis, j'en ai besoin !
Je n'arrive pas à trouver une solution satisfaisante dans le cadre professionnel pour sauvegarder une application (ses données).
Ci-dessous, une vidéo qui explique en images mon soucis dans les mêmes conditions....
Je vous explique rapidos le contexte.
Le système utilisé est RedHat Entreprise Linux 5.x, les données sont sur une baie de disque DELL en raid 5, montée sur la machine sur un point de montage classique.
Ce serveur héberge une application (gérée par un prestataire) dans laquelle on traite des dossiers. Pour chacun des dossiers, on a des documents qu'on numérise.
Chaque document s'appelle 161229XXX.tif (ce sont des documents numérisés et qui portent le numéro du dossier en fonction de sa date du jour).
Dans chaque dossier, on a plusieurs types de documents : ordo pour ordonnance, document1, document2 jusqu'à document16 pour des docs classiques, et userdoc1, userdoc2 jusqu'à userdoc8 pour des documents utilisateur.
Le document le plus présent est "ordo'". J'ai regardé, après un
Le résultat est de 1.300.000. Donc notez plus d'un million de fichiers dans le même dossier. (On ne liste jamais le dossier, donc on s'en fiche, on va chercher une image par le biais de l'application avec son nom direct).
Document1 en a 500.000, Document2 environ 450.000 et après les document8-9-10-11-12-13-14-15-16 sont pas ou peu utilisés.
Idem pour les dossiers userdoc (1 2 3 4 très utilisés, et 5 6 7 8 peu).
J'ai acheté un disque externe pour faire en plus du système de sauvegarde existant une copie sur le HDD externe (USB).
Disons que la baie de disques est montée sur /mnt/app... et le disque sur /mnt/hdd
Premier réflexe :
J'attends, attends, attends .... 2h plus tard, rsync construit toujours la liste ... Pas très convaincant.
Pour une première copie, je me dis : Je ne vais pas me casser la tête avec rsync, je vais faire un cp -p, les droits sont basiques.
Je créé mon arborescence sur le HDD :
Et je lance la copie avec cp du premier dossier :
Après quelques minutes cp me crache :
Pas évident de lui faire manger 1.3 millions de dossiers...
Donc, solution qui «marchouille» c'est le find ...
Ca part. Cool, mais ça ne copie pas dans l'ordre alphabétique (qui est grossomodo aussi l'ordre de création ou modification du fichier :( )
Donc lors de la copie, on ne sait même pas à quel stade on en est.
J'ai mis dans un script mes différents find pour copier mes fichiers....
Au bout de 2 jours, ordo et doc1 sont finis, pour une centaine de Gigas.
Il reste doc2 à doc16 et userdoc1 à userdoc8 ...
Bon, OK c'est la première copie mais bon ....
Après, rsync va-t-il être plus rapide ? Pas sûr, car la liste des fichiers sera toujours à élaborer.
On y retourne avec un find et un cp -pvu ?
Là je ne sais pas quoi faire avec les outils standards. Je demande donc votre aide et je prend note de toute idée, afin de mettre ça en application (dans un environnement de test d'abord, avant la prod bien entendu !)
Billet un peu spécial mais je vais vous demander votre avis, j'en ai besoin !
Je n'arrive pas à trouver une solution satisfaisante dans le cadre professionnel pour sauvegarder une application (ses données).
Ci-dessous, une vidéo qui explique en images mon soucis dans les mêmes conditions....
Je vous explique rapidos le contexte.
Le système utilisé est RedHat Entreprise Linux 5.x, les données sont sur une baie de disque DELL en raid 5, montée sur la machine sur un point de montage classique.
Ce serveur héberge une application (gérée par un prestataire) dans laquelle on traite des dossiers. Pour chacun des dossiers, on a des documents qu'on numérise.
Chaque document s'appelle 161229XXX.tif (ce sont des documents numérisés et qui portent le numéro du dossier en fonction de sa date du jour).
Dans chaque dossier, on a plusieurs types de documents : ordo pour ordonnance, document1, document2 jusqu'à document16 pour des docs classiques, et userdoc1, userdoc2 jusqu'à userdoc8 pour des documents utilisateur.
Le document le plus présent est "ordo'". J'ai regardé, après un
Code BASH :
ls -l /chemin/ordo | wc -l
Le résultat est de 1.300.000. Donc notez plus d'un million de fichiers dans le même dossier. (On ne liste jamais le dossier, donc on s'en fiche, on va chercher une image par le biais de l'application avec son nom direct).
Document1 en a 500.000, Document2 environ 450.000 et après les document8-9-10-11-12-13-14-15-16 sont pas ou peu utilisés.
Idem pour les dossiers userdoc (1 2 3 4 très utilisés, et 5 6 7 8 peu).
J'ai acheté un disque externe pour faire en plus du système de sauvegarde existant une copie sur le HDD externe (USB).
Disons que la baie de disques est montée sur /mnt/app... et le disque sur /mnt/hdd
Premier réflexe :
Code BASH :
rsync -av /mnt/app/ /mnt/hdd/
J'attends, attends, attends .... 2h plus tard, rsync construit toujours la liste ... Pas très convaincant.
Pour une première copie, je me dis : Je ne vais pas me casser la tête avec rsync, je vais faire un cp -p, les droits sont basiques.
Je créé mon arborescence sur le HDD :
Code BASH :
mkdir /mnt/hdd/ordo mkdir /mnt/hdd/doc{1,2}
Et je lance la copie avec cp du premier dossier :
Code BASH :
cp -pv /mnt/app/ordo/* /mnt/hdd/ordo/
Après quelques minutes cp me crache :
Code TEXT :
Liste d'arguments trop longue
Pas évident de lui faire manger 1.3 millions de dossiers...
Donc, solution qui «marchouille» c'est le find ...
Code BASH :
find /mnt/app/ordo -name '*.tif' -exec cp -p {} /mnt/hdd/ordo/ \;
Ca part. Cool, mais ça ne copie pas dans l'ordre alphabétique (qui est grossomodo aussi l'ordre de création ou modification du fichier :( )
Donc lors de la copie, on ne sait même pas à quel stade on en est.
J'ai mis dans un script mes différents find pour copier mes fichiers....
Au bout de 2 jours, ordo et doc1 sont finis, pour une centaine de Gigas.
Il reste doc2 à doc16 et userdoc1 à userdoc8 ...
Bon, OK c'est la première copie mais bon ....
Après, rsync va-t-il être plus rapide ? Pas sûr, car la liste des fichiers sera toujours à élaborer.
On y retourne avec un find et un cp -pvu ?
Là je ne sais pas quoi faire avec les outils standards. Je demande donc votre aide et je prend note de toute idée, afin de mettre ça en application (dans un environnement de test d'abord, avant la prod bien entendu !)
N'hésitez pas à sélectionner la qualité HD en 720p ou 1080p !