News - Logiciels Libres

2 jours pour sauvegarder beaucoup de fichiers pour 100Go c est long !! Help !

Adrien.D | 29/12/2016 | Logiciels Libres | 10 Commentaires | 846

Bonjour à tous,

Billet un peu spécial mais je vais vous demander votre avis, j'en ai besoin !
Je n'arrive pas à trouver une solution satisfaisante dans le cadre professionnel pour sauvegarder une application (ses données).

Ci-dessous, une vidéo qui explique en images mon soucis dans les mêmes conditions....

Je vous explique rapidos le contexte.

Le système utilisé est RedHat Entreprise Linux 5.x, les données sont sur une baie de disque DELL en raid 5, montée sur la machine sur un point de montage classique.
Ce serveur héberge une application (gérée par un prestataire) dans laquelle on traite des dossiers. Pour chacun des dossiers, on a des documents qu'on numérise.
Chaque document s'appelle 161229XXX.tif (ce sont des documents numérisés et qui portent le numéro du dossier en fonction de sa date du jour).
Dans chaque dossier, on a plusieurs types de documents : ordo pour ordonnance, document1, document2 jusqu'à document16 pour des docs classiques, et userdoc1, userdoc2 jusqu'à userdoc8 pour des documents utilisateur.
Le document le plus présent est "ordo'". J'ai regardé, après un

Code BASH :

ls -l /chemin/ordo | wc -l

Le résultat est de 1.300.000. Donc notez plus d'un million de fichiers dans le même dossier. (On ne liste jamais le dossier, donc on s'en fiche, on va chercher une image par le biais de l'application avec son nom direct).
Document1 en a 500.000, Document2 environ 450.000 et après les document8-9-10-11-12-13-14-15-16 sont pas ou peu utilisés.
Idem pour les dossiers userdoc (1 2 3 4 très utilisés, et 5 6 7 8 peu).

J'ai acheté un disque externe pour faire en plus du système de sauvegarde existant une copie sur le HDD externe (USB).

Disons que la baie de disques est montée sur /mnt/app... et le disque sur /mnt/hdd

Premier réflexe :

Code BASH :

rsync -av /mnt/app/ /mnt/hdd/

J'attends, attends, attends .... 2h plus tard, rsync construit toujours la liste ... Pas très convaincant.

Pour une première copie, je me dis : Je ne vais pas me casser la tête avec rsync, je vais faire un cp -p, les droits sont basiques.

Je créé mon arborescence sur le HDD :

Code BASH :

mkdir /mnt/hdd/ordo
mkdir /mnt/hdd/doc{1,2}

Et je lance la copie avec cp du premier dossier :

Code BASH :

cp -pv /mnt/app/ordo/* /mnt/hdd/ordo/

Après quelques minutes cp me crache :

Code TEXT :

Liste d'arguments trop longue

Pas évident de lui faire manger 1.3 millions de dossiers...

Donc, solution qui «marchouille» c'est le find ...

Code BASH :

find /mnt/app/ordo -name '*.tif' -exec cp -p {} /mnt/hdd/ordo/ \;

Ca part. Cool, mais ça ne copie pas dans l'ordre alphabétique (qui est grossomodo aussi l'ordre de création ou modification du fichier :( )

Donc lors de la copie, on ne sait même pas à quel stade on en est.

J'ai mis dans un script mes différents find pour copier mes fichiers....

Au bout de 2 jours, ordo et doc1 sont finis, pour une centaine de Gigas.
Il reste doc2 à doc16 et userdoc1 à userdoc8 ...

Bon, OK c'est la première copie mais bon ....

Après, rsync va-t-il être plus rapide ? Pas sûr, car la liste des fichiers sera toujours à élaborer.
On y retourne avec un find et un cp -pvu ?

Là je ne sais pas quoi faire avec les outils standards. Je demande donc votre aide et je prend note de toute idée, afin de mettre ça en application (dans un environnement de test d'abord, avant la prod bien entendu !)

N'hésitez pas à sélectionner la qualité HD en 720p ou 1080p !

Mots clés : Vidéo, Red Hat Entreprise Linux, Sauvegarde

Suggestions :

Commentaires

Commentaires bloqués, vous ne pouvez pas poster de commentaire

Commentaire

Cascador

Visiteur

#417 29/12/2016 à 20h36

Salute,

J'aime les articles comme ça où on réfléchit à plusieurs ! Avant de parler des outils, parlons des points pouvant résoudre ton problème. A mon avis il y a deux pistes : 1/ Déduplication 2/ Parallélisation

Concernant la déduplication je t'invite à regarder Borg https://www.blog-libre.org/2016/08/21/borgbackup-borg-pour-les-intimes/. Concernant la parallélisation je t'invite à regarder http://connect.ed-diamond.com/GNU-Linux-Magazine/GLMF-164/Parallelisez-vos-transferts-de-fichiers

Tcho !

Commentaire

Adrien.D

Administrateur

#418 29/12/2016 à 21h10

Merci pour les pistes, je vais jeter un oeil

Commentaire

Mikeangie

Visiteur

#420 29/12/2016 à 21h18

C'est peu être un peu con se que je vais dire de mes yeux de débutant, mais de faire un fichier tar en compression ça ne t'irai pas. La compression réagit bien sur de petits fichiers...

Si c'est idiot , sorry...
En tout cas je te suis tous les soirs et me couche moins bête.

Merci à toi pour ton temps offert.

Commentaire

Visiteur

#421 30/12/2016 à 00h34

Essayer dd if .......

Commentaire

Adrien.D

Administrateur

#422 30/12/2016 à 08h02

dd ne conviendra pas, il fait une copie par blocs, il faut que le volume puisse être monté et modifié pendant la copie.

TAR c'est une bonne idée, mais je veux garder les fichiers. Pas avoir une grosse archive.

Néanmoins en "pipant" TAR ainsi ça semble être pas mal :

Code BASH :

cd /mnt/app/docs/ && tar -c . | tar -xvf - -C /mnt/hdd/docs/

Commentaire

Visiteur

#423 30/12/2016 à 10h10

Perso j'aurai été un bourrin, j'aurai bêtement copier la partition si c'est juste pour faire un backup

Commentaire

Visiteur

#424 30/12/2016 à 10h19

Backup que je remonterai s'il y a besoin de restaurer les fichiers...
Copier la partition sera beaucoup plus rapide que de faire de la copie fichier par fichier... enfin c'est mon avis

Commentaire

Carl Chenet

Visiteur

#426 30/12/2016 à 15h27

je t'encourage à regarder du côté du logiciel fpart qui crée des lots. Cela permet de migrer des baies entière niveau systèmes de fichiers avec un très grand nombre de fichiers de tailles totalement différentes,là où le rsync traditionnel va rapidement saturer.

Commentaire

Adrien.D

Administrateur

#428 31/12/2016 à 00h26

je vais regarder fpart

Commentaire

Fred R.

Visiteur

#448 02/01/2017 à 10h15

Tu as dar (dar.linux.free.fr) dispo sur fedora (dnf install dar). Jamais essayé, j'ai trouvé par hasard cette semaine.

Et sinon Duplicity (http://duplicity.nongnu.org/) qui gère les externalisation (et les incrémentales) sur les stockages cloud (S3, glacier) etc...
Duplicity a une interface graphique, Deja-dup (https://launchpad.net/deja-dup) qui est installé sur Ubuntu Unity de base.