Windows Server 2022 - Déduplication de données

Installer et configurer la déduplication sous Windows Server 2022

09/03/2023 Florian BURNEL 6 commentaires Stockage, Windows Server

Sommaire

I. Présentation
II. Le principe de la déduplication
III. Installer la déduplication sur Windows Server 2022
IV. Configurer la déduplication sur Windows Server
V. Conclusion

I. Présentation

Dans ce chapitre, nous allons apprendre à installer et à configurer la déduplication sous Windows Server 2025, même si cette mise en œuvre s'applique de façon identique aussi aux versions précédentes : Windows Server 2022, Windows Server 2019 et Windows Server 2016. Avant d'étudier la déduplication dans la pratique, il me semble important de vous proposer une introduction théorique au principe de la déduplication.

II. Le principe de la déduplication

La déduplication de données, ou Dedup pour les intimes, est une fonctionnalité très pratique sur les espaces de stockage dont l'objectif principal est d'optimiser l'espace disque. Grâce à ce mécanisme qui vise à rechercher les parties dupliquées entre les fichiers, l'espace disque utilisé par les données est réduit considérablement. En fonction des usages, le gain en espace disque peut aller de 30% à 95% !

Déduplication - Gain espace disque — Source : Microsoft Learn

Si nous regardons les propriétés d'un dossier présent sur un volume où il n'y a pas de déduplication de données, nous pouvons voir que la "Taille" et la "Taille sur le disque" sont identiques, car il n'y a pas d'optimisation. Après avoir mis en place la déduplication de données, le résultat sera totalement différent comme nous le verrons par la suite.

Pour optimiser l'espace de stockage, le service de déduplication va découper chaque fichier en blocs, associer un identifiant unique à chaque bloc et stocker ces informations dans un index, dans le but d'identifier les blocs communs entre l'ensemble des fichiers. Ainsi, le serveur va stocker qu'une seule copie de chaque bloc et utiliser un système de pointeurs pour que chaque fichier puisse être reconstitué normalement. En utilisant cette méthode, on économise de l'espace disque !

Depuis plusieurs années, le principe de la déduplication de données est utilisé par les logiciels de sauvegarde, notamment Veeam et Altaro (Hornetsecurity), car il permet d'économiser énormément d'espace disque sur l'espace de stockage dédié aux sauvegardes.

En environnement Microsoft, il y a plusieurs cas d'usage où il est intéressant d'utiliser la déduplication de données pour avoir un gain de place important. Ci-dessous, la liste des scénarios prit en charge par Windows Server, avec une configuration adaptée :

Serveurs de fichiers où les utilisateurs stockent leurs données, mais également où il y a de la redirection de dossiers
Environnement VDI (virtualisation de postes de travail)
Applications de sauvegarde virtualisées

III. Installer la déduplication sur Windows Server 2022

Pour installer la fonctionnalité "Déduplication des données" de Windows Server, il est possible d'utiliser le "Gestionnaire de serveur", "Windows Admin Center" ou "PowerShell". Voici la commande PowerShell à utiliser :

Install-WindowsFeature -Name FS-Data-Deduplication

À partir du "Gestionnaire de serveur", voici le rôle à sélectionner sous "Services de fichiers et de stockage" :

Déduplication de données - Installation du rôle Windows Server

L'installation est relativement rapide...

Déduplication de données - Installation du rôle Windows Server - Fin

IV. Configurer la déduplication sur Windows Server

Ce rôle n'a pas sa propre console MMC pour la configuration puisque c'est directement intégré au "Gestionnaire de serveur" dans la section "Services de fichiers et de stockage". Ici, il faut cliquer sur "Disques" à gauche (2), sélectionner le disque qui contient le volume sur lequel on souhaite activer la déduplication (2), puis sélectionner le volume en question (3) et faire un clic droit dessus afin d'activer à l'option "Configurer la déduplication des données".

Remarque : sur Windows Server, la déduplication s'active de façon indépendante pour chaque volume, sur chacun des disques du serveur. Dans cet exemple, c'est sur un disque dédié aux données, associé à la lettre "P" que la déduplication va être activée.

Configurer la déduplication de données - Windows Server

La première étape consiste à sélectionner un scénario d'usage. Ici, il s'agit d'un partage de fichiers classique, donc nous devons sélectionner "Serveur de fichiers à usage général". Il y a également la possibilité de configurer d'autres options :

Dédupliquer les fichiers de plus de (en jours) : 3 jours par défaut pour ce scénario, ce qui représente le délai entre l'écriture de la donnée et l'optimisation
Extensions de fichier personnalisées à exclure : exclure certaines extensions de fichiers, en plus des extensions "edb" et "jrs"
Exclure certains dossiers (et leur contenu) du processus de déduplication en cliquant sur le bouton "Ajouter"

Sous Windows Server, il faut garder à l'esprit que l'optimisation n'est pas effectuée en temps réel : les données sont écrites sur le disque (sans optimisation), puis un traitement effectue l'optimisation des données.

Configurer la déduplication de données - Windows Server - Etape 1

En cliquant sur le bouton "Définir la planification de la déduplication", nous pouvons accéder à d'autres options. L'option "Activer l'optimisation en arrière-plan" est cochée par défaut : par la suite, si vous constatez que la déduplication consomme trop de ressources (CPU) sur le système, vous pouvez essayer de désactiver cette option.

Il y a également la possibilité de planifier l'optimisation du stockage, selon certains jours de la semaine, en configurant les options "Activer l'optimisation du débit" et "Créer une deuxième planification d'optimisation du débit". Ce n'est pas nécessaire si l'optimisation en arrière-plan est activée.

Configurer la déduplication de données - Windows Server - Etape 2

Validez par deux fois afin de confirmer la configuration et l'activation de la déduplication sur ce volume. Le statut de la déduplication s'affiche dans le Gestionnaire de serveur via les colonnes "Taux de déduplication" et "Gain de déduplication".

Au-delà du processus d'optimisation, le service de déduplication est lié à trois tâches planifiées que l'on peut lister avec la commande PowerShell suivante :

Get-DedupSchedule

Et, que l'on peut également visualiser via le "Planificateur de tâches" de la machine, à l'endroit suivant : Microsoft > Windows > Deduplication.

Déduplication - Tâches planifiées - Windows Server

Maintenant, il ne reste plus qu'à patienter que Windows Server effectue son travail.... Mais, si vous souhaitez déclencher l'optimisation dès maintenant, ce qui peut être intéressant pour faire de simples tests, vous pouvez exécuter la tâche "BackgroundOptimisation". Tout en sachant que cette tâche s'exécute toutes les heures !

À partir de PowerShell, nous pouvons également lancer la tâche d'optimisation (ou une autre tâche). Voici un exemple pour lancer la tâche sur le volume "P:" :

Start-DedupJob -Type Optimization -Volume P:

Ensuite, vous pouvez suivre l'avancement de la tâche avec cette commande :

Get-DedupJob

Suite à l'exécution de cette tâche, notre espace de stockage est optimisé ! Nous pouvons voir que le taux de déduplication est passé de 0% à 71% !

Avec la commande PowerShell ci-dessous, nous pouvons obtenir des informations sur les résultats de l'optimisation (comme ci-dessous) :

Get-DedupStatus

Get-DedupStatus - Déduplication PowerShell

Dans les propriétés du dossier, qui contient plusieurs fois le même package MSI, il y a également du changement puisque la taille sur le disque est passée à "0 octet". Ce résultat est tout de même un peu étonnant, car le serveur doit tout de même stocker une copie de mon fichier !

V. Conclusion

Grâce à ce tutoriel, vous êtes en mesure d'installer et de configurer la déduplication de données sur un serveur Windows Server ! En complément de cet article, vous pouvez prendre connaissance de la documentation officielle à ce sujet :

Microsoft Learn - Déduplication de données

Florian BURNEL Co-founder of IT-Connect

Ingénieur système et réseau, cofondateur d'IT-Connect et Microsoft MVP "Cloud and Datacenter Management". Je souhaite partager mon expérience et mes découvertes au travers de mes articles. Généraliste avec une attirance particulière pour les solutions Microsoft et le scripting. Bonne lecture.

Voir la bio complète

6 commentaires sur “Installer et configurer la déduplication sous Windows Server 2022”

Faco

10/03/2023 à 10:55

Bonjour,

Très intéressant, j’ai quand même pleins d’interrogations qui me viennent.
1. La gestion des quotas FSRM est elle impacté ? (je ne pense pas)
2. Commence se passe la récupération de fichiers dans un disque « dédupliqué » qui a été sauvegardé par un logiciel par exemple VEEAM ?
3. VM HyperV, Windows2019, disque C D, configuration de déduplication sur le D. Je veux migrer vers Win2022 en détachant le disque D et le rattacher à mon nouveau serveur, possible ? Ou mon système plante, comment récupérer les données ?
En gros, où est stocké « l’index » de déduplication ? la réinstallation du rôle sur un autre système permet de récupérer le bon fonctionnement et l’accès aux données ?

Merci beaucoup pour tes tutos.
Répondre
- R
  
  21/03/2023 à 12:46
  
  Bonjour Faco,
  
  Concernent les points 2 et 3, il faut que le serveur Veeam ou encore le nouveau serveur Win2022 aient la déduplication activée également. Veeam demande à ce que le serveur de sauvegarde soit au moins dans la même version de Windows que le serveur avec dédublication sauvegardé, ceci dit dans mon cas avec un celà fonctionne avec le serveur Veeam en édition 2019 et le serveur dédupliqué en 2022.
  
  Cordialement
  Répondre
Matthieu Pain

11/03/2023 à 23:59

Bonjour,
Encore un article très bien rédigé.
Qu’en ai t’il de la sauvegarde ? Normalement on perd l’avantage de la dedup?
A+
Répondre
Voisneau Richard

12/03/2023 à 08:56

Merci pour cet article intéressant,
Petite question cependant, si c’est aussi efficace , pourquoi cette fonctionnalité n’est Elle pas activée par défaut ?
Répondre
Gilles Delcourt

14/09/2023 à 16:10

Au risque de répéter, merci pour cet article très instructif.
Pour information, nous avons testé la déduplication Windows sur un serveur de fichiers. Elle crée de minuscules fichiers (chunks) qui sont des « briques élémentaires » qu’elle va ensuite combiner pour reconstituer virtuellement les fichiers lorsqu’on y accède.
Le nombre de ces chunks dépassait de très loin le nombre de fichiers (2 fois et demi le nombre de départ). Cela ralentissait la solution de backup en place (Avamar) ne parvenait plus à réaliser la sauvegarde dans la plage autorisée de 9 heures (la durée de sauvegarde était augmentée de presque 50% suite à la déduplication). Nous avons donc dû désactiver la déduplication.
Répondre
fred pac

10/03/2024 à 14:48

Bonjkour, merci pour cet article. est-il préferable d’activer la deduplication de données au niveau de l’hyperviseur ou de la VM machine virtuelle ?
ChatGPT répond ceci : Lorsqu’il s’agit d’activer la déduplication de données pour les machines virtuelles (VM) dans un environnement virtualisé, il est généralement préférable de le faire au niveau de l’hyperviseur plutôt qu’au niveau de la VM elle-même. Voici quelques raisons à cela :

Optimisation des ressources : En activant la déduplication au niveau de l’hyperviseur, vous pouvez dédupliquer les données partagées entre plusieurs VM. Cela permet d’optimiser l’utilisation des ressources et de réduire la consommation d’espace de stockage global.

Simplicité de gestion : Activer la déduplication au niveau de l’hyperviseur simplifie la gestion, car vous n’avez pas besoin de configurer et de gérer la déduplication individuellement pour chaque VM. Une fois activée au niveau de l’hyperviseur, elle s’applique à toutes les VM hébergées sur celui-ci.

Conservation des performances : La déduplication au niveau de l’hyperviseur peut être plus efficace en termes de performances, car elle peut être optimisée pour gérer les opérations de déduplication de manière transparente pour les VM sans affecter directement leurs ressources de calcul.

Évolutivité : La déduplication au niveau de l’hyperviseur est plus évolutive, car elle peut gérer de manière centralisée un grand nombre de VM sur plusieurs hôtes, offrant ainsi une solution de déduplication plus flexible et évolutive.
Répondre