Pourquoi ne pouvons-nous pas simplement connecter les données brutes à des tableaux de bord et commencer à analyser ? Après tout, c'est beaucoup plus facile, et vous ne pouvez pas avoir de données plus précises que les données sources, n'est-ce pas ?
Pour répondre à cette question, nous devons comprendre comment les données brutes sont structurées et comment les questions commerciales le sont généralement. Plongeons et voyons pourquoi la transformation des données est plus qu'un obstacle inutile : c'est votre clé pour des décisions commerciales plus intelligentes et plus perspicaces.
Raison #1 - Combiner de multiples sources de données
La raison principale de la transformation des données est très simple. Les questions métier nécessitent généralement de combiner plusieurs sources de données pour trouver réponse. Par sources de données, nous entendons soit différentes tables de la même source (comme dans l'exemple ci-dessous), soit des sources complètement différentes (combinant des données Meta Ads avec Google Ads, par exemple). Considérons l'exemple suivant pour mieux comprendre cela.
Imaginez que vous exploitez une entreprise de e-commerce utilisant Shopify. Une question commerciale typique serait quelque chose comme cela :
Quel a été notre chiffre d'affaires par produit, par province/État, en novembre 2023 ?
Dans un monde de l'intelligence d'affaires (BI) parfait, nos données Shopify seraient structurées comme ceci :
Les données seraient agrégées, nous aurions des colonnes de date, de revenus et d'état (geo), et la vie serait belle. Malheureusement, les données des logiciels sont organisées très différemment de ce dont nous avons besoin pour la BI.
Voici à quoi ressemblent les données Shopify :
Comme vous pouvez le voir, les données sont fragmentées en plusieurs entités. Nous appelons ce diagramme un diagramme entité-relation (ERD). C'est la norme pour les systèmes de traitement transactionnel en ligne (OLTP). Le but de l'OLTP est de réduire la redondance et d'améliorer les performances. Cependant, notre but est d'avoir des données optimisées pour répondre à des questions commerciales.
Alors, comment passons-nous de la figure B à la figure A ? Les données doivent être transformées. Nous ne couvrirons pas les meilleures façons de transformer les données car cela dépasse largement le cadre de cet article. Le but était simplement de montrer à quel point les données des logiciels sont radicalement différentes des données dont nous avons besoin pour l'intelligence d'affaires.
Gardez à l'esprit qu'il s'agit d'un exemple trop simplifié. Une fois que nous commençons à ajouter différentes sources de données, une logique d'entreprise ou des jointures complexes, il devient encore plus évident que les données brutes ne devraient pas être utilisées pour l'intelligence d'affaires.
Raison #2 - Enrichissement des données
L'enrichissement des données est une raison essentielle de la transformation, car elle améliore considérablement la valeur et l'utilité de l'ensemble de données d'origine, permettant des analyses plus approfondies et une prise de décision plus éclairée.
En augmentant les données existantes avec un contexte, des détails ou des métriques dérivées supplémentaires, l'enrichissement des données aide les entreprises et les organisations à mieux comprendre leurs opérations, leurs clients et leurs marchés.
Voici deux exemples d'enrichissement de données :
- Segmentation de la clientèle dans la vente au détail : Une entreprise de vente au détail dispose de données client de base (ex. : âge, sexe, historique d'achats). L'entreprise peut créer des segments détaillés en enrichissant ces données avec des informations supplémentaires telles que les niveaux de revenus, l'emplacement géographique et le comportement de navigation en ligne. Ces segments permettent des campagnes marketing ciblées, des recommandations personnalisées et finalement un service amélioré.
- Champs calculés : La création de nouvelles métriques ou dimensions est également considérée comme un enrichissement de données. Votre plateforme d'analyse Web peut seulement vous dire combien d'utilisateurs ont visité votre site et combien d'achats ont été effectués, mais c'est à vous de calculer le taux de conversion.
En intégrant des informations supplémentaires, en affinant les données existantes et en générant de nouvelles idées, vous serez en mesure de débloquer une intelligence plus approfondie et plus exploitable de vos ensembles de données.
Raison #3 - Améliorer la qualité des données
Les données brutes contiennent souvent des erreurs, des valeurs manquantes, des doublons et des incohérences qui doivent être corrigés. La transformation des données aide à les nettoyer en corrigeant ou en supprimant ces problèmes, améliorant ainsi leur exactitude et leur fiabilité pour l'analyse.
Des données de haute qualité sont le fondement d'une approche commerciale axée sur les données, et les processus de transformation des données sont essentiels pour consolider cette fondation.
Raison #4 - Performance et rentabilité
La transformation des données pour améliorer les performances des requêtes et la rentabilité implique la restructuration ou le traitement des données pour les rendre plus accessibles et plus rapides à interroger tout en gérant plus efficacement les ressources utilisées. Cela peut inclure plusieurs actions spécifiques, telles que :
- Dénormalisation : La combinaison de données de plusieurs tables en une seule réduit la complexité des requêtes et le besoin de jointures, ce qui peut améliorer les performances des requêtes au prix d'un espace de stockage accru.
- Agrégation des données : La pré-synthèse ou l'agrégation des données à un niveau plus grossier peut considérablement accélérer les requêtes qui ne nécessitent pas de détails fins, réduisant ainsi la charge de calcul.
- Indexation : La création d'index sur les colonnes fréquemment utilisées permet au moteur de base de données de trouver les données plus rapidement.
- Partitionnement : Diviser de grandes tables en parties plus petites et plus gérables sur la base de certaines clés rendra les requêtes ciblant des segments spécifiques beaucoup plus efficaces.
En intégrant ces stratégies de transformation, les données s'alignent davantage sur les exigences des processus d'interrogation et d'analyse, ce qui entraîne des temps de requête plus rapides et des coûts potentiellement inférieurs. Cette considération est particulièrement pertinente dans les environnements cloud et les grands pipelines de données modernes.
Raison #5 - Garantir la confidentialité et la conformité réglementaire
Les données contiennent souvent des informations sensibles qui, si elles étaient exposées, pourraient entraîner des violations de la vie privée, des conséquences juridiques et une perte de confiance. La transformation des données pour protéger la confidentialité implique des techniques telles que l'anonymisation, la pseudonymisation et le chiffrement.
De nombreuses industries sont soumises à des réglementations (comme la Loi 25 au Québec ou le RGPD en Europe) exigeant la protection des données personnelles. La transformation des données pour se conformer à ces réglementations n'est pas seulement une bonne pratique, c'est une exigence légale.
Raison #6 - Suivi des changements dans le temps
Généralement, vous n'obtenez que la dernière valeur lorsque vous obtenez des données de systèmes opérationnels. Que faire si vous devez suivre les changements dans le temps ?
Par exemple, disons que vous dirigez une société d'investissement. Le logiciel que vous utilisez a la table client suivante (Salaire, investissement total, et statut sont les seuls enregistrements les plus récents).
Que se passe-t-il si vous souhaitez connaître le salaire moyen de vos clients lorsqu'ils ont fait leur premier investissement ? Vous ne le pourriez pas.
Un autre exemple serait une entreprise e-commerce qui souhaite suivre ses marges brutes au fil du temps. Pour ce faire, ils utilisent la formule suivante :
(Coût du produit + Frais de port) / Revenus * 100
S'ils n'ont accès qu'à la valeur la plus récente du coût du produit (SKU) pour calculer la marge brute, le changement pur altérerait aussi les données historiques, compromettant gravement la qualité.
En stockant des instantanés (snapshots) lorsque des modifications surviennent, vous débloquez de nouvelles capacités d'analyse.
Raison #7 - Optimisation pour des outils spécifiques
Différents outils nécessitent souvent des données dans des formats, des structures ou des niveaux de granularité spécifiques pour fonctionner de manière optimale. En transformant les données, les organisations peuvent assurer une intégration sans tracas et maximiser leurs outils analytiques.
Voici quelques exemples où cela s'applique :
- Outils de visualisation : Tableau, Power BI, ou Looker Studio nécessitent que les données soient dans un format structuré qui prend en charge la création de visualisations.
- Machine learning (ML) : L'apprentissage automatique nécessitent des données prétraitées dans un format approprié à la modélisation (normalisation des échelles, encodage des variables catégorielles).
- Analyse de séries chronologiques : Des horodatages normalisés sont indispensables.
- Bases de données : Redshift ou Google BigQuery peuvent interagir bien mieux si une transformation initiale de clé ou index prend place en s'alignant avec la base au schéma original.
Conclusion
La transformation des données avant l'analyse n'est pas seulement une étape procédurale mais une nécessité stratégique. Grâce à ces processus, elle permettra à votre organisation d'exploiter le véritable potentiel de ses actifs de données.
Naviguer dans les complexités de la transformation des données peut être intimidant, mais c'est un voyage que vous n'avez pas à entreprendre seul. Chez Systematik, nous sommes spécialisés dans la transformation de ces défis en de purs atouts.
Réservez une consultation gratuite pour découvrir comment nous pouvons vous aider à transformer votre entreprise en transformant vos données.