Gérer efficacement les coûts de votre plateforme ETL est crucial pour obtenir le meilleur retour sur investissement de vos pipelines de données. À mesure que les volumes de données augmentent, les dépenses liées à la synchronisation, la transformation et le stockage des données augmentent également. Dans cet article, nous plongerons en profondeur dans plusieurs stratégies d'optimisation des coûts, avec un exemple concret qui a permis de réaliser 95 % d'économies sur la facture de la plateforme ETL de l'un de nos clients.
Comprendre le modèle de facturation de votre plateforme ETL
Avant de plonger dans des stratégies spécifiques de réduction des coûts, la première étape, et la plus cruciale, est de comprendre comment votre plateforme ETL vous facture. Différentes plateformes ont des modèles de facturation différents, et même au sein d'une même plateforme, les prix peuvent varier en fonction des fonctionnalités ou des plans que vous avez choisis. Comprendre cela est fondamental pour toute stratégie d'optimisation des coûts.
Types de modèles de facturation :
- Par ligne : Certaines plateformes vous facturent en fonction du nombre de lignes nouvelles ou mises à jour qui sont synchronisées.
- Total des lignes : D'autres plateformes peuvent facturer en fonction du nombre total de lignes stockées ou traitées, qu'elles soient nouvelles ou mises à jour.
- Montant fixe : Certaines plateformes offrent une tarification échelonnée, où vous payez un montant fixe basé sur la plage de lignes traitées ou le stockage de données utilisé.
- Fonctionnalités supplémentaires : Les modules complémentaires tels que les transformations avancées, la synchronisation en temps réel ou les connecteurs premium peuvent également affecter le coût global.
- Appels API : Si vos tâches ETL nécessitent des appels d'API externes, ceux-ci pourraient également contribuer au coût total.
Exemple : Supposons que votre organisation soit facturée par ligne pour les données nouvelles ou mises à jour. Dans un tel cas, des mises à jour fréquentes de grandes tables avec des changements minimes peuvent entraîner des coûts substantiels. Sachant cela, vous vous concentreriez sur des stratégies telles que les mises à jour incrémentielles et la synchronisation sélective pour minimiser les lignes affectées.
Comment faire :
Lisez la documentation de votre plateforme ETL ou consultez leurs équipes de vente/support pour avoir une idée claire du modèle. Créez une feuille de calcul ou utilisez un outil pour modéliser vos coûts mensuels typiques en fonction de votre configuration actuelle. Recoupez ces informations avec vos factures réelles pour vous assurer de bien comprendre ce qui vous est facturé.
En ayant une compréhension claire du modèle de facturation, vous pouvez adapter vos stratégies de réduction des coûts aux domaines spécifiques où vous pouvez avoir l'impact le plus important.
Maintenant que vous avez une solide compréhension du modèle de facturation, vous êtes bien équipé pour plonger dans les différentes stratégies de réduction de vos coûts Fivetran. Gardez votre modèle de facturation à l'esprit pendant que vous lisez les astuces suivantes, car certaines stratégies auront plus d'impact selon la façon dont vous êtes facturé.
Passons donc aux étapes concrètes que vous pouvez suivre pour optimiser les dépenses de votre plateforme ETL.
Synchronisation sélective
Plutôt que de synchroniser toutes les tables et colonnes, spécifiez celles qui sont cruciales pour vos analyses. Cela réduit le volume de données transféré.
Prenons comme exemple le connecteur Google Ads du compte Fivetran d'un de nos clients.

Comme vous pouvez le voir, les 4 premières tables représentaient 88 % de toutes les lignes facturables synchronisées dans leur entrepôt de données. Puisqu'ils n'avaient pas besoin de ces tables, nous les avons désélectionnées en allant dans le schéma du connecteur.

Vous pouvez même aller plus loin et ne synchroniser que les champs dont vous avez besoin. Par exemple, disons que vous n'avez pas besoin de la métrique "active_view" de la table ad_group_stats du connecteur Google Ads. Développez simplement le schéma de la table et désélectionnez les champs dont vous n'avez pas besoin.

Ce niveau de granularité permet de réduire de manière significative le transfert de lignes inutiles.
Mises à jour incrémentielles
Assurez-vous que seules les données nouvelles ou modifiées sont transférées, pour éviter de resynchroniser l'ensemble du jeu de données à chaque fois.
Fréquence de synchronisation
Choisissez une fréquence de synchronisation appropriée qui correspond à vos besoins commerciaux réels. Notre client avait réglé sa fréquence de synchronisation par défaut, soit toutes les 6 heures. Puisque nos transformations de données sont définies pour s'exécuter une fois par jour pour ce client, nous avons changé la fréquence de synchronisation à toutes les 24 heures. En substance, nous avons réduit leurs coûts de 75 %.
Voici comment faire cela dans Fivetran :
Cliquez sur le connecteur, puis allez dans l'onglet Setup. Ensuite, définissez la "Sync Frequency" à la fréquence désirée.

Définir un budget et des alertes
La mise en place de budgets et d'alertes est un aspect essentiel de la gestion efficace des coûts de votre plateforme ETL. En gardant un œil attentif sur vos dépenses, vous pouvez faire des ajustements opportuns à votre utilisation et éviter toute mauvaise surprise à la fin du cycle de facturation.

Surveillez les modifications de schéma
Des changements au niveau de la source se produisent constamment. Peut-être que quelqu'un a ajouté un nouvel objet dans Salesforce, et maintenant il y a une tonne de nouvelles données circulant dans votre plateforme ETL.
Pour vous assurer d'avoir une visibilité complète, configurez des alertes pour les nouvelles données afin de pouvoir surveiller l'impact de votre utilisation et évaluer si ces champs sont nécessaires. Tous les systèmes ETL n'ont pas d'alerte pour cela. Si vous utilisez Fivetran, vous pouvez facilement configurer des notifications dans l'onglet Schema pour chaque connecteur.

Utilisez plusieurs plateformes ETL
Lorsqu'il s'agit de processus ETL, il n'y a pas de taille unique. Différentes plateformes offrent diverses fonctionnalités, capacités et modèles de tarification. Alors que vous visez à réduire les coûts de votre plateforme ETL, ne négligez pas la possibilité d'utiliser plusieurs plateformes pour répondre le plus efficacement possible à des besoins spécifiques.
Disons que la plupart de vos sources de données ne génèrent pas beaucoup de lignes nouvelles ou mises à jour par mois. Fivetran est alors une excellente solution car ils ont une tarification basée sur l'utilisation. Cependent, vous avez cette source de données qui génère une tonne de nouvelles lignes par mois et vous coûterait cher via Fivetran. Vous pourriez alors envisager quelque chose comme Datadoo qui a un modèle de tarification fixe.
Une autre raison pourrait être que votre plateforme ETL préférée n'offre pas le connecteur/tables/champs vers la source requise. Dans ce cas, n'hésitez pas à utiliser une autre plateforme ETL pour cette source spécifique.
Tirez parti des paquets (packages) dbt
C'est un point majeur. Fivetran est à mon avis la meilleure plateforme ETL du marché. Leur système basé sur l'utilisation est fantastique, l'interface utilisateur est facile, les documentations sont parfaites. Ceci dit, leur plus large avantage réside dans leurs packages dbt.
Les packages dbt sont des transformations de données pré-construites. Vous voyez, lorsque vous synchronisez des données à l'aide d'un outil ETL, celles-ci ne sont pas nécessairement prêtes à être utilisées pour l'analyse. Vous aurez probablement besoin d'un ingénieur de données pour écrire du SQL afin de transformer vos données et mettre en œuvre des tests de données de base avant que cela ne soit prêt. Avec les packages dbt de Fivetran, tout cela est pris en charge automatiquement. Le gros du travail est fait pour vous. Cela vous fera gagner du temps et de l'argent, et la meilleure partie est que ces packages sont également maintenus par Fivetran.
Conclusion
J'espère que vous avez trouvé cet article pertinent et que c'est une ressource précieuse pour gérer efficacement les coûts de votre plateforme ETL.
Si vous avez des questions ou avez besoin d'aide supplémentaire, n'hésitez pas à nous joindre. Votre gestion efficace des données est notre priorité absolue, et nous sommes là pour vous aider à chaque étape du processus.