Stockage de données : savoir construire son datalake

C’est bien connu : les données sont le nouvel or noir de nos économies… encore faut-il savoir éviter l’asphyxie. L’augmentation constante de volumes de données à traiter, associée à des enjeux de sécurité, de confidentialité ou encore d’hétérogénéité des sources et des formats, en complique la gestion et l’exploitation. Le secteur financier, en présence de données sensibles, de risques de fraude ou encore d’analyse des risques, est tout particulièrement sensible à ces enjeux.

Construire un datalake et une plateformes de données constitue bien souvent le premier pas dans un projet d’amélioration du dispositif de données. Comment construire des « lacs de données » efficaces, avec quels outils ? Nous avons identifié 3 étapes indispensables en amont de tout projet de mise en place d’un datalake.

Construire un datalake – 1ère étape : établir un diagnostic adapté

Avant de se lancer dans la création d’un Data Lake, il est nécessaire de faire un diagnostic et de se poser quelques questions autour des données utilisées, de l’utilisation de la donnée et de la maturité de l’entreprise vis-à-vis de l’utilisation de la donnée.

En fonction des services, les réponses seront différentes. Par exemple, au sein d’équipes actuarielles, l’ingestion de nouvelles données pour développer des modèles actuariels est clé, notamment avec l’augmentation croissante des données disponibles (développement de l’open data, essor des data brokers, données de marché …). Pour les équipes de gestion, les modèles de données sont plus stables, la priorité se situant dans la réalisation de reportings et d’informations consolidées en temps réel (par exemple en contrôle de gestion ou en réconciliation technico-comptable).

Voici quelques questions clés qui permettent d’établir le bon diagnostic :

Qui ?
- Qui utilise quelles données ?
- Qui joue quels rôles dans les données de mon entreprise ?

Quoi ?
- Quelles données sont utilisées par les équipes ? A partir de quelle source (interne / externe) ?
- Quelles solutions sont aujourd’hui utilisées dans les traitements et la visualisation des données ?
- Quels irritants (latence, inexactitude, redondance des informations) sont remontés ?

Où ?
- Où sont les données ? Où sont les données critiques ? Comment sont-elles sécurisées ?

Comment ?
- Comment ces données sont-elles utilisées aujourd’hui ? Et quelle utilisation à l’avenir ?

Pourquoi ?
- Quels sont les buts poursuivis de l’organisation actuelle ?

Cette première étape fournit les éléments permettant de construire et définir :

Une cartographie applicative pour identifier les principales parties prenantes,
Une matrice des rôles et responsabilités,
Une liste des irritants rencontrés et des quick wins potentiels.

Elle permet aussi d’évaluer la maturité de l’entreprise en matière de données :

En quoi les solutions d’aujourd’hui permettent de répondre aux objectifs ?
En quoi l’apport de nouvelles solutions peut simplifier et/ou améliorer les process existants ?

Construire un datalake – 2ème étape : bâtir le socle de mise en œuvre

Après cette phase de diagnostic, la phase de mise en œuvre gagnera à s’appuyer sur des champions qui seront moteurs dans la mise en place de nouvelles technologies et doivent donc être identifiés rapidement.

Vient ensuite la définition des objectifs du « lac de données » et les principales fonctions attendues.

Dans notre exemple initial autour des modèles actuariels, le datalake devra permettre l’intégration de données externes, pour construire des modèles pertinents de tarification des polices cat, habitation ou agriculture.

L’établissement de principes directeurs dans l’intégration et le traitement des données vise le partage de pratiques homogènes. Voici les principes que nous recommandons :

Une donnée centrale et accessible à tous,
Une donnée homogène, claire, unifiée et de qualité,
La mise en place de process sécurisés et conformes,
L’implication de tous dans la solution technique déployée,
La mise en place d’une gouvernance claire et définie.

Des actions de formation pertinentes compléteront utilement le dispositif :

Des formations sur les langages Python et SQL pourront rapprocher les utilisateurs des données ;
Des formations sur les outils de Data Visualisation et de reporting comme Power BI, Tableau ou Qlik illustreront l’usage des données du datalake.
Des formations autour de la modélisation de données et de bases de données structurées

Ces formations peuvent être dispensées par des organismes certifiés, des ressources en ligne comme Open Classroom, en interne ou via la mise en place d’un système de référent technique au sein même des équipes internes.

Ces principes et besoins constitueront le socle indispensable pour construire le cahier des charges qui bâtira le datalake.

Construire un datalake – 3ème étape : choisir la technologie

En fonction des besoins énoncés lors de la deuxième étape, la réflexion peut s’engager pour un choix technologique pertinent et cohérent.

Dans le cadre de cet article, nous avons identifié deux solutions de marché innovantes et de plus en plus présentes chez les acteurs de la finance : Databricks et Snowflake. Ces solutions sont-elles adaptées et pérennes pour répondre aux problématiques du secteur de l’assurance et de la banque ? Eléments de réponse :

DataBricks

Plateforme basée sur le cloud et utilisable sur les principaux fournisseurs (AWS, Azure et GCP), permettant de bénéficier de la scalabilité tant en stockage, qu’en performance et en puissance et ainsi utiliser la flexibilité du Cloud
Intégration native de notebook SQL et Python, rapprochant de manière efficace les données de leur utilisation.
Modules de Machine Learning et d’IA intégrés.
Capacité à intégrer de la donnée structurée et non-structurée.
Fonctionnalités avancées en termes de sécurité et de gouvernance.

DataBricks est de plus en plus implémenté au sein des assurances et des banques (par exemple AXA France, Crédit Suisse). Point fort pour tout ce qui nécessite des développements complexes (Ex : Pricing) avec un volume de données à croiser qui est important, et qui nécessitent l’utilisation de modèles

Tout en un : Databricks

Snowflake

Plateforme basée sur le cloud et utilisable sur les principaux fournisseurs (AWS, Azure et GCP), permettant de bénéficier de la scalabilité et de la flexibilité du Cloud.
Support multi-cloud : capacité de la solution à migrer son infrastructure d’un Cloud à un autre.
Fonctionnalités avancées en termes de sécurité et de gouvernance.
Intégration native de SQL.

Snowflake est de plus en plus implémenté au sein des assurances et des banque américaines (Anthem, Capital One and Nationwide).

Particulièrement pertinent pour répondre aux besoins de reporting et de BI
Banque : modèle de données va moins évoluer

Une fois la donnée intégrée dans ces solutions, les cas d’usage possibles sont nombreux : analyse de risques, détection de fraudes, aide à la souscription ou à la gestion des investissements. Le principal point d’attention concerne la sécurité et la bonne compréhension de la facturation associée à la mise en place de ces solutions.

Scalables, sécurisées et de plus en plus éprouvées dans le secteur de l’assurance et de la banque, Databricks et Snowflake présentent donc chacun des atouts significatifs pour répondre aux problématiques de construction de data plateformes durables.

En conclusion

Pour tirer parti de la meilleure des manières possibles de leurs données, les assurances et mutuelles, deviennent de plus en plus matures dans la gestion de la donnée et ont orienté leur organisation et leur culture d’entreprise vers des modèles Data Driven.

Ces changements culturels ont des impacts concrets sur les compétences développées et à développer au sein des équipes, ainsi que dans les choix technologiques.

Pour intégrer de plus en plus de données, ces solutions doivent être scalables, sécurisées et rendre la donnée facilement accessible à tout le monde, via du développement Python, SQL ou des outils de Data Visualisation. Enfin, les éditeurs proposent de plus en plus des solutions LOW CODE ou NO CODE. Dans ce cas, les actions attendues relèvent davantage du paramétrage de fonctionnalités.

Plus d’info sur la datavisualisation dans notre guide : « Pilotage de la performance : sortez du flou »

Une fois mise en place, ces solutions apportent des gains considérables, notamment sur des problématiques comme l’analyse de risque, l’analyse de portefeuille, le suivi de flux, le pricing et les réconciliations compta-gestion ou encore la réalisation de reportings réglementaires.

Stockage de données : les 3 étapes à suivre avant de construire son datalake

Construire un datalake – 1ère étape : établir un diagnostic adapté

Construire un datalake – 2ème étape : bâtir le socle de mise en œuvre

Construire un datalake – 3ème étape : choisir la technologie

DataBricks

Snowflake

En conclusion

Réaliser la migration d’une solution transitoire sous SAS vers une solution automatisée sous Alteryx

Déployer une architecture d’intégration de données propres et structurées

À lire aussi

Passer au cloud : quel rôle pour les métiers ?

Déshérence des contrats retraite : comment structurer les données ?

Les données disponibles, défi majeur dans la gestion des risques cyber

Découvrez nos dossiers

Construire un datalake – 1ère étape : établir un diagnostic adapté

Construire un datalake – 2ème étape : bâtir le socle de mise en œuvre

Construire un datalake – 3ème étape : choisir la technologie

DataBricks

Snowflake

En conclusion

Réaliser la migration d’une solution transitoire sous SAS vers une solution automatisée sous Alteryx

Déployer une architecture d’intégration de données propres et structurées

À lire aussi

Passer au cloud : quel rôle pour les métiers ?

Déshérence des contrats retraite : comment structurer les données ?

Les données disponibles, défi majeur dans la gestion des risques cyber

Construire un datalake – 1ère étape : établir un diagnostic adapté

Construire un datalake – 2ème étape : bâtir le socle de mise en œuvre

Construire un datalake – 3ème étape : choisir la technologie

Déshérence des contrats retraite : comment structurer les données ?