Parcours

Big Data

Le Big Data est avec l'IA et la Blockchain, l'un des trois thèmes majeurs du TI moderne.
Le parcours que nous lui consacrons couvre tous ses aspects : motivations, contraintes, bases de données, gestion de fichiers, infrastructures distribuées, streaming temps réel, etc. Tout ce que doit connaître un chef de projet appelé à le mettre en oeuvre.
Loin de la pensée unique, qui voudrait que tout soit résolu avant même de commencer, nous appelons les usagers à beaucoup de prudence, patience et pragmatisme. Le Big Data est tout sauf un "long fleuve tranquille".
Claude Marson
Formateur
Claude Marson
Claude Marson a fondé CMC , société d’assistance technique spécialisée dans les architectures informatiques modernes et MECI à Montréal, dédiée au consulting auprès des grands comptes. C’est dans ce cadre qu’est lancé LeMarson, réseau francophone dédié aux tendances technologiques informatiques. Associé et cofondateur de Synthèse Informatique, cabinet français spécialisé dans les tendances et stratégies en matière de technologies de l’information.

Directeur informatique, puis responsable du groupe d’experts informatiques du groupe pétrolier Elf Aquitaine, il a assumé différentes responsabilités. Il a créé et dirigé Production Communication Numérique (PCN), compagnie spécialisée dans la conception, la réalisation et l’hébergement de portails Internet transactionnels à forte valeur ajoutée, banques virtuelles, sites d’enchères financières et de gestion de patrimoines, places de marché et sites de commerce électronique. Egalement collaborateur permanent et membre du comité de rédaction de plusieurs magazines techniques spécialisés, il a écrit plus de 3 000 articles, quatre ouvrages consacrés aux réseaux et désormais chaque année, le livre LeMarson qui fait le point des tendances technologiques.
20 Capsules - Durée totale 06:02:24

Bienvenue sur le parcours Big Data

Le Big Data est au centre des préoccupations de tous les responsables de TI. L’objectif de ce parcours est de montrer que contrairement aux idées reçues, les obstacles techniques à franchir sont encore loin d’être tous franchis et que de nombreuses incertitudes subsistent quant aux projets qui s’en réclament. Vingt capsules vidéos qui couvrent tout le spectre du Big Data et auxquelles nous vous convions maintenant.

  • Durée 11:25

Introduction au Big Data

Deux grandes questions se posent avant d’entamer notre introspection. Pourquoi le Big Data est-il nécessaire et incontournable, essentiellement résoudre des problèmes techniques et s’affranchir des limites qu’atteignent nos systèmes de BI et à quoi sert-il ? Qu’est ce qui justifie concrètement que les directions de TI fassent autant d’efforts pour le maîtriser, malgré toutes les incertitudes du domaine.

  • Durée 18:28

Convergence et introduction

Nous évoquons ici l’architecture globale d’un système orienté Big Data. Avec ses trois grandes phases : l’importation des données et leur stockage intermédiaire dans un datalake, le traitement des données brutes en batch ou en streaming et le « data lab », qui regroupe l’ensemble des traitements aval de ces données, à des fins d’analyse et de BI essentiellement.

  • Durée 11:21

Le projet Big Data

Où il est question d’abord de l’organisation d’une équipe Big Data et du rôle moteur que doit jouer son responsable, issu des « rangs » des utilisateurs. Puis du projet Big Data lui-même, avec ses quatre phases et quelques recommandations, parmi lesquelles le soin qu’il convient d’apporter au traitement de la qualité des données, sans laquelle le projet lui-même, n’aurait plus de sens.

  • Durée 26:49

Les sources de données

La diversité et le volume des données constituent deux des plus grands écueils du Big Data. Pour mieux les aborder, nous proposons ici un référentiel de crédibilité des données à 7 niveaux et surtout une hiérarchie claire des problématiques à traiter, depuis le stockage physique et la gestion de fichiers, jusqu’aux couches applicatives, de sécurité et de requêtage. Tout cela pour aboutir à un « silo » de données, valide, à jour, représentatif et susceptible de servir de base à des traitements analytiques, en qui nous pourrions alors avoir confiance.

  • Durée 24:48

Les données externes

Le Big Data ne concerne pas seulement les données internes de l’entreprise. Il faut aussi, la plupart du temps, « aller chercher » des données ailleurs, dans les réseaux sociaux surtout, voire les acquérir chez des brokers. Nous insistons particulièrement sur les cas de Facebook et de Twitter, qui nous suggèrent des API de récupération de leurs données, avec un certain nombre de contraintes, mais aussi sur quelques grands noms du « brokerage », parmi de nombreux autres, qui devraient vous satisfaire, quelles que soient les objectifs de votre Big Data.

  • Durée 19:03

Le Text Mining

Le Big Data induit d’incorporer de nombreux textes dans le « corpus » d’introspection Big Data. Il y aura deux manières de le faire : via des API dédiées (qui ne manquent pas) et avec des outils de Web Scraping, dont l’objet sera de récupérer tout ce qui sera pertinent pour l’entreprise. Avec au bout du compte des volumes de données textuelles gigantesques, en phase avec l’idée de Big Data. C’est là qu’intervient la technique du « text mining », capable de faire ressortir des « corrélations non évidentes » entre ces textes, qu’il serait impossible de détecter manuellement. Du grand art.

  • Durée 14:40

Conformité règlementaire

Depuis le 25 mai 2018, la communauté européenne impose à toutes les compagnies qui veulent commercer et communiquer avec les 500 millions de clients potentiels qu’elle comporte, de satisfaire aux contraintes du RGPD (Règlement Général de Protection des Données). L’important ici n’est pas tant de comprendre le détail des « recommandations » RGPD, que de s’habituer à un contexte qui sera de plus en plus présent et dont le Big Data ne pourra pas s’abstraire. Inutile de monter des « usines à gaz », techniquement complexes et coûteuses, s’il faut les détruire sous prétexte de non-respect de ces règles fondamentales.

  • Durée 08:36

Commencer par le stockage physique

Nous traitons ici deux aspects très importants du Big Data : la constitution d’un datalake et le stockage en clusters distribués, par réplication ou « erase coding ». Nous aurons quelques difficultés à cacher notre scepticisme quant au datalake, qui nous semble n’être qu’une réminiscence d’un concept, EII, qui n’a pas fonctionné, mais ce ne sera pas le cas des clusters, qui au contraire, vont rythmer à la fois le stockage et le traitement de nos données.

  • Durée 16:56

Les bases de données relationnelles

Le Big Data n’est pas uniquement une affaire de données non structurées. Il concerne tout aussi bien les données structurées des bases relationnelles, mais avec le « handicap » des volumes et de la complexité, les deux grands « ennemis » de la technologie. Pour palier aux faiblesses structurelles du modèle, peu à l’aise avec des volumes élevés, il nous faut connaître les armes mises à notre disposition, essentiellement le sharding et le « scale out ».

  • Durée 18:54

Big Data et les bases de données NoSQL

Les bases de données NoSQL, non accessibles avec le langage de requête SQL, constituent un élément majeur de l’architecture Big Data. Des bases de données clés-valeurs, colonnes, graphes ou documents, très « à l’aise » avec des volumes importants et surtout des données semi ou non structurées. Les différents concepts NoSQL sont présentés ici, avec leur finalité, avantages et inconvénients, sans oublier les bases temporelles, indispensables désormais pour traiter les données issues des capteurs.

  • Durée 35:09

Le DataViz

Ce n’est pas tout d’importer des volumes considérables de données dans le Big Data, puis de leur appliquer des traitements spécifiques, encore faut-il que les résultats soient « présentables », même si les données sont nombreuses. C’est tout l’art du « dataviz », des techniques de présentation visuelle, qui parlent à notre cerveau et plus précisément au cortex cérébral, qui perçoit les couleurs et les images. L’objectif du dataviz est de concevoir des représentations qui « parlent » au premier contact, à celui dont c’est le métier. Mélange d’art, de savoir-faire graphique et de métier, c’est l’un des points forts du Big Data.

  • Durée 08:16

Stockage et traitement distribués

Nous sommes ici au cœur des technologies Big Data. Le système Hadoop comporte les ingrédients nécessaires pour gérer les fichiers distribués (zoom sur HDFS), mais aussi pour les traiter avec la technologie Map Reduce. Il faut voir dans cette architecture, plus une solution générique qu’un produit. Ce sont les concepts qui nous intéressent, très différents de ceux auxquels nous étions habitués. Sachant que le marché est actuellement en train de se diversifier et qu’une offre pléthorique se met en place. Une belle occasion pour présenter quelques solutions de traitements, applicables aux architectures distribuées avec Spark, Hive, Pig, etc.

  • Durée 38:23

Les langages du Big Data

Au-delà des grands classiques que sont Java et les langages .NET, nous préconisons de nous intéresser à quatre langages, dont les spécificités seront les bienvenues dans le contexte Big Data : Python, Julia, R et Clojure. Nous avons tout intérêt à les maîtriser, car ils sont faits pour lui : les structures de haut niveau de Python et Julia, les traitements mathématiques de R et le traitement des listes de Clojure, bien adapté aux structures de données telles que JSON. Sans remettre en cause nos habitudes de codage, l’apport d’un ou plusieurs de ces langages, nous sera d’une grande utilité.

  • Durée 22:14

Le transactionnel Big Data

Le Big Data n’a pas, a priori, pour vocation d’être la cible du traitement transactionnel, au sens où on l’entend avec ACID et SQL. Ce qui n’empêche pas les chefs de projets de « tout faire » pour continuer à s’exprimer en SQL, même si leurs transactions ne portent pas sur des données relationnelles et s’il leur est difficile de garantir les règles ACID : Atomicité, Consistance, Isolation, durabilité.

Les outils foisonnent sur le marché, qui maintiennent cette illusion, sortes de « transpilers » qui traduisent du code SQL en d’autres « codes sources », Pig, Hive, Map Reduce… Ce n’est peut-être pas la meilleure façon de procéder…

  • Durée 09:13

Brokerage et Streaming

En plus du batch, voire du micro-batch traditionnels, l’objectif du Big Data est de plus en plus de traiter les données au fur et à mesure de leur création, avec ou sans filtrage intermédiaire. C’est l’objet du streaming et des outils tes que Kafka et Flink, voire de Spark, capables de prendre en compte ces données et de fournir des résultats en temps réel. Même si les applications ne dépassent pas les 10 à 15 % des besoins, c’est sans doute là que se fera la différence entre les entreprises qui auront besoin de réactivité. Il est souhaitable de comprendre ce que cachent ces outils, de constater qu’il y a déjà des API qui traitent les aspects techniques du streaming, car il est certain, qu’un jour ou l’autre, vous aurez à les mettre en œuvre.

  • Durée 22:45

Les fondements du Big Data analytique

Sont regroupées ici les solutions qui permettent de tirer le meilleur parti analytique des données Big Data importées, filtrées et pré-traitées. C’est toute la partie aval de la technologie, celle qui aboutit chez les utilisateurs et leur permet de prendre des décisions pertinentes. De nombreux produits existent qui répondent aux grandes problématiques de description, diagnostic, prédiction et prescription, comme pour le BI, mais portant cette fois sur des données volumineuses et variées. En plus d’une cinématique de mise en œuvre de ces outils, nous vous suggérons quelques noms parmi les plus populaires, aussi bien propriétaires qu’Open Source. A vous de faire un choix.

  • Durée 17:10

Big Data, IA et Blockchain

Autant il paraît crédible d’introduire des mécanismes d’Intelligence Artificielle dans les processus de traitements, ce qui se fera dans les années à venir, autant vouloir à tout prix associer Big Data et Blockchain, nous semble inutile, voire contradictoire. Nous ne suivons donc pas ici les chemins tracés par quelques consultants et fournisseurs, qui sans doute n’ont pas tout à fait perçus ce qu’il faut percevoir dans la technologie Blockchain.

  • Durée 13:18

Big Data et Architectures Massivement Parallèles

L’idée la plus répandue, est qu’il n’y a pas de salut en dehors des architectures distribuées de type HDFS. C’est tout à fait faux et les systèmes massivement parallèles, dédiés à SQL, ce qui est leur principale différence, constituent toujours une option très prisée, souvent pour des configurations centralisées, fondées sur des SGBD performants, tels que ceux d’Oracle. Même si l’on constate une convergence des architectures MPP vers le mode distribué HDFS, les systèmes Teradata, Netezza, Greenplum EMC ou MPP d’HP, sont toujours parfaitement crédibles, HDFS et le mode distribué ne venant pas les remplacer mais se situant en complément.

  • Durée 17:53

Avant de se quitter

Pour clore ce parcours, nous vous proposons quelques recommandations, techniques, stratégiques ou simplement de bon sens, qui vous aideront à aborder le sujet avec les meilleures chances de réussite. La plus importante est sans doute de ne pas trop vous presser et de ne pas faire une confiance aveugle aux discours résolument optimistes des prestataires… pour qui les problèmes sont toujours résolus, avant d’être abordés. Prudence donc et bon courage.

  • Durée 07:03
Du même formateur
DQM/MDM, les données métiers

DQM/MDM, les données métiers

Dans l'optique du recentrage de l'entreprise autour de ses données, les aspects qualité et traitement des données de référence, deviennent essentiels. Les 22 ca...

22 Capsules

Durée totale 07:23:45

Progression 0%

Formateur Claude Marson
AHA

AHA

La gestion des identités et l’AHA (Autorisations, Habilitations Accès) sont au cœur des problématiques de sécurité des entreprises. En suivant ce parcours, vous...

23 Capsules

Durée totale 07:37:24

Progression 0%

Formateur Claude Marson
Développement d'applications

Développement d'applications

Ce parcours s’adresse à tous les professionnels qui veulent synthétiser l’activité de leur métier, faire le point sur toutes les techniques et bonnes pratiques,...

46 Capsules

Durée totale 10:29:13

Progression 0%

Formateur Claude Marson
La gestion de projet agile

La gestion de projet agile

La gestion de projet, comme l’entreprise, se veut désormais agile. L’ouverture à cette forme de management se heurte cependant aux pesanteurs, habitudes et réti...

28 Capsules

Durée totale 06:40:41

Progression 0%

Formateur Claude Marson
NoSQL

NoSQL

L’écosystème NoSQL regroupe toutes les technologies qui s’appliquent aux nouvelles structures logiques de bases de données, qui ne sont plus accessibles avec le...

12 Capsules

Durée totale 04:04:34

Progression 0%

Formateur Claude Marson
Abonnez-vous
  • Suivez LeMarson en direct
  • Accédez à des centaines de dossiers et d'articles
  • Visionnez des dizaines d'heures de formations vidéos
  • Téléchargez le Livre des tendances de l'année
Annuel

648,00 €