Systèmes NoSQL: le partitionnement¶

La réplication est essentiellement destinée à pallier les pannes en dupliquant une collection sur plusieurs serveurs et en permettant donc qu’un serveur prenne la relève quand un autre vient à faillir. Le fait de disposer des mêmes données sur plusieurs serveurs par réplication ouvre également la voie à la distribution de la charge (en recherche, en insertion) et donc à la scalabilité. Ce n’est cependant pas une méthode appliquable à grande échelle car, sur ce que nous avons vu jusqu’ici, elle implique la copie de toute la collection sur tous les serveurs.

Le partitionnement, étudié dans ce chapitre, est la technique privilégiée pour obtenir une véritable scalabilité. Commençons par quelques rappels, que vous pouvez passer allègrement si vous êtes familier des notions de base en gestion de données.

S3: partitionnement par hachage¶

Supports complémentaires:

Diapositives: partitionnement par hachage

Vidéo de démonstration du partitionnement par hachage

Le partitionnement par hachage en distribué repose globalement sur la même organisation que pour le partitionnement par intervalle. Un routeur maintient une structure qui guide l’affectation des documents aux serveurs de stockage, chaque serveur étant localement en charge de gérer le fragment qui lui est alloué. Cette structure au niveau du routage est la table de hachage établissant une correspondance entre les valeurs des clés et les adresses des fragments.

La difficulté du hachage est la dynamicité: ajout, suppression de serveur, évolution de la taille de la collection gérée.

Structure et opérations¶

L’idée de base est de disposer d’une table de correspondance (dite table de hachage) entre une suite d’entiers [1, n] et les adresses des n fragments, et de définir une fonction h (dite fonction de chachage) associant toute valeur d’identifiant à un entier compris entre 1 et n. La fonction de hachage est en principe extrêmement rapide; associée à une recherche efficace dans la table de hachage, elle permet de trouver directement le fragment correspondant à une clé.

La structure de routage comprend la table de hachage et la fonction h(). Pour éviter d’entrer dans des détails compliqués, on va supposer pour l’instant que h() est le reste de la division par n, le nombre de fragments (fonction modulo de n) et que chaque identifiant est un entier. Il est assez facile en pratique de se ramener à cette situation, en prenant quelques précautions pour la fonction soit équitablement distribuée sur [0, n-1].

Note

Si on prend la fonction modulo, le domaine d’arrivée est [0, n-1] et pas [1, n], ce qui ne change rien dans le principe.

_images/partition-hachage.png — Fig. 94 Partitionnement par hachage¶

En se basant sur l’illustration de la Fig. 94, on voit que tous les documents dont l’identifiant est de la forme \(n \times k + r\), où k est un entier, seront stockés dans le fragment \(F_r\). Le fragment \(F_1\) par exemple contient les documents d’identifiant 1, n+1, 2n+ 1, etc.

La table de routage contient des entrées \([i, a_i]\), où \(i \in [0,n-1]\), et \(a_i\) est l’adresse du fragment \(F_i\). En ce qui concerne sa taille, le même raisonnement s’applique que dans le cas des intervalles: elle est proportionnelle au nombre de fragments, et tient en mémoire même pour des collections extrêmement grandes.

Les opérations s’implantent de la manière suivante:

get(i): calculer \(r = h(i)\), et accéder au fragment dont l’adresse est \(a_r\), chercher le document en mémoire;

put(i, d): calculer \(r = h(i)\), insérer d dans le fragment dont l’adresse est \(a_r\);

delete(i): comme la recherche, avec effacement du document trouvé;

range(i, j): pas possible avec une structure par hachage, il faut faire un parcours séquentiel complet.

Le hachage ne permet pas les recherches par intervalle, ce qui peut être contrariant. En contepartie, la distribution des documents ne dépend pas de la valeur directe de la clé, mais de la valeur de hachage, ce qui garantit une distribution uniforme sans phénomène de regroupement des documents dont les valeurs de clé sont proches. Un tel phénomène peut être intempestif ou souhaitable selon l’application.

Dynamicité¶

C’est ici que les choses se compliquent. Contrairement aux structures basées sur le tri qui disposent de la méthode de partitionnement pour évoluer gracieusement avec la collection indexée, le hachage (dans la version basique présentée ci-dessus) a un caractère monolithique qui le rend impropre à l’ajout ou à la suppression de fragments.

Tout repose en effet sur l’hypothèse que la fonction h() est immuable. Un simple contre-exemple suffit pour s’en convaincre. Supposons un flux continu d’insertion et de recherche de documents, parmi lesquelles l’insertion, suivi de la recherche de l’identifiant 17. Pour être totalement concret, on va prendre, initialement, un nombre de fragments n=5.

quand on effectue put(17, d), la fonction de hachage affecte d au fragment \(F_2\) (tout le monde suit?) ;

les insertions continuent, jusqu’à la nécessité d’ajouter un sixième fragment: la fonction de hachage n’est plus \(\mod 5\) mais \(\mod 6\).

je veux effectuer une recherche get(17), mais la nouvelle fonction de hachage m’envoie vers le fragment \(F_5\) (vous voyez pourquoi?) qui ne contient pas le document recherché.

Un peu de réflexion (en fait, beaucoup de gens très intelligents y ont longuement réfléchi) suffit pour réaliser qu’il n’existe pas de solution simple au problème de l’évolution d’une structure de hachage. Des méthodes sophistiquées ont été proposées, la plus élégante et efficace étant le hachage linéaire (W. Litwin) dont la présentation dépasse le cadre de ce document.

Note

Reportez-vous au cours http://sys.bdpedia.fr, au livre http://webdam.inria.fr/Jorge/ ou à toute autre source bien informée pour tout savoir sur le hachage dynamique en général, linéaire en particulier.

Voyons dans le cadre d’un système distribué comment appliquer le principe du hachage avec dynamicité.

Le hachage cohérent (consistent hashing)¶

Le hachage repose donc sur une fonction h() qui distribue les valeurs de clé vers un intervalle [0, n-1], n correspondant au nombre de fragments. Toute modification de cette fonction rend invalide la distribution existante, et on se trouve donc à priori dans la situation douloureuse de conserver ad vitam le nombre de fragments initial, ou d’accepter périodiquement des réorganisation entière du partitionnement.

Le hachage cohérent propose une solution qui évite ces deux écueils en maintenant toujours la même fonction tout en adaptant la régle d’affectation d’un document à un serveur selon l’évolution (ajout / suppression) de la grappe. Cette règle d’affectation maintient la cohérence globale du partitionnement déjà effectué, d’où le nom de la méthode, et surtout son intérêt.

L’anneau et la règle d’affectation¶

Le principe du hachage cohérent est de considérer dès le départ un intervalle immuable D = [0, n-1] pour le domaine d’arrivée de la fonction de hachage, où n est choisi assez grand pour réduire le nombre de collisions (une collision, quand on parle de hachage, correspond à deux valeurs de clé distinctes \(i_1\) et \(i_2\) telles que \(h(i_1)=h(i_2)\)). On choisit typiquement \(n = 2^{32}\) ou \(n = 2^{64}\), ce qui permet de représenter la table de hachage avec un indice stocké sur 4 ou 8 octets.

On interprète ce domaine comme un anneau parcouru dans le sens des aiguilles d’une montre, de telle sorte que le successeur de \(2^{64}-1\) est 0. La fonction de hachage associe donc chaque serveur de la grappe à une position sur l’anneau; on peut par exemple prendre l’adresse IP d’un serveur, la convertir en entier et appliquer \(f(ip) = ip \mod 2^{64}\), ou tout autre transformation vers D suffisamment distributive.

_images/ch-general.png — Fig. 95 L’anneau du hachage cohérent et la règle d’affectation¶

On peut observer que le placement des serveurs sur l’anneau découpe ce dernier en arcs de cercle (Fig. 95). La règle d’affectation est alors définie de la manière suivante: chaque serveur est en charge de l’arc de cercle qui le précède sur l’anneau. Si on regarde plus précisément la Fig. 95:

le serveur \(S_1\) est positionné par la fonction de hachage en \(h(S_1)=a\), a étant quelque part entre 0 et \(2^{62}\);

le serveur \(S_2\) est positionné par la fonction de hachage en \(h(S_2)=b\), quelque part entre \(2^{62}\) et \(2^{63}\);

le serveur \(S_3\) est positionné par la fonction de hachage en \(h(S_3)=c\), quelque part entre \(3 \times 2^{62}\) et \(2^{64}-1\).

\(S_1\) est donc responsable de l’arc qui le précède, jusqu’à la position de \(S_3\) (non comprise). Maintenant, les documents sont eux aussi positionnés sur cet anneau par une fonction de hachage ayant le même domaine d’arrivée que h(). La règle d’affectation s’ensuit: chaque serveur doit stocker le fragment de la collection correspondant aux objets positionnés sur l’arc de cercle dont il est responsable.

Note

On pourrait bien entendu également adopter la convention qu’un serveur est responsable de l’arc de cercle suivant sa position sur l’anneau (au lieu du précédent). Cela ne change évidemment rien au principe.

Sur la figure, \(S_1\) stockera donc D2, \(S_3\) stockera d1, d3, d4 et \(S_2\) ne stockera (pour l’instant) rien du tout.

En pratique¶

La table de hachage est un peu particulière: elle établit une correspondance entre le découpage de l’anneau en arcs de cercle, et l’association de chaque arc à un serveur. Toujours en notant a, b et c les positions respectives de nos trois serveurs, on obtient la table suivante.

h(i)	Serveur
]c, a]	S1
]a, b]	S2
]b, c]	S3

Le fait de représenter des intervalles au lieu de valeurs ponctuelles est la clé pour limiter la taille de la table de hachage (qui contient virtuellement \(2^{64}\) positions).

Un premier problème pratique apparaît immédiatement: les positions des serveurs étant déterminées par la fonction de hachage indépendamment de la distribution des données, certains serveurs se voient affecter un tout petit secteur, et d’autres un très grand. C’est flagrant sur notre Fig. 95 où le déséquilibre entre \(S_2\) et \(S_3\) est très accentué, au bénéfice (ou au détriment…) de ce dernier.

La solution est d’affecter à chaque serveur non pas en une, mais en plusieurs positions sur l’anneau, ce qui tend à multiplier les arcs de cercles et, par un effet d’uniformisation, de rendre leurs tailles comparables. L’effet est illustré avec un nombre très faible de positions (3 pour chaque serveur) sur la Fig. 96. L’anneau est maintenant découpé en 9 arcs de cercles et les tailles tendent à s’égaliser.

_images/ch-multipos.png — Fig. 96 Positions multiples de chaque serveur sur l’anneau¶

En pratique, on peut distribuer un même serveur sur plusieurs dizaines de positions (128, 256, typiquement) pour garantir cet effet de lissage. Cela a également pour impact d’agrandir la taille de la table de routage. Celle donnée ci-dessous correspond à l’état de la Fig. 96, où a1, a2 et a3 représentent les positions de \(S_1\), et ainsi de suite.

h(i)	Serveur
]c1, a1]	S1
]a1, b1]	S2
]b1, c2]	S3
]c2, a2]	S1
]a2, b2]	S2
]b2, a3]	S1
]a3, c3]	S3
]c3, b3]	S2
]b3, c1]	S3

La taille de la table de routage peut éventuellement devenir un souci, surtout en cas de modifications fréquentes (ajout ou suppression de serveur). C’est surtout valable pour des réseaux de type pair-à-pair, beaucoup moins pour des grappes de serveurs d’entreprises, beaucoup plus stables. Des solutions existent pour diminuer la taille de la table de hachage, avec un routage des requêtes un peu plus compliqué. Le plus connu est sans doute le protocole Chord; vous pouvez aussi vous reporter à http://webdam.inria.fr/Jorge/.

Ajout/suppression de serveurs¶

L’ajout d’un nouveau serveur ne nécessite que des adaptations locales de la structure de hachage, contrairement à une approche basée sur le changement de la fonction de hachage, qui implique une recontruction complète de la structure. Quand un nouveau serveur est ajouté, ses nouvelles positions sont calculées, et chaque insertion à une position implique une division d’un arc de cercle existant. La Fig. 97 montre la situation avec une seule position par serveur pour plus de clarté.

_images/ch-ajout.png — Fig. 97 Ajout d’un nouveau serveur¶

Un serveur \(S_4\) est ajouté (partie gauche de la figure) dans un arc de cercle existant, celui associé jusqu’à présent au serveur \(S_3\). Une partie des documents gérés par ce dernier (ici, d4) doit donc migrer sur le nouveau serveur. C’est assez comparable avec l’éclatement d’un partitionnement par intervalle, la principale différence avec le hachage étant que, le positionnement résultant d’un calcul, il n’y a aucune garantie que le fragment existant soit divisé équitablement. Statistiquement, la multiplication des serveurs et surtout de leurs positions doit aboutir à un partitionnement équitable.

Note

Notez au passage que plus un arc est grand, plus il a de chance d’être divisé par l’ajout d’un nouveau serveur, ce qui soulage d’autant le serveur en charge du fragment initial. C’est la même constatation qui pousse à multiplier le nombre de positions pour un même serveur.

Cassandra en mode distribué¶

Ressources complémentaires

Sur le Hash Ring de Cassandra, un document concis et assez précis, http://salsahpc.indiana.edu/b534projects/sites/default/files/public/1_Cassandra_Gala,%20Dhairya%20Mahendra.pdf

L’architecture distribuée de Cassandra est basée sur le consistent hashing, et fortement inspirée de la conception du système Dynamo.

Note

Cette partie s’appuie largement sur une contribution de Guillaume Payen, issue de son projet NFE204. Merci à lui!

Le Hash-Ring¶

Les nœuds sont donc affectés à un anneau directionnel, ou Hash Ring couvrant les valeurs \([-2^{63}, 2^{63}]\). Lorsque l’on ajoute un nouveau nœud dans le cluster, ce dernier vient s’ajouter à l’anneau. C’est notamment à partir de cette caractéristique qu’une phrase est souvent reprise dans la littérature lorsqu’il s’agit de faire de la réplication avec Cassandra : Just add a node ! Rien de nouveau ici: c’est l’architecture présentée initialement par le système Dynamo (Amazon).

Chaque nœud n est positionné sur l’anneau à un emplacement (ou token) qui peut être obtenu de deux manières:

Soit, explicitement, par l’administrateur du système. Cette méthode peut être utile quand on veut contrôler le positionnement des serveurs parce qu’ils diffèrent en capacité. On placera par exemple un serveur peu puissant de manière à ce que l’intervalle dont il est responsable soit plus petit que ceux des autres serveurs.

Soit en laissant Cassandra appliquer la fonction de hachage (par défaut, un algorithme nommé MurMur3, plusieurs autres choix sont possibles).

Le serveur n obtient un token \(t_n\). Il devient alors responsable de l’intervalle de valeurs de hachage sur l’anneau \(]t_{n-1}, t_n]\). Au moment d’une insertion, la fonction de hachage est appliquée à la clé primaire de la ligne, et le résultat détermine le serveur sur lequel la ligne est insérée.

_images/cass-c1.png — Fig. 98 Représentation d’un cluster Cassandra avec le *Hash Ring*¶

Pour chaque nœud physique, il est possible d’obtenir plusieurs positions sur l’anneau (principe des nœuds dits « virtuels »), et donc plusieurs intervalles dont le nœud (physique) est responsable. La configuration du nombre de nœuds virtuels est donnée par le paramètre num_token du fichier de configuration cassandra.yaml.

Certains nœuds jouent le rôle de points d’entrée dans l’anneau, et sont nommés seed (« graine », « semence ») dans Cassandra. En revanche, tous les nœuds peuvent répondre à des requêtes des applications clients. La table de routage est en effet dupliquée sur tous les nœuds, ce qui permet donc à chaque nœud de rediriger directement toute requête vers le nœud capable de répondre à cette requête. Pour cela, les nœuds d’une grappe Cassandra sont en intercommunication permanente, afin de détecter les ajouts ou départs (pannes) et les refléter dans leur version de la table de routage stockée localement.

Routage des requêtes¶

Un cluster Cassandra fonctionne en mode multi-nœuds. La notion de nœud maître et nœud esclave n’existe donc pas. Chaque nœud du cluster a le même rôle et la même importance, et jouit donc de la capacité de lecture et d’écriture dans le cluster. Un nœud ne sera donc jamais préféré à un autre pour être interrogé par le client.

Pour que ce système fonctionne, chaque nœud du cluster a la connaissance de la topologie de l’anneau. Chaque nœud sait donc où sont les autres nœuds, quels sont leurs identifiants, quels nœuds sont disponibles et lesquels ne le sont pas.

Un client qui interroge Cassandra contacte un nœud au hasard parmi tous les nœuds du cluster. Le partitionnement implique que tous les nœuds ne possèdent pas localement l’information recherchée. Cependant, tous les nœuds sont capables de dire quel est le nœud du cluster qui possède la ressource recherchée.

Note

Le rôle du coordinateur est donc dans ce cas légèrement différent de ce que nous avons présenté dans le chapitre précédent. Au lieu de se charger lui-même d’une écriture locale, puis de transmettre des demandes de réplication, le coordinateur envoie f demandes d’écriture en parallèle à f nœuds de l’anneau, où f est le facteur de réplication.

Stratégies de réplication¶

Cassandra peut tenir compte de la topologie du cluster pour gérer les réplications. Avec la stratégie simple, tout part de l’anneau. Considérons un cluster composé de 8 nœuds, c1 à c8, et un facteur de réplication de 3. Comme expliqué précédemment, n’importe quel nœud peut recevoir la requête du client. Ce nœud, que l’on nommera coordinateur va prendre en compte

la méthode de hachage,

les token range (intervalles représentant les arcs de cercle affectés à chaque serveur) des nœuds du cluster

la clé du document inséré

pour décider quel sera le nœud dans lequel ce dernier sera stocké. Le coordinateur va alors rediriger la requête pour une écriture sur le nœud choisi par la fonction de hachage. Comme le facteur de réplication est de 3, le coordinateur va aussi rediriger la requête d’écriture vers les 2 nœuds suivant le nœud choisi, dans le sens de l’anneau.

_images/cass-c2.png — Fig. 99 Stratégie de réplication simple¶

Comme on le voit dans la Fig. 99, lorsque le client effectue la requête sur le cluster, c’est le nœud c6 auquel le client s’est adressé pour traiter la demande. Ce dernier calcule que c’est le nœud c2 qui doit être sollicité pour traiter la requête. Il va donc rediriger la requête vers c2, mais également vers c3 et c4. Ce schéma vaut aussi bien pour la lecture que pour l’écriture.

La stratégie par topologie du réseau présente un intérêt lorsque l’infrastructure est répartie sur différents clusters. Ces derniers peuvent être éloignés physiquement, ou dans le même local. Avec cette stratégie, Cassandra adopte (par défaut) les principes suivants:

les données sont répliquées dans le même data center, pour éviter le coût réseau des transferts d’un centre à un autre

la réplication se fait sur des serveurs situés dans des baies distinctes, car deux serveurs d’une même baie ont plus de chance d’être indisponibles ensemble en cas de panne réseau affectant la baie.

Cette stratégie est intéressante pour des ressources localisées dans différents endroits du monde. L’architecture est toujours celle d’un anneau directionnel, chaque nœud étant lié au nœud suivant. L’écriture d’un document va se faire de la manière suivante:

on détermine le nœud \(N\) en charge du secteur contenant la valeur hachée de la clé

on parcourt ensuite l’anneau jusqu’à trouver situés dans le même centre de données que N, sur lequels on effectue alors la réplication.

N définit donc le centre de données dans lequel le document sera inséré.

Mise en pratique¶

Voici un exemple de mise en pratique pour tester le fonctionnement d’un cluster Cassandra et quelques options. Pour aller plus lon, vous pouvez recourir à l’un des tutoriaux de Datastax, par exemple http://docs.datastax.com/en/cql/3.3/cql/cql_using/useTracing.html pour inspecter le fonctionnement des niveaux de cohérence.

Notre cluster¶

Créons maintenant un cluster Cassandra, avec 5 nœuds. Pour cela, nous créons un premier nœud qui nous servira de point d’accès (seed dans la terminologie Cassandra) pour en ajouter d’autres.

docker run -d -e "CASSANDRA_TOKEN=1" \
     --name cass1 -p 3000:9042 spotify/cassandra:cluster

Notez que nous indiquons explicitement le placement du serveur sur l’anneau. En production, il est préférable de recourir aux nœuds virtuels, comme expliqué précédemment. Cela demande un peu de configuration, et nous allons nous contenter d’une exploration simple ici.

Il nous faut l’adresse IP de ce premier serveur. La commande suivant extrait l’information NetworkSettings.IPAddress du document JSON renvoyé par l’instruction inspect.

docker inspect -f '{{.NetworkSettings.IPAddress}}' cass1

Vous obtenez une adresse. Par la suite on supppose qu’elle vaut 172.17.0.2.

Créons les autres serveurs, en indiquant le premier comme serveur-seed.

docker run -d -e "CASSANDRA_TOKEN=10" -e "CASSANDRA_SEEDS=172.17.0.2" \
    --name cass2 spotify/cassandra:cluster

docker run -d -e "CASSANDRA_TOKEN=100" -e "CASSANDRA_SEEDS=172.17.0.2" \
    --name cass3 spotify/cassandra:cluster

docker run -d -e "CASSANDRA_TOKEN=1000" -e "CASSANDRA_SEEDS=172.17.0.2" \
    --name cass4 spotify/cassandra:cluster

docker run -d -e "CASSANDRA_TOKEN=10000" -e "CASSANDRA_SEEDS=172.17.0.2" \
    --name cass5 spotify/cassandra:cluster

Nous venons de créer un cluster de 5 nœuds Cassandra, qui tournent tous en tâche de fond grâce à Docker.

Keyspace et données¶

Insérons maintenant des données. Vous pouvez utiliser le client DevCenter. À l’usage, il est peut être plus rapide de lancer directement l’interpréteur de commandes sur l’un des nœuds avec la commande:

docker exec -it cass1 /bin/bash
[docker]$ cqlsh 172.17.0.X

Créez un keyspace.

CREATE keyspace repli
         with replication = {'class':'SimpleStrategy', 'replication_factor':3};
USE repli;

Insérons un document.

CREATE TABLE data (id int, value text, PRIMARY KEY (id));
INSERT INTO data (id, value) VALUES (10, 'Premier document');

Nous venons de créer un keyspace, qui va répliquer les données sur 3 nœuds. La table data va utiliser la clé primaire id et la fonction de hashage du partitioner pour stocker le document dans l’un des 5 nœuds, puis répliquer dans les 2 nœuds suivants sur l’anneau. Il est possible d’obtenir avec la fonction token() la valeur de hachage pour la clé des documents.

select token(id), id from data;

Vérifions avec l’utilitaire nodetool que le cluster est bien composé de 5 nœuds, et regardons comment chaque nœud a été réparti sur l’anneau. On s’attend à ce que les nœuds soient placés par ordre croissant de leur identifiant.

docker exec -it cass1 /bin/bash
[docker]$ /usr/bin/nodetool ring

Testons que le document inséré précedemment a bien été répliqué sur 2 nœuds.

docker exec -it cass1 /bin/bash
[docker]$ /usr/bin/nodetool cfstats -h 172.17.0.2 repli

Regardez pour chaque nœud la valeur de Write Count. Elle devrait être à 1 pour 3 nœuds consécutifs sur l’anneau, et 0 pour les autres. Vérifions maintenant qu’en se connectant à un nœud qui ne contient pas le document, on peut tout de même y accéder. Considérons par exemple que le nœud cass1 ne contient pas le document.

docker exec -it cass1 /bin/bash
[docker]$ cqlsh 172.17.0.X
cqlsh > USE repli;
cqlsh:repli > SELECT * FROM data;

Cohérence des lectures¶

Pour étudier la cohérence des données en lecture, nous allons utiliser la ressource stockée, et stopper 2 nœuds Cassandra sur les 3. Pour ce faire, nous allons utiliser Docker. Considérons que la donnée est stockée sur les nœuds cass1, cass2 et cass3

docker pause cass2
docker pause cass3
docker exec -it cass1 /bin/bash
[docker]$ /usr/bin/nodetool ring

Vérifiez que les nœuds sont bien au statut Down.

Nous pouvons maintenant paramétrer le niveau de cohérence des données. Réalisons une requête de lecture. Le système est paramétré pour assurer la meilleure cohérence des données. On s’attend à ce que la requête plante car en mode ALL, Cassandra attend la réponse de tous les nœuds.

docker exec -it cass1 /bin/bash
[docker]$ cqlsh 172.17.0.X
cqlsh > use repli;
# devrait renvoyer Consistency level set to ALL.
cqlsh:repli > consistency all;
# devrait renvoyer Unable to complete request: one or more nodes were unavailable.
cqlsh:repli > select * from data;

Comme attendu, la réponse renvoyée au client est une erreur. Testons maintenant le mode ONE, qui devrait normalement renvoyer la ressource du nœud le plus rapide. On s’attend à ce que la ressource du nœud 172.17.0.X soit renvoyée.

docker exec -it cass1 /bin/bash
[docker]$ cqlsh 172.17.0.X
cqlsh > use repli;
cqlsh:repli > consistency one;  # devrait renvoyer Consistency level set to ONE.
cqlsh:repli > select * from data;

Dans ce schéma, le système est très disponible, mais ne vérifie pas la cohérence des données. Pour preuve, il renvoie effectivement la ressource au client alors que tous les autres nœuds qui contiennent la ressource sont indisponibles (ils pourraient contenir une version pus récente). Enfin, testons la stratégie du quorum. Avec 2 nœuds sur 3 perdus, la requête devrait normalement renvoyer au client une erreur.

docker exec -it cass1 /bin/bash
[docker]$ cqlsh 172.17.0.X
cqlsh > use repli;
# devrait renvoyer Consistency level set to QUORUM.
cqlsh:repli > consistency quorum;
# devrait renvoyer Unable to complete request: one or more nodes were unavailable.
cqlsh:repli > select * from data;

Le résultat obtenu est bien celui attendu. Moins de la moitié des réplicas est disponible, la requête renvoie donc une erreur. Réactivons un nœud, et re-testons.

docker unpause cass2
docker exec -it cass1 /bin/bash
[docker]$ nodetool ring
[docker]$ cqlsh 172.17.0.X
cqlsh > use repli;
# devrait renvoyer Consistency level set to QUORUM.
cqlsh:repli > consistency quorum;
cqlsh:repli > select * from data;

Lorsque le nœud est réactivé (via Docker), il faut tout de même quelques dizaines de secondes avant qu’il soit effectivement réintégré dans le cluster. Le plus important est que la règle du quorum soit validée, avec 2 nœuds sur 3 disponibles, Cassandra accepte de retourner au client une ressource.

Cassandra & données massives¶

Cassandra est considéré aujourd’hui comme l’une des bases de données NoSQL les plus performantes dans un environnement Big Data. Lorsque le projet requiert de travailler sur de très gros volumes de données, le défi est de pouvoir écrire les données rapidement. Et sur ce point, Cassandra a su démontrer sa supériorité. Comme vu auparavant, le passage à l’échelle chez Cassandra est très efficace, et donc particulièrement adapté à un environnement où les données sont distribuées sur plusieurs serveurs. Grâce à l’architecture de Cassandra, la distribution implique une maintenance gérable sans être trop lourde, et assure automatiquement une gestion équilibrée des données sur l’ensemble des nœuds.

On pourrait croire que mettre un cluster Cassandra en production se fait en quelques coups de baguette magique. En réalité, l’opération est beaucoup plus délicate. En effet, Cassandra propose une modélisation des données très ouverte, ce qui donne accès à énormément de possibilités, et permet surtout de faire n’importe quoi. Contrairement aux bases de données relationnelles, avec Cassandra, on ne peut pas se contenter de juste stocker des documents. Il faut en effet avoir une connaissance fine des données qui vont être stockées, la manière dont elles seront interrogées, la logique métier qui conditionnera leur répartition sur les différents nœuds. La conception du modèle de données sur Cassandra demande donc une attention particulière, car une modélisation peu performante en production avec des pétaoctets de données donnera des résultats catastrophiques.

Cassandra permet aussi de ne pas contraindre le nombre de paires clé/valeur dans les documents. Lorsqu’un document a beaucoup de valeurs, on parle alors de wide row. Les wide rows permettent de profiter des possibilités offertes en terme de modélisation. En revanche, plus un document a de valeurs, plus il est lourd. Il faut donc estimer finement à partir de combien de valeurs le modèle va s’écrouler tellement les briques sont lourdes… N’oublions pas que Cassandra est une base de données NoSQL, et donc le concept de jointures n’existe pas.

Les ressemblances avec le modèle relationnel et particulièrement SQL apportent une aide certaine, particulièrement à ceux qui ont une grosse expérience sur SQL. En revanche, elles peuvent amener les utilisateurs à sous-estimer cette base de données extrêmement riche. Cassandra offre des performances élevées, à condition de concevoir le modèle de données adéquat. Vous trouverez sur Internet nombre d’anecdotes de grosses structures qui se sont cassées les dents avec Cassandra, et qui ont été obligées de refaire intégralement leur modèle de données, et ce plusieurs fois avant de pouvoir enfin toucher du doigt cette performance tant convoitée.

Exercices¶

Exercice Ex-Sharding-1: Scalabilité ElasticSearch

Réfléchissons: la taille de notre collection augmente, et nous ajoutons de nouveaux serveurs au cluster ElasticSearch.

À partir de quel nombre de serveurs peut-on soupçonner que le gain devient négligeable ou nul (et donc que la scalabilité n’est pas respectée)?

Est-ce la même réponse pour les écritures et les lectures?

Que faire alors?

Répondez en vous basant sur le configuration par défaut, puis en général.

Pour approfondir, vous pouvez vous reporter à la documentation ElasticSearch https://www.elastic.co/guide/en/elasticsearch/guide/current/scale.html. À lire avec l’esprit critique affuté par les leçons du cours NFE204 bien sûr.

Outre la mise en œuvre de Cassandra en exécutant les commandes données précédemment, voici quelques propositions.

Exercice Ex-S3-1: ajout d’un serveur avec hachage cohérent

La figure Ajout d’un serveur montre l’anneau de la figure Positions multiples de chaque serveur sur l’anneau avec ajout d’un nouveau serveur S4 en trois positions p1, p2, et p3.

_images/ch-exoajout.png — Fig. 100 Ajout d’un serveur¶

Déterminez la nouvelle table de routage après ajout de S4.

Exercice Ex-S3-2: les tables de hachage distribuées (DHT), atelier optionnel

Ceux qui ont de l’apétit pour les structures de données sophistiquées peuvent se pencher sur les différentes tables de hachage distribuées (DHT pour distributed hash tables). Dans cet exercice je vous propose d’explorer une des plus célèbres, Chord. C’est une variante du consistent hashing dans laquelle, contrairement à Dynamo ou Cassandra, on considère que la table de routage varie trop fréquemment pour pouvoir être synchronisée en permanence sur tous les serveurs. Pour des réseaux pair à pair, c’est une hypothèse pertinente. On va donc limiter fortement sa taille et par là le nombre de mises à jour qu’elle doit subir.

Dans Chord, chaque nœud \(N_p\) maintient une table de routage référençant un sous-ensemble des autres nœuds du système, nommé \(friends_p\). Ce sous-ensemble contient au plus \(64\) autres serveurs (pour un espace de hachage de taille \(2^{64}\)). Chaque entrée \(i \in [0, 63]\) référence le nœud \(N_i\) tel que

\(h(N_i) \geq h(N_p)+2^{i-1}\)

il n’existe pas de nœud \(p'\) tel que \(h(N_i) > h(N_{p'}) \geq h(N_p) + 2^{i-1}\)

En clair, le nœud \(N_i\) est celui dont l’arc de cercle contient la clé \(h(N_p) + 2^{i-1}\). Notez que la distance entre les clés couvertes par les « amis » croît de manière exponentielle: elle est de 2 initialement, puis de 4, puis de 8, puis de 16, jusqu’à une distance de \(2^{63}\) correspondant à la moitié de l’anneau!

La Fig. 101 illustre la situation pour m=4, avec donc \(2^4 = 16\) positions sur l’anneau. prenons un nœud S1 placé en position 1. Son premier ami est celui dont l’arc de cercle contient \(2^0=1\). Son second ami doit contenir la position \(2^2=2\), son troisième ami la position \(2^2=4\) et son quatrième et dernier ami la position \(2^3=8\). ct

Fig. 101 Illustration de la table de routage dans Chord¶

On remarque que de larges secteurs de l’anneau sont inconnus, et qu’ils deviennent de plus en plus larges. Après le dernier ami, c’est pratiquement la moitié de l’anneau qui est inconnue. Contrairement à la table de routage de Cassandra, la table de routage de Chord est petite (sa taille est logarithmique dans le nombre de positions) mais ne permet pas toujours à un nœud de rediriger la requête vers le serveur contenant les données.

En revanche, et c’est l’idée clé, le nœud a un ami qui est mieux placé. Pourquoi? Parce que chaque nœud connaît d’autant mieux un secteur qu’il en est proche. Il suffit donc de trouver l’ami le mieux placé pour répondre et lui transmettre la requête.

À partir de là c’est à vous de jouer.

Copiez la Fig. 101 et faites quatre dessins équivalents montrant les amis des amis de S1 pour i=2 et i=3.

En supposant que chaque nœud couvre 2 clés, expliquez comment on peut trouver le document de clé k=4 en s’adressant initialement à S1. Même question avec la clé k=8.

Expliquez comment on peut trouver le document de clé k=6 en s’adressant initialement à S1. Même question avec la clé k=12.

Et pour la clé k=14, comment faire? En déduire l’algorithme de recherche,

Quel est le nombre de redirections de messages qu’il faut effectuer (c’est la complexité en communication de l’algorithme).

Vous avez le droit de fouiller sur le web bien sûr, mais l’important est de savoir restranscrire correctement ce que vous aurez trouvé.

Exercice Ex-S3-3: découverte d’un système basé sur le hachage cohérent (atelier optionnel)

Vous pouvez tester votre capacité à comprendre, installer, tester par vous-même un système distribué en découvrant un des systèmes suivants qui s’appuient sur le hachage cohérent pour la distribution:

Riak, http://basho.com/riak/

Redis, http://redis.io/

Voldemort, http://www.project-voldemort.com/voldemort/

Memcached, http://memcached.org/

Et sans doute beaucoup d’autres. Objectif: installer, insérer des données, créer plusieurs nœuds, comprendre les choix (architecture maître-esclave ou multi-nœuds, gestion de la cohérence, etc.)

Systèmes NoSQL: le partitionnement¶

S1: les bases¶

Principes généraux¶

Clé de partitionnement¶

Structures¶

Et en distribué ?¶

Etude de cas: ElasticSearch¶

Lancement des serveurs¶

Ajout / suppression de nœuds¶

Quiz¶

Mise en pratique¶

S2: partitionnement par intervalle¶

Structures et opérations¶

Dynamicité¶

Etude de cas: MongoDB¶

Architecture¶

Configuration du système¶

Partitionnement des collections¶

Quiz¶

Mise en pratique¶

S3: partitionnement par hachage¶

Structure et opérations¶

Dynamicité¶

Le hachage cohérent (consistent hashing)¶

L’anneau et la règle d’affectation¶

En pratique¶

Ajout/suppression de serveurs¶

Cassandra en mode distribué¶

Le Hash-Ring¶

Routage des requêtes¶

Stratégies de réplication¶

Mise en pratique¶

Notre cluster¶

Keyspace et données¶

Cohérence des lectures¶

Cassandra & données massives¶

Quiz¶

Exercices¶

Table Of Contents

Recherche