Compte-rendu maintenance 13 juillet 2019

Bonjour,

Suite à notre intervention voici ci-après un résumé des travaux entrepris et de l’état actuel de l’infrastructure.

Pour rappel, nous voulions faire/préparer la migration de notre Proxmox actuel sur un nouveau serveur plus puissant, migrer le jour-même si possible, pour pallier aux erreurs S.M.A.R.T. de notre serveur vieillissant qui consomme beaucoup d’électricité pour ce qu’il rend comme travail. Voir la news Maintenance samedi 13 juillet sur notre site web.

Dans les grandes lignes, cela ne s’est pas passé comme prévu, une carte RAID qui gère les disques n’est pas capable de laisser les disques sans faire de RAID matériel, ce qui est embêtant selon ce que nous avions prévu comme installation (avoir un système de fichier géré par ZFS).

Maximiser les performances des nouvelles machines

Démontage des serveurs actuels (4 serveurs, 2 baies de disques) pour composer deux serveurs avec une grande capacité, nous avons donc pu faire:

  • Deux machines Dell PowerEdge R720xd 2U
  • 64 Go de RAM chacune
  • 20 To de stockage chacune
  • 2 CPU 4 cores à 2 Ghz chacune

Ces machines n’ont pas été obtenue à titre gratuit, nous devons donner la somme que nous pouvons à son ancien propriétaire (on peut donner le nom en privé, demande sur info@swissn…), vu le coût des machines de base et la capacité qu’elles ont cela est justifié.

Pour rappel, nous avons le matériel suivant:

  • 2x Dell R720 (qui avaient 2 CPU, 64 Go de RAM, 2x 160 GB de disque)
  • 2x Dell R720xd (qui avaient 1 CPU, 10x 2 To de disques + 2x 160 GB, 32 Go RAM)
  • 2x Dell PowerVault MD3200

Dépoussiérage

Cette étape s’est faite en partie avec la première selon les composants à installer pour bien nettoyer les slots, toutes les machines sont propres sans poussière désormais. Ces serveurs ayant fonctionné durant 5 ans et demi dans un endroit subissant la poussière.

Chaque ventilateur, disque, etc a été sorti pour nettoyage, d’une part pour améliorer leur durée de vie, et aussi pour ne pas ramener de poussière dans le centre de données.

Tests de fonctionnement

Nous avions pris écran/clavier/souris pour mettre en service les machines, notre but était d’installer Proxmox sur les deux, nous avons fait le tour des paramètres disponibles dans le BIOS, sur la carte RAID et un petit peu l’iDRAC (carte de management du serveur), nous n’avons rien trouvé de particulier.

Le problème du contrôleur RAID

Nous souhaitions installer le système de fichier ZFS, qui doit avoir un accès direct aux disques, et le contrôleur RAID des quatre serveurs ne permettent pas d’avoir un accès direct aux disques (pass-through) ce qui est très recommandé pour ZFS, après plusieurs recherches chronophages nous avons abandonné et décidé d’aller installer les serveurs au centre de données et de prévoir une nouvelle journée d’intervention, où nous réglerons ce problème soit par changement de la carte RAID, par changement de firmware ou autre solution proposée par des personnes du domaine que nous consulterons.

Nous avons eu un avis en fin de journée d’une connaissance qui nous a indiqué que le fait de faire un Virtual Disk avec un RAID0 par disque est faisable pour ZFS, et qu’il faut faire une manip en cas de changement de disque, nous vérifierons cela, en étudiant les possibilités évoquées plus haut.

La carte RAID est une Dell PERC H710 qui est rebrandée, à l’origine c’est une LSI MegaRAID SAS 9266-8i.

Départ au datacenter

Nous avons amené les deux machines au datacenter, la mise en place dans la baie s’est faite très simplement, les rails de fixation de la bête sont très pratiques, nous avons posé les machines sur les rails et c’était fait.

Nous avons également installé un switch HP Gigabit 24 ports, où nous prévoyons de l’utiliser pour diviser notre infrastructure en plusieurs réseaux logiques (VLAN) par port physique, ce qui est déjà le cas de manière virtualisée, mais en prenant en compte l’extension pour les CHATONS et FairSocialNet.

Moment de pause

Nous avons pris du temps hors du datacenter, qui est somme toute assez bruyant, pour réfléchir et être hors du bruit de toutes les machines qui tournent dans le centre, pour faire la liste des choses qui nous reste à faire:

  • Refaire la pâte thermique des processeurs, après 5 ans et demi de fonctionnement elle est usée.
  • Prendre des câbles patch de 1.5m blindé (S-FTP). Actuellement on utilise des câbles de marque R&M qui sont de très bonne qualité.
  • Trouver une solution pour mettre le contrôleur de disques en bypass/pass-through.
  • Installer Proxmox sur chaque machine et les mettre en cluster.
  • Configurer le switch et les VLAN.
  • Configurer les backups locaux (les backups distants fonctionnent déjà, ils sont chez Jojo).
  • Trouver un moyen de réveiller/allumer le serveur à distance, possiblement en Wake-on-LAN ou via l’iDRAC.
  • Donner un badge d’accès à un troisième sysadmin, en coordination avec Nimag.
  • Edit: Support de câbles pour l’arrière des serveurs à récupérer

La suite

Afin de continuer cette migration, nous prévoyons une nouvelle journée d’intervention quand nous aurons pu réunir et préparer tous les éléments ci-dessus, nous proposons aux personnes intéressées/participant·e·s à l’infrastructure d’être présent ce jour-là, qui devrait, si possible, être le samedi 27 juillet toute la journée.

Bonjour,

La nouvelle intervention du 27 juillet n’aura pas lieu, comme vous avez pu le remarqué je n’ai pas avancé la question du contrôleur RAID.

Je profite de poser cet article sur le SAS ici, pour qui ça intéresserait, notamment qu’on peut éventuellement connecter les disques en direct sur la carte mère selon le nombre (8 ou 16 selon le câble ?), mais restera la question de l’alimentation électrique si on suit cette voie.


Dans un premier temps je privilégierai de trouver une autre carte RAID plus conciliante.

le ZFC devrait arrivé en bêta sur ubuntu 19.10 il me semble

j’ai regardé ce que c’était et cela semble très intéressant

good luck comme disaient mes amis chinois avant de perdre MSN au profit de Skype

1 J'aime

tu veux sûrement parlé du ZFS; est dispo sous linux depuis fort longtemps, mais puisqu’ il y avait des problèmes de license ce dernier n’a jamais été proprement porté.

1 J'aime

Hello JD

Oui j’ai fait une confusion mais c’est bien de cela dont je parlais

ZFS et oui une histoire de licence

Si tu me donnes les références exactes, je peux faire des recherches (ebay, … ).

Salut Dominique,

De ce que j’ai trouvé sur les forums c’est une Dell H310, je viens de voir qu’il y a une version mini, mais à priori il faut prendre la version normale.

Pour info voici la doc sur les connectiques et cartes pour le SAS et RAID:
https://tille.ch/_matrix/media/r0/download/matrix.org/VdQIEexuzuzhcFKEYZJSdkUO (page 80 et 96)

Hello Florian !

Sur les specs de Dell pour le PowerEdge R720XD, ils indiquent :

RAID / Contrôleurs internes :

PERC H310
PERC H710
PERC H710P

image

(pour plus d’infos voir le fichier de référence de Dell )

Ne vaut-il pas mieux disposer d’une carte avec mémoire cache et batterie de secours (H710 ou H710P)?

Qu’en penses-tu ?

Salut Dominique !

Merci de tes recherches et précisions, effectivement ce sera bien la PERC H310.

A confirmer par Josué/un·e sysadmin, ZFS est fait pour ne pas avoir besoin de batterie et de cache physique (on veut se passer du RAID matériel). ZFS est prévu pour “voir les disques à nu”, sauf que dans notre cas la carte RAID de Dell est obligatoire sur le serveur de par sa construction, donc on voudrait une toute simple H310 qui nous permettent de faire du passtrough ou JBOD pour permettre à ZFS de voir les disques en direct, ce qui n’est pas possible avec la H710 que l’on a actuellement.

Si Jojo peut confirmer mes dires. :wink:

Précision: on a deux serveurs donc ça fera 2x une PERC H310

Hello,

Avec les donnée ci-dessus il est difficile de déterminer exactement comment va se comporter la carte lorsque qu’elle est configurée en mode pass-through. En théorie le cache permet d’accélérer la lecture/écriture mais faut aussi penser que on à déjà du cache dans les disques et à différents niveau dans la carte mère. Après là je suspecte que le cache est utilisé uniquement lorsque le RAID est actif donc pas dans notre cas. De plus prendre une carte qui contient une batterie génère une source de panne supplémentaire. Je pense donc que la H310 est le meilleurs choix.

OK pour 2 x H310

Par contre, reste la question du format.

Voilà comment se présente la carte format “mini” :

image

et voila l’aspect de la carte de taille “standard” :

image

Merci de me préciser.

Bonne journée !

En voyant tes photo si tu est sûr que ces photo correspondes bien au produit en question, il faut prendre la version mini à mon avis, d’après ce que j’ai vu des photo de l’intérieure des serveurs.

En voyant la photo, cela me parait en effet correspondre.

OK donc pour 2 x H310 "mini"

Je vous tiens au courant.

C’est fait !

Délai de livraison estimé : 30 août – 9 sept. pour l’une, 9 sept. - 20 sept. pour la seconde.

Livraison directe chez Josué.

Je fais cadeau du montant à l’association !

Bonne journée !

Parfait. Merci pour ton aide et ton don.

Hello,

Pour info j’ai reçu la première carte RAID.

Hello,

Pour info j’ai reçu la 2ème carte RAID.

Hello,

Nous avons donc effectué aujourd’hui une intervention au datacenter. Le but étant de continuer dans la migration. Voici de ce qui à été fait et ce qu’il reste à faire.

Nous avons aussi décider de mettre en placer au datacenter notre infra de tests. Les 2 serveur pas utilisés seront utilisé pour les tests.

Ce qui à été fait:

  • Pose de la pâte thermique sur 1 machine. Nous avons constaté qu’il fallait plus de pâte thermique que prévus. Par conséquent nous devront en racheter pour les 3 autres machines (1 de backup, 2 pour les tests).
  • Mise à jours des schéma de l’infra. Plusieurs défaut dans les schéma actuel on été constaté et corrigé. Il à été aussi intégré dans le schéma le support de l’infra de test.
  • Pose de une carte RAID sur la future machine de prod. Cela nous à permis de valider que ce nouveau type de carte fonctionne et permet de faire ce que l’on désire.
  • Installation de Proxmox sur la future machine de prod. Cela s’est bien déroulé après avoir déactivé l’UEFI (@florian peut tu confirmer ?).
  • 1ère tentative de migration de container non critiques (tels que les DNS). Nous n’avons pas pu faire démarrer le container sur la nouvelle machine. On ne connais pas exactement la raison à cela. Nous n’avons cependant pas insisté sur cela. Si le problème persiste nous investiguerons là dessus la prochaine fois.

Ce qui n’a pas encore été fait (et qu’il reste à faire):

  • Configuration du switch. Finalement nous avons constaté que le câble sérielle était de type RJ45. Nous avions donc pas l’adaptateur nécessaire pour cela. Nous allons donc investiguer afin de trouver un câble adaptateur pour ce type de switch.
  • Pose de la pâte thermique sur les 3 autres machines.
  • Pose de la seconde carte RAID.
  • Installation de proxmox sur la machine de backup (et idéalement si le temps nous le permet sur les 2 machines de tests).
  • Migration des container sur les nouvelles machines
  • Configurer les IDRAC des 4 machines

Nous prévoyons continuer et finaliser ces travaux le 2 octobre.

Hello,

Afin de pouvoir continuer avec nos travaux j’ai mis à jours le poste sur la nouvelle infra (me demander un accès si vous y avez pas accès) avec les nouveaux schéma adapté selon les dernier problème et solution rencontrés.

J’ai eu aussi pas mal d’adaptation à faire sur le git (correction de bug, changement d’adressage, modification de règles firewall). J’ai donc fait des PR pour cela. La liste de toutes les PR liée à cela est disponible ici.

Pour info (surtout pour @florian) voici la liste du matériel à amener au datacenter mercredi prochain:

  • 4x Pate thermique
  • Chiffons
  • Alcole à brûler
  • RS232 USB
  • RS232 femelle<->femelle
  • RS232 RJ45 (pour switch HP)
  • Tourne visse - boite à embouts
  • Clef USB install proxmox
  • Multiprise
  • Cable alim (assez)
  • Antenne wifi linksys (pour dépanner…) (je m’en occupe)
  • Etiqueteuse
  • Velcro
  • Visses, ecrou-cage…
  • Ordi, chargeur, etc
  • Cable patch 2 m
  • Switch