Illustration style plan d'ingénierie – pile de papiers désordonnée devenant un tableur organisé

Un mois de travail, trois heures de travail

Plus de 6 000 articles de données produits migrés entre deux systèmes d'inventaire en environ trois heures.

Ce que ça peut faire pour votre organisation

Si votre équipe a une migration de données estimée en semaines – mise à niveau d'un système d'inventaire, consolidation d'un catalogue de produits, nettoyage d'une base fournisseurs ou clients, tout cas où des données pas propres dans un système doivent atterrir propres dans un autre – c'est ce que je fais. Je sors les données brutes de votre système actuel, je les réconcilie contre la référence vers laquelle vous migrez, et je remets à votre équipe un fichier d'import propre avec chaque changement consigné.

Les items qui demandent une décision humaine – habituellement une fraction de pourcent du total – ressortent dans une courte liste à réviser, chacun avec la raison attachée. Votre responsable des opérations passe un après-midi sur les cas ambigus au lieu de semaines à pousser des lignes dans un tableur.

La vitesse compte. Mais l'important, ce n'est pas la vitesse – c'est une transformation que votre équipe peut justifier : chaque changement remonte à la règle qui l'a produit, chaque item signalé vient avec sa raison, et le protocole au complet se réutilise au prochain changement de système.

Ce que votre équipe récupère

Trois choses ressortent de l'autre côté : un fichier d'import propre, avec les champs normalisés et prêt à entrer dans le nouveau système ; une piste de vérification complète – ancienne valeur, nouvelle valeur, règle appliquée pour chaque transformation – de sorte que chaque décision dans la sortie remonte à sa raison ; et une courte liste d'items qui n'ont pas pu être appariés automatiquement, chacun avec la raison précise pour laquelle une personne doit trancher. Le pipeline, c'est un projet ponctuel ; le protocole qui en ressort, c'est un actif réutilisable que votre équipe peut relancer au prochain changement de système.

Comment je l'ai fait

Un ami à moi est investisseur dans une entreprise de commerce en ligne britannique. Il m'a mentionné autour d'un café que l'entreprise était bloquée dans le déplacement d'années et d'années de données produits vers un nouveau système d'inventaire, et qu'ils avaient évalué le travail à l'interne à environ un mois. Je lui ai dit que j'allais y jeter un œil.

J'ai travaillé en direct avec la personne qui menait la migration. On a commencé par la fin, pas par le début : le nouveau système ne te donnait pas un export CSV propre de ses enregistrements existants, seulement des PDF. Alors la première chose que j'ai faite, c'est d'extraire l'état actuel du système cible à partir de ces PDF avec un court script Python, et d'en faire la liste de référence contre laquelle chaque décision de correspondance allait être vérifiée. Tant que tu ne sais pas ce qu'il y a déjà dans la destination, tu ne peux pas vraiment dire ce que tu es en train de déplacer.

Ensuite on est passés au catalogue source – plus de 6 000 articles, chacun avec une multitude d'options. La plupart du travail s'est révélé être du nettoyage : des fragments qui avaient été fusionnés croche, des notations de quantité encodées de trois façons différentes, des suffixes d'unité qui voulaient dire une chose pour un type de composant et l'inverse pour un autre. J'ai séquencé les corrections par dépendance – structurel d'abord, puis notation, puis mappage de codes, puis correspondance approximative pour tout ce qui ne correspondait pas exactement – et chaque passe enregistrait chaque changement, ancienne valeur et nouvelle, dans une piste de vérification.

À la fin de la séance, environ 99,5 % des lignes avaient été appariées automatiquement – à peu près 1 680 corrections appliquées – et 87 items avaient été signalés pour révision humaine, chacun avec la raison précise pour laquelle une personne devait trancher. L'équipe pouvait régler ça en un après-midi de son côté. Le projet d'un mois a été fait en environ trois heures.

Ils sont clients payants depuis. Et les techniques tirées de cette séance – vingt-et-une au total – sont allées dans ma bibliothèque. La prochaine migration de système d'inventaire que je vais faire ne va pas prendre trois heures. Elle va prendre moins.

La première chose, ce n'était pas de déplacer des données. C'était de trouver ce qui était déjà dans la destination.

Destination – exporte seulement en
PDF
PDF
PDF
Pas d’export propre.
Pas de CSV. Juste des pages.
Extraire
étape zéro
Référence maîtresse
État de la destination, capturé
#
Code
Spéc.
Unité
01
02
03
04
05
06
Chaque décision de correspondance est vérifiée contre cette liste

Ensuite le vrai travail : faire en sorte que les lignes disent la même chose à chaque fois.

Avant — ligne source, telle qu’exportée
Intacte
Code
Description
Spéc.
Unité
Qté
A-▮▮ /▮▮
▮▮ x ▮▮ / ▮▮
▮▮▮
▮ , ▮▮
Nettoyage
Après — même ligne, nettoyée
Prête au jumelage
Code
Description
Spéc.
Unité
Qté
A-▮▮▮▮
▮▮ × ▮▮ × ▮▮
▮▮
▮,▮▮▮
Source — fragments, notation mixte
Nettoyé — champ unique, normalisé

Séquencées par dépendance, pour que chaque passe puisse se fier à la précédente.

Passe 01
Structurelle
Fusionner les fragments. Restaurer les limites de champs avant toute autre chose.
Passe 02
Notation
▮ , ▮▮
▮.▮▮
▮ x ▮
▮ × ▮
▮▮ /▮▮
▮▮/▮▮
Normaliser l’écriture – séparateurs, unités, casse – pour rendre les valeurs comparables.
Passe 03
Correspondance
A-type
cat·1
B-type
cat·2
C-type
cat·3
Traduire les codes source dans le vocabulaire de la destination avec des règles contextuelles par type.
Passe 04
Jumelage flou
≈ 98%
≈ 96%
≈ 92%
signal
Comparer les restants à la référence maîtresse. Appliquer les jumelages au-dessus du seuil ; signaler le reste.

99,5 % appariés automatiquement. 87 signalés pour un humain, chacun avec la raison attachée.

Lignes source
Toutes les lignes en entrée
Chemin du haut
Appliqué automatiquement
Au-dessus du seuil de jumelage
La majorité des lignes. Aucun humain requis. Consigné dans la piste de vérification.
Chemin du bas
Signalé
Avec la raison pour un humain
score flou · 0,81 · sous le seuil
deux candidats · correspondance ambiguë
suffixe d’unité · contexte flou
aucune correspondance · nouvel article ?
Quelques lignes. Chacune arrive avec sa raison – pas de devinette.

Ce mandat a produit un protocole que j'applique maintenant à toute migration de système d'inventaire. La version complète, vingt-et-une techniques, est dans ma bibliothèque de savoir-faire.

Si vous avez un problème qui ressemble à une migration, la première séance, c'est comme ça : une heure sur vos vraies données. Si ça fitte, on continue.

Écrivez-moi →

Projets connexes