Un anonymiseur qui roule sur votre portable
Une transcription d'entrevue de 60 minutes prend de 2 à 4 heures à anonymiser à la main pour une assistante de recherche. Cet outil le fait en environ 5 secondes – et la même IA locale caviarde tout document contenant des renseignements personnels que votre équipe ne peut pas envoyer au nuage.
Ce que ça peut faire pour votre organisation
Si votre équipe manipule des documents qui contiennent des renseignements personnels – et que ces documents ne peuvent pas être envoyés à une IA infonuagique pour une raison ou une autre (comités d'éthique, ententes de confidentialité d'entreprise, secret professionnel, confidentialité des appels d'offres, promesses faites aux participants, sensibilité concurrentielle) – anonymiser à la main, c'est la taxe que votre équipe paie entre la collecte des données et leur utilisation. Transcriptions de recherche, documents juridiques, réponses d'appels d'offres, notes cliniques, correspondance client, brouillons de révision interne – la douleur se ressemble d'un domaine à l'autre. Une personne formée passe des heures par document, sur des dizaines de documents, et soit l'échéancier du projet s'étire, soit le travail se fait couper.
C'est ce que je fais : une petite IA réglée spécifiquement pour repérer les renseignements personnels dans le type de document avec lequel vous travaillez – pas un modèle infonuagique généraliste, un détecteur local inclus dans une application de bureau qui roule hors ligne sur le portable de votre équipe. Pas d'aller-retour infonuagique. Pas d'API externe. Aucune donnée ne quitte la machine. Sarah Thompson devient Participant-07 dans chaque document où elle apparaît – ou Fournisseur-B, ou Client-03, le schéma de pseudonymes qui convient à votre domaine – avec un index de réhydratation gardé localement pour que vous puissiez vérifier contre l'original quand une revue, un évaluateur, un client ou un vérificateur le demande.
L'effet pratique : la tâche d'anonymisation de plusieurs jours devient une pause-café, et l'histoire de conformité dont votre comité d'éthique, votre responsable de la protection des renseignements personnels ou votre équipe juridique a besoin – les données n'ont pas quitté la machine, les pseudonymes sont cohérents sur toute la fournée, la clé reste locale – est intégrée dans l'outil, pas boulonnée à la fin. Le même patron de réglage s'adapte à tout nouveau type de document : format différent, taxonomie d'identifiants différente, convention de pseudonymes différente. J'ai bâti la version pour les transcriptions de recherche ; je peux bâtir la vôtre.
Ce que votre équipe récupère
Une démonstration sur vos vraies données en premier – pour que vous voyiez ce que l'outil fait sur vos propres documents, pas sur un exemple synthétique. Si la forme convient, vous recevez une application de bureau Windows personnalisée que votre équipe installe sur ses portables, réglée pour votre format de document et votre taxonomie d'identifiants (codes de participants, numéros de contrat, identifiants clients, formats d'identifiants cliniques, patrons d'adresses régionales – ce que votre domaine demande). L'index de réhydratation vit seulement sur la machine de l'utilisateur – vous pouvez vérifier contre l'original quand quelqu'un le demande, et détruire la correspondance quand vous avez terminé. Étendre plus tard à un autre type de document roule le même protocole de réglage sur les nouvelles données.
Si votre cas d'utilisation est l'inverse – vous voulez la vitesse d'une IA infonuagique mais vous avez besoin d'une frontière de confidentialité devant – l'anonymiseur de CV de l'autre côté de ce site est la variante par courriel : même ensemble de règles, même couverture des renseignements personnels, roule comme service en sol canadien au lieu de sur votre portable.
Comment je l'ai fait
Si vous faites passer des entrevues pour vivre, vous connaissez la taxe du caviardage. Une assistante de recherche prend de 2 à 4 heures pour anonymiser à la main une seule transcription d'une entrevue de 60 minutes. Une étude qualitative compte typiquement de 15 à 40 entrevues. Les outils d'IA infonuagique vers lesquels vous vous tourneriez en premier sont refusés par les comités d'éthique et les ententes de confidentialité d'entreprise dès que « les données quittent l'ordinateur du participant » entre en jeu. Alors vous caviardez à la main, ou vous ne faites pas le projet. J'ai bâti une application de bureau Windows qui fait toute la fournée en environ cinq secondes par transcription, sur votre portable, sans rien téléverser nulle part – propulsée par une petite IA que j'ai réglée sur mesure pour repérer les renseignements personnels dans les transcriptions. Pas d'aller-retour infonuagique, pas d'appel d'API externe, aucune donnée qui quitte la machine.
Déposez un dossier. Tout ce dont l'application a besoin pour faire sa job est inclus dans l'installation.
Noms, organisations, numéros de téléphone, codes postaux, identifiants nationaux – tous remplacés sur place, avec les diacritiques gérés correctement.
…J’ai rejoint Imperial College London en 2019, et Dr. Sarah Thompson dirigeait déjà le volet qualitatif de l’étude. Notre bureau était au SW7 2AZ, les appels passaient par le +44 20 7946 0958.
Sarah avait une règle sur les questions d’échauffement. À la troisième année, on était quatre – moi, Sarah, un postdoc nommé Müller, et une doctorante rotative de Apex Analytics.
…J’ai rejoint Organisation-A en 2019, et Participant-07 dirigeait déjà le volet qualitatif de l’étude. Notre bureau était au [CODE POSTAL], les appels passaient par le [TÉLÉPHONE].
Participant-07 avait une règle sur les questions d’échauffement. À la troisième année, on était quatre – moi, Participant-07, un postdoc nommé Participant-12, et une doctorante rotative de Organisation-B.
La cohérence sur toute la fournée, c'est ce qui fait la différence. Dr. Sarah Thompson devient Participant-07 dans chaque transcription où elle apparaît.
- Jamais téléchargé
- Jamais journalisé
- Jamais transmis
- Supprimez-le pour détruire le lien
Cinq secondes par transcription. Vingt-cinq transcriptions, c'est une pause-café, pas deux semaines de travail.
Les noms de fichiers aussi sont anonymisés. `ENTREVUE SARAH THOMPSON.docx` ne traîne pas dans votre dossier de sortie en criant le nom que vous venez d'enlever du corps du texte.
Ce qui fait rouler la version hors ligne, c'est la petite IA en dessous – réglée sur mesure pour cette tâche, pas un modèle infonuagique généraliste. Et j'ai bâti un protocole pour régler des détecteurs locaux de renseignements personnels comme celui-ci sur différents espaces de problèmes : transcriptions d'entrevues aujourd'hui, mais la même approche s'adapte aux notes cliniques, aux documents juridiques, aux journaux de service à la clientèle, aux billets de soutien – toute chaîne de données où des noms, des lieux et des identifiants doivent sortir avant que les données bougent. Domaine différent, même patron de réglage. Le cahier de règles d'anonymisation – quoi enlever, quoi garder, comment rester cohérent d'un bout à l'autre d'une fournée – est partagé avec l'anonymiseur de CV de l'autre côté de ce site.
Si vous avez besoin d'une version sur mesure – un autre format de document, une autre taxonomie d'identifiants, un détecteur réglé pour votre propre espace de problèmes, ou une démonstration sur vos propres transcriptions avant de vous engager – écrivez-moi.