Illustration style plan d'ingénierie – anonymiseur de transcriptions d'entrevues

Un anonymiseur qui roule sur votre portable

Une transcription d'entrevue de 60 minutes prend de 2 à 4 heures à anonymiser à la main pour une assistante de recherche. Cet outil le fait en environ 5 secondes – et la même IA locale caviarde tout document contenant des renseignements personnels que votre équipe ne peut pas envoyer au nuage.

Ce que ça peut faire pour votre organisation

Si votre équipe manipule des documents qui contiennent des renseignements personnels – et que ces documents ne peuvent pas être envoyés à une IA infonuagique pour une raison ou une autre (comités d'éthique, ententes de confidentialité d'entreprise, secret professionnel, confidentialité des appels d'offres, promesses faites aux participants, sensibilité concurrentielle) – anonymiser à la main, c'est la taxe que votre équipe paie entre la collecte des données et leur utilisation. Transcriptions de recherche, documents juridiques, réponses d'appels d'offres, notes cliniques, correspondance client, brouillons de révision interne – la douleur se ressemble d'un domaine à l'autre. Une personne formée passe des heures par document, sur des dizaines de documents, et soit l'échéancier du projet s'étire, soit le travail se fait couper.

C'est ce que je fais : une petite IA réglée spécifiquement pour repérer les renseignements personnels dans le type de document avec lequel vous travaillez – pas un modèle infonuagique généraliste, un détecteur local inclus dans une application de bureau qui roule hors ligne sur le portable de votre équipe. Pas d'aller-retour infonuagique. Pas d'API externe. Aucune donnée ne quitte la machine. Sarah Thompson devient Participant-07 dans chaque document où elle apparaît – ou Fournisseur-B, ou Client-03, le schéma de pseudonymes qui convient à votre domaine – avec un index de réhydratation gardé localement pour que vous puissiez vérifier contre l'original quand une revue, un évaluateur, un client ou un vérificateur le demande.

L'effet pratique : la tâche d'anonymisation de plusieurs jours devient une pause-café, et l'histoire de conformité dont votre comité d'éthique, votre responsable de la protection des renseignements personnels ou votre équipe juridique a besoin – les données n'ont pas quitté la machine, les pseudonymes sont cohérents sur toute la fournée, la clé reste locale – est intégrée dans l'outil, pas boulonnée à la fin. Le même patron de réglage s'adapte à tout nouveau type de document : format différent, taxonomie d'identifiants différente, convention de pseudonymes différente. J'ai bâti la version pour les transcriptions de recherche ; je peux bâtir la vôtre.

Ce que votre équipe récupère

Une démonstration sur vos vraies données en premier – pour que vous voyiez ce que l'outil fait sur vos propres documents, pas sur un exemple synthétique. Si la forme convient, vous recevez une application de bureau Windows personnalisée que votre équipe installe sur ses portables, réglée pour votre format de document et votre taxonomie d'identifiants (codes de participants, numéros de contrat, identifiants clients, formats d'identifiants cliniques, patrons d'adresses régionales – ce que votre domaine demande). L'index de réhydratation vit seulement sur la machine de l'utilisateur – vous pouvez vérifier contre l'original quand quelqu'un le demande, et détruire la correspondance quand vous avez terminé. Étendre plus tard à un autre type de document roule le même protocole de réglage sur les nouvelles données.

Si votre cas d'utilisation est l'inverse – vous voulez la vitesse d'une IA infonuagique mais vous avez besoin d'une frontière de confidentialité devant – l'anonymiseur de CV de l'autre côté de ce site est la variante par courriel : même ensemble de règles, même couverture des renseignements personnels, roule comme service en sol canadien au lieu de sur votre portable.

Comment je l'ai fait

Si vous faites passer des entrevues pour vivre, vous connaissez la taxe du caviardage. Une assistante de recherche prend de 2 à 4 heures pour anonymiser à la main une seule transcription d'une entrevue de 60 minutes. Une étude qualitative compte typiquement de 15 à 40 entrevues. Les outils d'IA infonuagique vers lesquels vous vous tourneriez en premier sont refusés par les comités d'éthique et les ententes de confidentialité d'entreprise dès que « les données quittent l'ordinateur du participant » entre en jeu. Alors vous caviardez à la main, ou vous ne faites pas le projet. J'ai bâti une application de bureau Windows qui fait toute la fournée en environ cinq secondes par transcription, sur votre portable, sans rien téléverser nulle part – propulsée par une petite IA que j'ai réglée sur mesure pour repérer les renseignements personnels dans les transcriptions. Pas d'aller-retour infonuagique, pas d'appel d'API externe, aucune donnée qui quitte la machine.

Déposez un dossier. Tout ce dont l'application a besoin pour faire sa job est inclus dans l'installation.

Anonymiseur de transcriptions d’entrevues

–▫×

Dossier d’entrée

C:\Research\Study-03\Transcripts\

Transcriptions détectées

12 fichiers · 8.4 MB

INTERVIEW 01 · 58 min.docx

0.7 MB

INTERVIEW 02 · 62 min.docx

0.8 MB

INTERVIEW 03 · 54 min.docx

0.6 MB

INTERVIEW 04 · 71 min.docx

0.9 MB

INTERVIEW 05 · 60 min.docx

0.7 MB

…et 7 autres

4.7 MB

✓

Retirer les métadonnées Word

✓

Anonymiser les noms de fichiers

Liste d’entités complémentaire…

Hors ligne · rien ne quitte cet ordinateur

Noms, organisations, numéros de téléphone, codes postaux, identifiants nationaux – tous remplacés sur place, avec les diacritiques gérés correctement.

Avant · transcription brute

INTERVIEW 07.docx

…J’ai rejoint Imperial College London en 2019, et Dr. Sarah Thompson dirigeait déjà le volet qualitatif de l’étude. Notre bureau était au SW7 2AZ, les appels passaient par le +44 20 7946 0958.

Sarah avait une règle sur les questions d’échauffement. À la troisième année, on était quatre – moi, Sarah, un postdoc nommé Müller, et une doctorante rotative de Apex Analytics.

7 identifiants détectés

1 of 12

~5 SEC

Lot

Après · anonymisé

INTERVIEW Participant-07.docx

…J’ai rejoint Organisation-A en 2019, et Participant-07 dirigeait déjà le volet qualitatif de l’étude. Notre bureau était au [CODE POSTAL], les appels passaient par le [TÉLÉPHONE].

Participant-07 avait une règle sur les questions d’échauffement. À la troisième année, on était quatre – moi, Participant-07, un postdoc nommé Participant-12, et une doctorante rotative de Organisation-B.

7 remplacés · de façon cohérente

1 of 12

La cohérence sur toute la fournée, c'est ce qui fait la différence. Dr. Sarah Thompson devient Participant-07 dans chaque transcription où elle apparaît.

Local seulement

Le fichier de clé ne quitte jamais votre ordinateur.

Jamais téléchargé
Jamais journalisé
Jamais transmis
Supprimez-le pour détruire le lien

rehydration-index.json

local · 4 KB

{

"participants": {

"Participant-01": "Dr. Sarah Thompson",

"Participant-02": "James Müller",

"Participant-03": "Aisha Okonkwo"

"organisations": {

"Organisation-A": "Imperial College London"

}

un seul fichier, stocké localement, réversible par vous seul

Cinq secondes par transcription. Vingt-cinq transcriptions, c'est une pause-café, pas deux semaines de travail.

Anonymiseur de transcriptions · en cours…

–▫×

Tâche en cours

Anonymisation de INTERVIEW 08 · 64 min.docx

Écoulé

00:00:37

7 of 12 · 58%

✓

INTERVIEW 01 · 58 min.docx

4.2s · 6 identifiants

✓

INTERVIEW 02 · 62 min.docx

5.1s · 9 identifiants

✓

INTERVIEW 03 · 54 min.docx

3.8s · 5 identifiants

✓

INTERVIEW 04 · 71 min.docx

6.3s · 11 identifiants

✓

INTERVIEW 05 · 60 min.docx

4.6s · 7 identifiants

✓

INTERVIEW 06 · 67 min.docx

5.4s · 8 identifiants

✓

INTERVIEW 07 · 55 min.docx

4.0s · 6 identifiants

INTERVIEW 08 · 64 min.docx

en cours…

INTERVIEW 09 · 59 min.docx

en attente

…3 de plus en attente

Zéro appel réseau · tout le traitement se fait sur cet ordinateur

≈ 25 secondes restantes

Les noms de fichiers aussi sont anonymisés. `ENTREVUE SARAH THOMPSON.docx` ne traîne pas dans votre dossier de sortie en criant le nom que vous venez d'enlever du corps du texte.

Entrée · transcriptions brutes

Study-03\Transcripts\

–▫×

Nom

Taille

INTERVIEW SARAH THOMPSON.docx

0.7 MB

INTERVIEW JAMES MULLER.docx

0.8 MB

INTERVIEW AISHA OKONKWO.docx

0.6 MB

INTERVIEW CARLOS MENDOZA.docx

0.9 MB

INTERVIEW EMMA KOWALSKI.docx

0.7 MB

INTERVIEW YUSUF AL-RASHID.docx

0.8 MB

INTERVIEW PRIYA CHAKRABARTI.docx

0.6 MB

INTERVIEW MARCUS BENEDETTI.docx

0.9 MB

…et 4 autres

3.1 MB

12 items

8.4 MB

Sortie · anonymisées

Study-03\Anonymized\

–▫×

Nom

Taille

INTERVIEW Participant-01.docx

0.7 MB

INTERVIEW Participant-02.docx

0.8 MB

INTERVIEW Participant-03.docx

0.6 MB

INTERVIEW Participant-04.docx

0.9 MB

INTERVIEW Participant-05.docx

0.7 MB

INTERVIEW Participant-06.docx

0.8 MB

INTERVIEW Participant-07.docx

0.6 MB

INTERVIEW Participant-08.docx

0.9 MB

…et 4 autres · Participant-09..12

3.1 MB

12 items

8.4 MB

Ce qui fait rouler la version hors ligne, c'est la petite IA en dessous – réglée sur mesure pour cette tâche, pas un modèle infonuagique généraliste. Et j'ai bâti un protocole pour régler des détecteurs locaux de renseignements personnels comme celui-ci sur différents espaces de problèmes : transcriptions d'entrevues aujourd'hui, mais la même approche s'adapte aux notes cliniques, aux documents juridiques, aux journaux de service à la clientèle, aux billets de soutien – toute chaîne de données où des noms, des lieux et des identifiants doivent sortir avant que les données bougent. Domaine différent, même patron de réglage. Le cahier de règles d'anonymisation – quoi enlever, quoi garder, comment rester cohérent d'un bout à l'autre d'une fournée – est partagé avec l'anonymiseur de CV de l'autre côté de ce site.

Si vous avez besoin d'une version sur mesure – un autre format de document, une autre taxonomie d'identifiants, un détecteur réglé pour votre propre espace de problèmes, ou une démonstration sur vos propres transcriptions avant de vous engager – écrivez-moi.

Écrivez-moi →

Un anonymiseur qui roule sur votre portable

Ce que ça peut faire pour votre organisation

Ce que votre équipe récupère

Comment je l'ai fait

Projets connexes

Un anonymiseur de CV qui enlève l'identité avant que la moindre IA ne le lise

Loi 25 – et comment je la gère

Dix-huit ans de courriels, transformés en bibliothèque de patrons