did - PII-fjernelse
did pseudonymiserer PII (personfølsomme oplysninger) i tekstdocs til sikker LLM-brug. Erstatter navne med pladsholdere/falske, matcher varianter (John Doe = J.D.).
Producerer parametriske dokumenter: Anonyme filer med konsistente tags ([PER1], [ORG1]). Swap parametre efterfølgende til bias-test, flersprogede prompts eller lokalt tilpassede navne – reproducerbar LLM-analyse uden gen-træning.
Hvorfor did?
- Privatliv: Lokal proces, minimal lækage.
- Kontekst: Sporer entiteter på tværs.
- Bias-kontrol: Køn/etnisk swap for fairness i familieret.
- Compliance: De-ID til deling/analyse (GDPR/ECHR).
Funktioner
- NER PII-detektion.
- Erstatning: fake/placeholder.
- Person-clustering.
- CLI batch/filer.
Installation
uv pip install https://github.com/evidlabel/did.git
did -hBrug
did input.txt --output output.txt --mode fake --swap-genderOptioner:
--mode placeholder|fake: Strategi.--swap-gender|ethnicity: Neutraliser bias.--cluster: Saml varianter.
Eksempel
Input: “John Doe (JD) sagsøgte Jane Smith.”
Output: “[PER1] ([PER1]) sagsøgte [PER2].” (eller “Alex Lee sagsøgte Pat Kim”)