did - PII-fjernelse

did - PII-fjernelse

did pseudonymiserer PII (personfølsomme oplysninger) i tekstdocs til sikker LLM-brug. Erstatter navne med pladsholdere/falske, matcher varianter (John Doe = J.D.).

Producerer parametriske dokumenter: Anonyme filer med konsistente tags ([PER1], [ORG1]). Swap parametre efterfølgende til bias-test, flersprogede prompts eller lokalt tilpassede navne – reproducerbar LLM-analyse uden gen-træning.

Hvorfor did?

  • Privatliv: Lokal proces, minimal lækage.
  • Kontekst: Sporer entiteter på tværs.
  • Bias-kontrol: Køn/etnisk swap for fairness i familieret.
  • Compliance: De-ID til deling/analyse (GDPR/ECHR).

Funktioner

  • NER PII-detektion.
  • Erstatning: fake/placeholder.
  • Person-clustering.
  • CLI batch/filer.

Installation

uv pip install https://github.com/evidlabel/did.git
did -h

Brug

did input.txt --output output.txt --mode fake --swap-gender

Optioner:

  • --mode placeholder|fake: Strategi.
  • --swap-gender|ethnicity: Neutraliser bias.
  • --cluster: Saml varianter.

Eksempel

Input: “John Doe (JD) sagsøgte Jane Smith.”

Output: “[PER1] ([PER1]) sagsøgte [PER2].” (eller “Alex Lee sagsøgte Pat Kim”)

GitHub