Aller au contenu principal

Deduplication Semantique

Detecte les doublons semantiques dans un ensemble d'entites en comparant leur similarite vectorielle. Fusionne ou signale les doublons trouves.

Parametres

ParametreTypeRequisVariableDescription
inputvaleur dynamiqueNonOuiEntites a analyser pour la detection de doublons. Tableau d'IDs ou d'objets.
entityTypeFilterlisteNonNonTypes d'entites a considerer pour la deduplication.
similarityThresholdnombreNonNonSeuil de similarite (0.0 a 1.0). Plus eleve = detection plus stricte des doublons. (Defaut: 0.85, min 0, max 1)
modechoix (report_only, flag_entities, merge_with_review, auto_merge)NonNonAction sur les doublons : rapport seul, marquage, fusion avec validation, ou fusion automatique. (Defaut: "report_only")
mergeStrategychoix (keep_first, keep_newest, merge_properties, manual_review)NonNonStrategie de fusion : garder le premier, le plus recent, combiner les proprietes, ou validation manuelle. (Defaut: "keep_first")
comparisonFieldslisteNonNonChamps specifiques a comparer pour la similarite entre entites.
batchSizenombreNonNonNombre d'entites par lot pour les comparaisons d'embeddings. (Defaut: 50, min 1, max 1000)
enableLLMNameMatchingoui/nonNonNonActiver le LLM pour affiner la detection des noms similaires (ex. abbreviations, variantes). (Defaut: false)
model.providertexteNonNonFournisseur du modele de langage pour l'affinage des resultats.
model.modeltexteNonNonIdentifiant du modele a utiliser (ex. gpt-4o).
outputVariabletexteNonNonNom de la variable de sortie contenant les groupes de doublons detectes.

Les parametres marques Variable = Oui acceptent la syntaxe {{nomBloc.champ}}.

Sortie

Variable de sortie : deduplicationResult

{
"duplicates": [],
"merged": 0
}

Exemple

Detecter les doublons parmi les leads.

Entree :

{"entityType": "Lead"}

Sortie :

{"duplicates": [{"pair": ["lead-1", "lead-2"], "similarity": 0.95}], "merged": 0}
Astuce

{{deduplicationResult.duplicates}} liste les paires de doublons avec le score de similarite. Ajustez threshold (defaut 0.85) pour controler la sensibilite.