Deduplication Semantique
Detecte les doublons semantiques dans un ensemble d'entites en comparant leur similarite vectorielle. Fusionne ou signale les doublons trouves.
Parametres
| Parametre | Type | Requis | Variable | Description |
|---|---|---|---|---|
input | valeur dynamique | Non | Oui | Entites a analyser pour la detection de doublons. Tableau d'IDs ou d'objets. |
entityTypeFilter | liste | Non | Non | Types d'entites a considerer pour la deduplication. |
similarityThreshold | nombre | Non | Non | Seuil de similarite (0.0 a 1.0). Plus eleve = detection plus stricte des doublons. (Defaut: 0.85, min 0, max 1) |
mode | choix (report_only, flag_entities, merge_with_review, auto_merge) | Non | Non | Action sur les doublons : rapport seul, marquage, fusion avec validation, ou fusion automatique. (Defaut: "report_only") |
mergeStrategy | choix (keep_first, keep_newest, merge_properties, manual_review) | Non | Non | Strategie de fusion : garder le premier, le plus recent, combiner les proprietes, ou validation manuelle. (Defaut: "keep_first") |
comparisonFields | liste | Non | Non | Champs specifiques a comparer pour la similarite entre entites. |
batchSize | nombre | Non | Non | Nombre d'entites par lot pour les comparaisons d'embeddings. (Defaut: 50, min 1, max 1000) |
enableLLMNameMatching | oui/non | Non | Non | Activer le LLM pour affiner la detection des noms similaires (ex. abbreviations, variantes). (Defaut: false) |
model.provider | texte | Non | Non | Fournisseur du modele de langage pour l'affinage des resultats. |
model.model | texte | Non | Non | Identifiant du modele a utiliser (ex. gpt-4o). |
outputVariable | texte | Non | Non | Nom de la variable de sortie contenant les groupes de doublons detectes. |
Les parametres marques Variable = Oui acceptent la syntaxe
{{nomBloc.champ}}.
Sortie
Variable de sortie : deduplicationResult
{
"duplicates": [],
"merged": 0
}
Exemple
Detecter les doublons parmi les leads.
Entree :
{"entityType": "Lead"}
Sortie :
{"duplicates": [{"pair": ["lead-1", "lead-2"], "similarity": 0.95}], "merged": 0}
Astuce
{{deduplicationResult.duplicates}} liste les paires de doublons avec le score de similarite. Ajustez threshold (defaut 0.85) pour controler la sensibilite.