ClaimMiner

ClaimMiner a été développé par Conversence, à l'origine pour le compte de la SocietyLibrary, afin d'identifier des structures argumentatives dans un corpus de documents. En tant que tel, ClaimMiner offre des fonctionnalités de RAG de base sur des documents, avec une architecture permettant des greffons de tâches d'analyse. Ce projet libre représente la fonctionnalité de base de ClaimMiner, après extraction des analyses propres à la SocietyLibrary. Nous visons une migration progressive de ClaimMiner vers une architecture basée sur les idées de HyperKnowledge, attendez-vous donc à des changements architecturaux majeurs à court terme. En particulier, nous travaillons sur une première implantation des cadrages enchâssés, basée sur LinkML.

Pour l'instant, le flux de données se présente comme suit:

Les documents sont ajoutés au corpus, soit téléversés directement ou via un URL
Les URLs sont téléchargés
Les documents sont découpés en paragraphes
Les enchâssements vectoriels sont calculés pour chaque paragraphe
Un opérateur propose quelques assertions comme point de départ
L'opérateur recherche des paragraphes sémantiquement voisins de chaque assertion
Un système d'AI identifie des arguments dans les paragraphes sélectionnés
Ces arguments sont approuvés et on peut reprendre le cycle.

On y trouve également des fonctions auxiliaires:

ClaimMiner peut effectuer une recherche sémantique à l'aide de GDELT
ClaimMiner peut identifier des regroupements sémantiques denses (clusters) dans le nuage des assertions
ClaimMiner peut effectuer des recherches textuelles ou sémantiques sur les paragraphes ou assertions
ClaimMiner peut effectuer une recherche par pertinence marginale maximale (MMR)