ClaimMiner a été développé par Conversence, à l'origine pour le compte de la SocietyLibrary, afin d'identifier des structures argumentatives dans un corpus de documents. En tant que tel, ClaimMiner offre des fonctionnalités de RAG de base sur des documents, avec une architecture permettant des greffons de tâches d'analyse. Ce projet libre représente la fonctionnalité de base de ClaimMiner, après extraction des analyses propres à la SocietyLibrary. Nous visons une migration progressive de ClaimMiner vers une architecture basée sur les idées de HyperKnowledge, attendez-vous donc à des changements architecturaux majeurs à court terme. En particulier, nous travaillons sur une première implantation des cadrages enchâssés, basée sur LinkML.
Pour l'instant, le flux de données se présente comme suit:
- Les documents sont ajoutés au corpus, soit téléversés directement ou via un URL
- Les URLs sont téléchargés
- Les documents sont découpés en paragraphes
- Les enchâssements vectoriels sont calculés pour chaque paragraphe
- Un opérateur propose quelques assertions comme point de départ
- L'opérateur recherche des paragraphes sémantiquement voisins de chaque assertion
- Un système d'AI identifie des arguments dans les paragraphes sélectionnés
- Ces arguments sont approuvés et on peut reprendre le cycle.
On y trouve également des fonctions auxiliaires:
- ClaimMiner peut effectuer une recherche sémantique à l'aide de GDELT
- ClaimMiner peut identifier des regroupements sémantiques denses (clusters) dans le nuage des assertions
- ClaimMiner peut effectuer des recherches textuelles ou sémantiques sur les paragraphes ou assertions
- ClaimMiner peut effectuer une recherche par pertinence marginale maximale (MMR)