Méthodologie
Pourquijevote est une plateforme civique non-partisane. Notre objectif est d'aider les citoyens à comprendre les responsables politiques français à partir de matériaux vérifiés, datés, sourcés et faciles à naviguer.
Principe central
Chaque affirmation présentée comme factuelle doit être liée à une source.
Architecture des données
- Personnalités, partis, affiliations et événements de carrière.
- Sources avec niveau de fiabilité (officiel, institutionnel, média, archive, collaboratif).
- Discours, écrits, vidéos liés à des sources d'origine.
- Citations, positions par thème, promesses, actions, affaires juridiques.
- Toute extraction par IA conserve : modèle, version du prompt, identifiants des sources, date, niveau de confiance.
Tri éditorial des contenus
Sur chaque profil de personnalité, l'onglet « Discours » ne présente que des contenus par la personnalité (discours, entretiens, tribunes, communiqués), jamais des articles de presse à propos d'elle. Chaque contenu est classé par un système déterministe et indépendant de tout modèle d'IA :
- Rôle (
by/about/mention) détecté à partir du domaine source, des verbes (« dénonce », « réagit »…), du suffixe de presse (« | TF1 INFO ») et des motifs de titre. - Format : entretien long, discours, tribune, communiqué, article, clip court, direct, post réseaux. Les entretiens longs et discours sont mis en avant en premier.
- Score qualité 0–100 et niveau (
high/medium/low/excluded) basé sur la longueur, la présence d'une transcription manuelle, et l'absence de signaux off-topic (sport, people). - Un module IA optionnel peut affiner ce score, mais le résultat reste exploitable sans aucun appel à un modèle externe — la qualité ne dépend pas du fournisseur d'IA configuré.
Enrichissement IA des contenus
Pour chaque contenu de qualité high ou medium attribué à une personnalité, un orchestrateur enchaîne trois prompts français versionnés (summarize_content_v2, extract_promises_v2, classify_positions_v2) :
- Un résumé neutre de 2 à 4 phrases est ajouté à chaque discours et entretien. Il met en avant les points factuels et ignore les jugements de valeur. Modèle, version du prompt et date sont enregistrés à côté de chaque résumé.
- Les promesses ne sont retenues que si elles sont explicites, concrètes (cible chiffrée, calendrier, réforme nommée) et attribuables à l'orateur. Le texte de la promesse est une citation littérale du contenu source ; chaque promesse pointe vers son contenu et sa source d'origine.
- Les positions politiques sont classées par thème (économie, Europe, sécurité, environnement, …) et datées à partir de la date de publication du contenu source. C'est ce qui permet de tracer l'évolution chronologique des idées sur l'onglet « Idées » : chaque position conserve sa phrase de preuve (
evidence_phrase) et un niveau de confiance.
Toute extraction par IA est traçable : la table ai_extraction_runs conserve le modèle utilisé, la version du prompt, le hash de l'input, la sortie JSON et la confiance. Le pipeline est idempotent : repasser l'enrichissement ne ré-écrit que les contenus dont la version de prompt a changé.
Statut juridique des informations
Les affaires judiciaires sont décrites par leur statut procédural : rumeur, plainte, enquête, mise en examen, procès, condamnation (en première instance, en appel, définitive), relaxe, classement.