Mon contenu n’apparaît pas (ou partiellement) dans Semji — que faire
Diagnostiquer et corriger les causes fréquentes d’une extraction de contenu incomplète dans Semji
Vérification de l'extraction de contenu
Première chose à vérifier — relancer un crawl de la page
- Depuis Page : cliquez sur Mettre à jour et vérifier si votre contenu remonte correctement.
- Depuis l’éditeur : Roue crantée → Synchroniser avec le site web.
⚠️ Au moindre changement sur vos pages ou votre CMS (ex. ajout d’une colonne/bloc, modification du template, classes CSS, composants JS, URL), la configuration de l’extracteur peut ne plus fonctionner et le contenu peut ne plus remonter dans Semji.
Ce qui casse l’extraction (exemples)
- Changement de template ou de balisage HTML
- Renommage de classes CSS ou d’IDs
- Ajout/suppression de blocs, colonnes, sections
- Contenu rendu côté client (JavaScript)
- Lazy‑loading, accordéons, carrousels, rendu après interaction
- Restrictions d’accès et sécurité
- Pages derrière login, IP allowlist, paywall, SSO
- WAF/CDN, anti‑bot, Captcha, blocage de l’User‑Agent
- Directives SEO et robots
- robots.txt (Disallow), meta robots, X‑Robots‑Tag
- Variations d’URL et canonicals
- Changement d’URL sans 301, canonical pointant ailleurs
Que faire si le contenu n’apparaît plus
- Après un changement de template/balisage (même anodin : ajout d'un bloc, d'une colonne, modification d'une classe CSS)
- Partagez les URLs concernés au support Semji. Nous mettrons à jour la configuration de l’extracteur.
- Si le contenu est injecté via JS
- Préférer un rendu serveur des blocs critiques ou fournissez les sélecteurs et conditions d’affichage.
- Si l’accès est restreint
- Autorisez l’User‑Agent d’extraction, ajoutez une allowlist IP, ou fournissez des accès dédiés.
- Si robots/canonicals bloquent
- Ajustez robots.txt, meta/X‑Robots‑Tag et canonicals pour cibler la page analysée.
- Si l’URL a changé
- Mettez en place des redirections 301 stables. Évitez les 302 temporaires non voulues.
Informations à fournir au support Semji
- URLs concernées
- Description précise du changement (template, CSS, robots, redirections) et les blocs/informations que vous ne voyez plus apparaître