Génère un sitemap.xml et un robots.txt pour un couple site (verticale) / environnement.
Utilise la configuration du site/env stockée sur le github de udata-front-kit pour récupérer les urls à inclure dans le sitemap.xml et les règles du robots.txt.
Envoie les fichiers vers un bucket S3.
Genère toujours un sitemap.xml (peut être une liste vide) et un robots.txt, sauf en cas de crash du script.
Récupérée depuis https://raw.githubusercontent.com/opendatateam/udata-front-kit/refs/heads/{site}-{env}/configs/{site}/config.yaml.
website:
seo:
canonical_url: https://site.data.gouv.fr
meta:
keywords: 'mots-clés, séparés, par, virgules'
description: 'Description du site'
robots: 'index, follow' # 'noindex, nofollow' pour demo/preprod
robots_txt:
disallow:
- /admin
sitemap_xml:
topics_pages:
- bouquets
datasets_pages:
- indicators
dataservices_pages:
- dataservicesENV: environnement cible(demo|preprod|prod)SITE: site (verticale) cible. NB:ecologieest implicitement converti enecosphereslorsque nécessaire.AWS_ACCESS_KEY_ID: utilisateur S3AWS_SECRET_ACCESS_KEY: mot de passe S3AWS_ENDPOINT_URL: url S3AWS_BUCKET: bucket S3 cible (défautufk)GIT_REF: branche pour récupérer la config surudata-front-kit(défaut{site}-{env})
Le stockage se fait sous cette forme :
ufk
└── ecologie
├── demo
│ ├── robots.txt
│ └── sitemap.xml
└── prod
├── robots.txt
└── sitemap.xml
docker build -t udata-front-kit-seo .
docker run -e ENV=demo -e SITE=ecologie -e AWS_ENDPOINT_URL=https://s3.example.com -e AWS_ACCESS_KEY_ID=key -e AWS_SECRET_ACCESS_KEY=secret udata-front-kit-seoLe script et son environnement d'exécution sont déployés par data.gouv.fr.