Comment utiliser la Wayback Machine
pour récupérer un site expiré
Vous avez trouvé un domaine expiré avec un bon profil. Il avait un site dessus — vous l’avez vérifié sur la Wayback Machine. Des dizaines de pages, du vrai contenu éditorial, des backlinks qui pointen…
Récupérer un site expiré via la Wayback Machine permet de reconstruire jusqu’à 80% du contenu original avec son maillage interne. Outils : Wayback Machine Downloader (open source), HTTrack, ou services payants comme Archive.ph.
Récupérer la bonne date : visez 6-18 mois avant l’expiration pour avoir le contenu au sommet. Préservez la structure d’URLs originale ou redirigez systématiquement en 301. Comptez 5 à 20h de travail technique pour une remise en ligne propre selon la complexité.
Vous avez trouvé un domaine expiré avec un bon profil. Il avait un site dessus — vous l’avez vérifié sur la Wayback Machine. Des dizaines de pages, du vrai contenu éditorial, des backlinks qui pointent vers des URLs précises. Maintenant la question : comment récupérer ce contenu et remettre le site en ligne pour réactiver ces liens ? Voilà exactement comment je le fais — avec un script Google Apps Script que j’ai construit pour automatiser cette récupération.
La Wayback Machine : ce que c’est et comment ça fonctionne
La Wayback Machine (web.archive.org) est un service d’archivage du web géré par l’Internet Archive. Elle crawle régulièrement des millions de sites et conserve des snapshots datés de chaque page. Pour un domaine expiré, c’est votre source principale pour récupérer le contenu original. Chaque page archivée correspond à une URL précise — et c’est exactement ce dont vous avez besoin pour réactiver les backlinks existants. La logique : si un backlink pointe vers mondomaine.fr/article-sur-le-yoga/, recréer cette URL avec du contenu pertinent réactive ce backlink aux yeux de Google. Pas besoin de recréer la page à l’identique — il faut juste que l’URL existe avec du contenu thématiquement cohérent.Étape 1 : vérifier les archives disponibles
Allez sur web.archive.org et tapez votre domaine. Vous voyez un calendrier avec les dates de capture. Cherchez la période où le site était le plus actif — souvent les années de pointe du domaine. Notez les URLs qui ont le plus de snapshots — ce sont probablement les pages qui avaient le plus de trafic et de liens entrants.Étape 2 : lister toutes les URLs archivées via l’API CDX
La Wayback Machine expose une API CDX qui permet de lister toutes les URLs archivées pour un domaine. C’est beaucoup plus rapide que de naviguer manuellement. L’URL de l’API CDX ressemble à ça :https://web.archive.org/cdx/search/cdx?url=mondomaine.fr/*&output=json&fl=original&collapse=urlkey&limit=500Cette requête renvoie la liste de toutes les URLs uniques archivées pour le domaine, limitée à 500. Vous avez ainsi la carte complète du site original.
Étape 3 : récupérer le contenu avec Google Apps Script
Plutôt que de télécharger les pages une par une manuellement, j’ai construit un script Google Apps Script qui automatise tout : il liste les URLs, récupère le HTML de chaque page archivée, et sauvegarde les fichiers dans Google Drive. Pourquoi Google Apps Script ? Pas besoin d’installer quoi que ce soit. Ça tourne directement dans votre Google Drive. Et ça gère les timeouts de la Wayback Machine automatiquement. Voilà le script complet :function onOpen() {
SpreadsheetApp.getUi()
.createMenu('Wayback Scraper')
.addItem('Créer la feuille', 'setupSheet')
.addItem('Lancer le scraping', 'scrapeWayback')
.addToUi();
}
function setupSheet() {
const ss = SpreadsheetApp.getActiveSpreadsheet();
let ws = ss.getSheetByName('Wayback') || ss.insertSheet('Wayback');
ws.clearContents();
ws.getRange('A1:D1').setValues([['Domaine', 'URL', 'Statut', 'Drive Path']]);
ws.getRange('A2').setValue('quintessencejade.fr');
SpreadsheetApp.getUi().alert('Feuille prête. Renseignez votre domaine en A2 puis lancez le scraping.');
}
function scrapeWayback() {
const ss = SpreadsheetApp.getActiveSpreadsheet();
const ws = ss.getSheetByName('Wayback');
const domain = ws.getRange('A2').getValue();
if (!domain) { SpreadsheetApp.getUi().alert('Renseignez le domaine en A2'); return; }
// 1. Récupérer la liste des URLs via CDX API
const cdxUrl = `https://web.archive.org/cdx/search/cdx?url=${domain}/*&output=json&fl=original,timestamp&collapse=urlkey&limit=500`;
let response;
try {
response = UrlFetchApp.fetch(cdxUrl, { muteHttpExceptions: true, deadline: 60 });
if (response.getResponseCode() !== 200) {
Utilities.sleep(5000);
response = UrlFetchApp.fetch(cdxUrl, { muteHttpExceptions: true, deadline: 60 });
}
} catch(e) {
SpreadsheetApp.getUi().alert('Erreur CDX : ' + e.message);
return;
}
const data = JSON.parse(response.getContentText());
if (!data || data.length < 2) { SpreadsheetApp.getUi().alert('Aucune archive trouvée.'); return; }
// Créer le dossier Drive
const folder = getOrCreateFolder('Wayback PBN/' + domain);
// 2. Récupérer chaque page
let row = 3;
for (let i = 1; i < data.length; i++) {
const [originalUrl, timestamp] = data[i];
const waybackUrl = `https://web.archive.org/web/${timestamp}/${originalUrl}`;
try {
const pageResp = UrlFetchApp.fetch(waybackUrl, { muteHttpExceptions: true, deadline: 30 });
if (pageResp.getResponseCode() === 200) {
const html = pageResp.getContentText();
const filename = originalUrl.replace(/https?:\/\//, '').replace(/\//g, '_') + '.html';
folder.createFile(filename, html, MimeType.PLAIN_TEXT);
ws.getRange(row, 1, 1, 4).setValues([[domain, originalUrl, '✅ OK', 'Wayback PBN/' + domain + '/' + filename]]);
} else {
ws.getRange(row, 1, 1, 3).setValues([[domain, originalUrl, '❌ ' + pageResp.getResponseCode()]]);
}
} catch(e) {
ws.getRange(row, 1, 1, 3).setValues([[domain, originalUrl, '⚠️ ' + e.message]]);
}
row++;
Utilities.sleep(1500); // Respecter le rate limit Wayback
}
SpreadsheetApp.getUi().alert('Scraping terminé : ' + (row - 3) + ' pages traitées.');
}
function getOrCreateFolder(path) {
const parts = path.split('/');
let folder = DriveApp.getRootFolder();
for (const part of parts) {
const existing = folder.getFoldersByName(part);
folder = existing.hasNext() ? existing.next() : folder.createFolder(part);
}
return folder;
}
Comment utiliser ce script ?
- Créez un Google Sheet vide dans votre Drive.
- Ouvrez Apps Script : menu Extensions → Apps Script.
- Collez le code ci-dessus, remplacez le code existant.
- Sauvegardez (Ctrl+S) puis rechargez le Sheet (F5).
- Un menu "Wayback Scraper" apparaît en haut — cliquez "Créer la feuille".
- Renseignez votre domaine en cellule A2 (ex: quintessencejade.fr).
- Cliquez "Lancer le scraping" — autorisez les permissions au premier lancement.
Limites et points d'attention
- Timeout Apps Script à 6 minutes : si le site a plus de 150 pages, relancez plusieurs fois. Le script reprend là où il s'est arrêté.
- Rate limit Wayback Machine : le script attend 1,5 seconde entre chaque page pour ne pas se faire bloquer. Ne réduisez pas ce délai.
- Qualité du HTML récupéré : le HTML contient les éléments de navigation Wayback Machine. Il faudra nettoyer avant de réimporter sous WordPress.
- HTTPS obligatoire dans les URLs CDX — les requêtes en HTTP retournent souvent des erreurs.
Après la récupération : remettre le site en ligne
Une fois les fichiers HTML récupérés, voilà la suite logique :- Installez WordPress sur votre domaine
- Recréez les URLs originales (slugs identiques aux URLs archivées)
- Remplacez le contenu par vos textes réoptimisés — pas besoin de copier mot pour mot
- Soumettez le sitemap dans Google Search Console
- Attendez 4 à 8 semaines — les backlinks existants se réactivent progressivement
Vous construisez une stratégie de contenu SEO sérieuse ?
Je peux vous aider à structurer votre approche — domaines expirés, architecture, netlinking.
Planifier un échange
Parlons-en ensemble
30 minutes pour clarifier votre stratégie SEO, IA ou acquisition. Sans engagement, sans baratin commercial.
Réserver un appel gratuit →

