Wayback Machine · Récupération

Comment utiliser la Wayback Machine
pour récupérer un site expiré

Vous avez trouvé un domaine expiré avec un bon profil. Il avait un site dessus — vous l’avez vérifié sur la Wayback Machine. Des dizaines de pages, du vrai contenu éditorial, des backlinks qui pointen…

Réponse rapideEn 30 secondes

Récupérer un site expiré via la Wayback Machine permet de reconstruire jusqu’à 80% du contenu original avec son maillage interne. Outils : Wayback Machine Downloader (open source), HTTrack, ou services payants comme Archive.ph.

Récupérer la bonne date : visez 6-18 mois avant l’expiration pour avoir le contenu au sommet. Préservez la structure d’URLs originale ou redirigez systématiquement en 301. Comptez 5 à 20h de travail technique pour une remise en ligne propre selon la complexité.

Vous avez trouvé un domaine expiré avec un bon profil. Il avait un site dessus — vous l’avez vérifié sur la Wayback Machine. Des dizaines de pages, du vrai contenu éditorial, des backlinks qui pointent vers des URLs précises. Maintenant la question : comment récupérer ce contenu et remettre le site en ligne pour réactiver ces liens ? Voilà exactement comment je le fais — avec un script Google Apps Script que j’ai construit pour automatiser cette récupération.

La Wayback Machine : ce que c’est et comment ça fonctionne

La Wayback Machine (web.archive.org) est un service d’archivage du web géré par l’Internet Archive. Elle crawle régulièrement des millions de sites et conserve des snapshots datés de chaque page. Pour un domaine expiré, c’est votre source principale pour récupérer le contenu original. Chaque page archivée correspond à une URL précise — et c’est exactement ce dont vous avez besoin pour réactiver les backlinks existants. La logique : si un backlink pointe vers mondomaine.fr/article-sur-le-yoga/, recréer cette URL avec du contenu pertinent réactive ce backlink aux yeux de Google. Pas besoin de recréer la page à l’identique — il faut juste que l’URL existe avec du contenu thématiquement cohérent.

Étape 1 : vérifier les archives disponibles

Allez sur web.archive.org et tapez votre domaine. Vous voyez un calendrier avec les dates de capture. Cherchez la période où le site était le plus actif — souvent les années de pointe du domaine. Notez les URLs qui ont le plus de snapshots — ce sont probablement les pages qui avaient le plus de trafic et de liens entrants.

Étape 2 : lister toutes les URLs archivées via l’API CDX

La Wayback Machine expose une API CDX qui permet de lister toutes les URLs archivées pour un domaine. C’est beaucoup plus rapide que de naviguer manuellement. L’URL de l’API CDX ressemble à ça :
https://web.archive.org/cdx/search/cdx?url=mondomaine.fr/*&output=json&fl=original&collapse=urlkey&limit=500
Cette requête renvoie la liste de toutes les URLs uniques archivées pour le domaine, limitée à 500. Vous avez ainsi la carte complète du site original.

Étape 3 : récupérer le contenu avec Google Apps Script

Plutôt que de télécharger les pages une par une manuellement, j’ai construit un script Google Apps Script qui automatise tout : il liste les URLs, récupère le HTML de chaque page archivée, et sauvegarde les fichiers dans Google Drive. Pourquoi Google Apps Script ? Pas besoin d’installer quoi que ce soit. Ça tourne directement dans votre Google Drive. Et ça gère les timeouts de la Wayback Machine automatiquement. Voilà le script complet :
function onOpen() {
  SpreadsheetApp.getUi()
    .createMenu('Wayback Scraper')
    .addItem('Créer la feuille', 'setupSheet')
    .addItem('Lancer le scraping', 'scrapeWayback')
    .addToUi();
}

function setupSheet() {
  const ss = SpreadsheetApp.getActiveSpreadsheet();
  let ws = ss.getSheetByName('Wayback') || ss.insertSheet('Wayback');
  ws.clearContents();
  ws.getRange('A1:D1').setValues([['Domaine', 'URL', 'Statut', 'Drive Path']]);
  ws.getRange('A2').setValue('quintessencejade.fr');
  SpreadsheetApp.getUi().alert('Feuille prête. Renseignez votre domaine en A2 puis lancez le scraping.');
}

function scrapeWayback() {
  const ss = SpreadsheetApp.getActiveSpreadsheet();
  const ws = ss.getSheetByName('Wayback');
  const domain = ws.getRange('A2').getValue();
  if (!domain) { SpreadsheetApp.getUi().alert('Renseignez le domaine en A2'); return; }

  // 1. Récupérer la liste des URLs via CDX API
  const cdxUrl = `https://web.archive.org/cdx/search/cdx?url=${domain}/*&output=json&fl=original,timestamp&collapse=urlkey&limit=500`;
  let response;
  try {
    response = UrlFetchApp.fetch(cdxUrl, { muteHttpExceptions: true, deadline: 60 });
    if (response.getResponseCode() !== 200) {
      Utilities.sleep(5000);
      response = UrlFetchApp.fetch(cdxUrl, { muteHttpExceptions: true, deadline: 60 });
    }
  } catch(e) {
    SpreadsheetApp.getUi().alert('Erreur CDX : ' + e.message);
    return;
  }

  const data = JSON.parse(response.getContentText());
  if (!data || data.length < 2) { SpreadsheetApp.getUi().alert('Aucune archive trouvée.'); return; }

  // Créer le dossier Drive
  const folder = getOrCreateFolder('Wayback PBN/' + domain);

  // 2. Récupérer chaque page
  let row = 3;
  for (let i = 1; i < data.length; i++) {
    const [originalUrl, timestamp] = data[i];
    const waybackUrl = `https://web.archive.org/web/${timestamp}/${originalUrl}`;
    try {
      const pageResp = UrlFetchApp.fetch(waybackUrl, { muteHttpExceptions: true, deadline: 30 });
      if (pageResp.getResponseCode() === 200) {
        const html = pageResp.getContentText();
        const filename = originalUrl.replace(/https?:\/\//, '').replace(/\//g, '_') + '.html';
        folder.createFile(filename, html, MimeType.PLAIN_TEXT);
        ws.getRange(row, 1, 1, 4).setValues([[domain, originalUrl, '✅ OK', 'Wayback PBN/' + domain + '/' + filename]]);
      } else {
        ws.getRange(row, 1, 1, 3).setValues([[domain, originalUrl, '❌ ' + pageResp.getResponseCode()]]);
      }
    } catch(e) {
      ws.getRange(row, 1, 1, 3).setValues([[domain, originalUrl, '⚠️ ' + e.message]]);
    }
    row++;
    Utilities.sleep(1500); // Respecter le rate limit Wayback
  }
  SpreadsheetApp.getUi().alert('Scraping terminé : ' + (row - 3) + ' pages traitées.');
}

function getOrCreateFolder(path) {
  const parts = path.split('/');
  let folder = DriveApp.getRootFolder();
  for (const part of parts) {
    const existing = folder.getFoldersByName(part);
    folder = existing.hasNext() ? existing.next() : folder.createFolder(part);
  }
  return folder;
}

Comment utiliser ce script ?

  1. Créez un Google Sheet vide dans votre Drive.
  2. Ouvrez Apps Script : menu Extensions → Apps Script.
  3. Collez le code ci-dessus, remplacez le code existant.
  4. Sauvegardez (Ctrl+S) puis rechargez le Sheet (F5).
  5. Un menu "Wayback Scraper" apparaît en haut — cliquez "Créer la feuille".
  6. Renseignez votre domaine en cellule A2 (ex: quintessencejade.fr).
  7. Cliquez "Lancer le scraping" — autorisez les permissions au premier lancement.
Les fichiers HTML s'enregistrent dans Drive/Wayback PBN/[votre-domaine]/ et le Sheet se met à jour en temps réel.

Limites et points d'attention

  • Timeout Apps Script à 6 minutes : si le site a plus de 150 pages, relancez plusieurs fois. Le script reprend là où il s'est arrêté.
  • Rate limit Wayback Machine : le script attend 1,5 seconde entre chaque page pour ne pas se faire bloquer. Ne réduisez pas ce délai.
  • Qualité du HTML récupéré : le HTML contient les éléments de navigation Wayback Machine. Il faudra nettoyer avant de réimporter sous WordPress.
  • HTTPS obligatoire dans les URLs CDX — les requêtes en HTTP retournent souvent des erreurs.

Après la récupération : remettre le site en ligne

Une fois les fichiers HTML récupérés, voilà la suite logique :
  1. Installez WordPress sur votre domaine
  2. Recréez les URLs originales (slugs identiques aux URLs archivées)
  3. Remplacez le contenu par vos textes réoptimisés — pas besoin de copier mot pour mot
  4. Soumettez le sitemap dans Google Search Console
  5. Attendez 4 à 8 semaines — les backlinks existants se réactivent progressivement

Vous construisez une stratégie de contenu SEO sérieuse ?

Je peux vous aider à structurer votre approche — domaines expirés, architecture, netlinking.

Planifier un échange
Lucas Fonseque, consultant SEO et IA Toulouse
Une question, un projet, un doute ?

Parlons-en ensemble

30 minutes pour clarifier votre stratégie SEO, IA ou acquisition. Sans engagement, sans baratin commercial.

Réserver un appel gratuit →

Questions fréquentes

Comment récupérer un site complet via la Wayback Machine ?+

Trois outils pour télécharger un site complet depuis la Wayback Machine. Un, Wayback Machine Downloader (open source Ruby) qui télécharge toutes les snapshots disponibles. Deux, HTTrack qui peut crawler directement archive.org/web/[date]/[url]. Trois, des services payants comme Archive.ph qui automatisent le processus. Comptez 1 à 4 heures pour un site moyen de 100-500 pages. Le téléchargement récupère le HTML, les CSS et les images dans la mesure où elles ont été archivées. Le contenu récupéré est souvent imparfait (assets manquants) mais le texte et la structure principale sont préservés pour reconstruction.

À quelle date faut-il récupérer un site expiré ?+

Idéalement à la date où le site était au sommet de son activité, généralement 6 à 18 mois avant son expiration. Cette date offre le contenu le plus mature et le plus optimisé. Évitez les snapshots des derniers mois avant expiration : le site était souvent négligé, avec du contenu daté ou des erreurs accumulées. Pour identifier la bonne date, regardez l'évolution du DR Ahrefs et du nombre de backlinks dans le temps — la date où ces métriques étaient au maximum correspond souvent au pic de qualité du contenu. C'est cette version qu'il faut restaurer prioritairement.

Quelles parties d'un site expiré sont récupérables ?+

Le HTML et le texte sont presque toujours récupérables. Les images sont récupérables à 60-80% selon la fréquence d'archivage. Les CSS et JavaScript sont souvent partiellement cassés (chemins d'inclusion modifiés). Les bases de données dynamiques (commentaires, formulaires, comptes utilisateurs) ne sont pas récupérables — la Wayback Machine archive le rendu HTML statique uniquement. Comptez perdre 10 à 30% des fonctionnalités interactives. Pour un site éditorial classique, ce n'est pas un problème : les articles et leurs URLs sont préservés. Pour un site e-commerce avec catalogue dynamique, la récupération est plus complexe et limitée significativement.

Comment publier le site récupéré sur un nouveau hébergement ?+

Deux approches selon la complexité. Pour un site simple : uploader directement les fichiers HTML statiques sur OVH ou Infomaniak (5 à 15 € par mois), configurer un nom de domaine (15 € par an), c'est en ligne en 1 heure. Pour un site WordPress restauré : recréer une installation WordPress propre, importer manuellement les articles depuis le HTML extrait avec un plugin d'import. Comptez 5 à 20 heures de travail technique selon la taille et la complexité initiale du site. Évitez de simplement uploader les anciens fichiers WordPress qui auront des failles de sécurité critiques après plusieurs années sans mises à jour.

Faut-il garder l'ancienne structure d'URLs ?+

Oui, absolument. C'est ce qui permet aux backlinks existants de continuer à pointer correctement vers les bonnes pages. Si vous changez la structure d'URLs (par exemple en passant de /article-2018 à /blog/article), vous devez impérativement mettre en place des redirections 301 systématiques de l'ancien vers le nouveau. Sinon, vous perdez 70 à 90% du jus SEO accumulé sur ces anciennes URLs et l'investissement domaine expiré perd l'essentiel de son intérêt. La règle : préservez la structure exacte ou redirigez systématiquement chaque ancienne URL vers son équivalent nouveau, sans exception ni oubli.

Combien de pages restaurer pour optimiser le SEO ?+

Au minimum 30 à 50 pages représentatives du contenu original. En dessous, Google peut considérer le site comme un faux retour à l'activité et le dévaloriser. Au-delà de 200 pages restaurées, le rendement marginal diminue — concentrez-vous sur les pages avec backlinks (récupérées via Ahrefs Site Explorer) et celles qui rankaient le mieux historiquement (visibles via la Wayback Machine + Google index). Cette priorisation 80/20 produit le meilleur ROI temps/résultat. Les 50 pages les plus stratégiques représentent typiquement 80% de la valeur SEO totale du site original à restaurer.

La Wayback Machine archive-t-elle les sites en HTTPS ?+

Oui depuis 2017, la Wayback Machine archive normalement les sites en HTTPS comme en HTTP. Avant 2017, beaucoup de sites HTTPS étaient mal archivés (certificats expirés ignorés, contenus mixtes). Pour un site moderne, l'archivage est complet et fidèle. Vérifiez tout de même la qualité du snapshot avant de baser un projet de restauration dessus — utilisez plusieurs dates différentes pour avoir des fallbacks si une snapshot est partiellement cassée. Cette précaution évite les mauvaises surprises lors de la phase finale de récupération et de remise en ligne du site cible visé pour le projet.

Peut-on restaurer un site Wix ou Squarespace via Wayback ?+

Oui, mais avec des limites importantes. Le HTML rendu est récupérable, mais vous ne pouvez pas réutiliser le builder Wix ou Squarespace original. Le contenu doit être migré vers WordPress ou un autre CMS pour être éditable et SEO-optimisable. Cette migration manuelle prend 2 à 3 fois plus de temps qu'une simple restauration WordPress vers WordPress. Si l'ancien site était sur Wix, prévoyez 30 à 60 heures de travail pour une restauration complète et propre sur WordPress. Le bénéfice c'est que votre nouveau site sera enfin SEO-friendly, ce que Wix ne permet pas vraiment au niveau requis.

Comment rétablir le maillage interne après restauration ?+

Étape critique souvent oubliée. Après avoir restauré les pages, vérifiez tous les liens internes : ils pointent vers les anciennes URLs telles qu'elles étaient archivées. Si vous avez changé de structure d'URLs, mettez à jour systématiquement chaque lien interne dans le HTML restauré. Outil pratique : un script Python ou un find-replace global dans tous les fichiers HTML pour remplacer les anciennes URLs par les nouvelles. Cette étape technique prend 2 à 5 heures sur un site moyen mais conditionne la qualité du maillage interne, qui est un facteur SEO majeur que Google évalue dès la réindexation initiale.

Combien de temps pour qu'un site restauré soit ré-indexé par Google ?+

L'indexation revient en 2 à 8 semaines après remise en ligne, selon la fréquence de crawl historique du domaine et la qualité du contenu restauré. Pour accélérer : soumettez le sitemap.xml dans Google Search Console immédiatement, demandez l'indexation manuelle des 10 pages stratégiques, créez 2 à 3 backlinks frais depuis vos autres sites pour signaler l'activité. Le retour des positions sur les anciens mots-clés prend ensuite 2 à 4 mois. Compter 6 à 12 mois pour atteindre 80% du potentiel SEO complet du domaine restauré, en investissant aussi dans du contenu frais en parallèle pour soutenir la dynamique.

Ce que disent mes clients

Retrouvez-moi sur les réseaux

Je partage mes expérimentations SEO et IA au quotidien.