Claude API
Intégrez Claude dans vos applications — guide complet 2026
L’API Claude d’Anthropic donne accès aux modèles Opus, Sonnet et Haiku via une interface REST simple. Tarification à la consommation, prompt caching jusqu’à −90 % de coût, tool use, streaming, batch processing à −50 %. Disponible sur AWS Bedrock, Google Vertex AI et Microsoft Azure.
REST API · Python & TypeScript SDK · AWS Bedrock · Google Vertex AI · Microsoft Azure
L’API Claude est l’interface programmatique d’Anthropic pour accéder à ses modèles de langage. Elle repose sur une architecture REST standard — vous envoyez des requêtes HTTP à https://api.anthropic.com/v1/messages et recevez les réponses de Claude en JSON ou en streaming SSE.
Contrairement à une interface de chat, l’API est stateless : elle ne garde aucun historique entre les appels. C’est à vous d’inclure l’historique de conversation dans chaque requête. Cette conception rend les workflows déterministes, faciles à déboguer et scalables à n’importe quelle volumétrie.
En 2026, l’API Claude supporte des fenêtres de contexte jusqu’à 1 million de tokens avec Opus 4.6 et Sonnet 4.6, un tool use avancé (web search, exécution de code, computer use), le prompt caching automatique, le batch processing asynchrone à −50 %, et des sorties structurées en JSON. Elle est disponible directement chez Anthropic ou via AWS Bedrock, Google Vertex AI et Microsoft Azure.
Obtenir une clé API Claude : étape par étape
Rendez-vous sur console.anthropic.com (ou platform.claude.com). Créez un compte avec votre email, Google OAuth ou SSO. Complétez votre profil et configurez la facturation (pay-as-you-go — un plafond de 10-25 $ est recommandé pour commencer).
Dans le menu gauche, cliquez sur API Keys. Cliquez sur « Create Key », donnez-lui un nom descriptif (ex. mon-chatbot-prod), et copiez-la immédiatement — vous ne verrez plus jamais la clé complète. Stockez-la dans une variable d’environnement ANTHROPIC_API_KEY, jamais en dur dans votre code.
Les clés API opèrent au niveau de l’organisation, pas par clé individuelle. Toutes vos clés partagent le même pool de rate limits. Si vous avez besoin de limites séparées par projet, créez des organisations distinctes dans la console.
Premier appel API : Python et TypeScript
Python :
import anthropic
client = anthropic.Anthropic() # lit ANTHROPIC_API_KEY
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Explique le prompt caching"}]
)
print(response.content[0].text)
TypeScript / Node.js :
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
const message = await client.messages.create({
model: "claude-sonnet-4-6",
max_tokens: 1024,
messages: [{ role: "user", content: "Explique le prompt caching" }],
});
console.log(message.content[0].text);
Les SDK Python et TypeScript sont les officiels maintenus par Anthropic. Des SDK communautaires existent aussi pour PHP, Go, Ruby et Rust. L’API est aussi accessible directement via cURL avec les headers x-api-key et anthropic-version: 2023-06-01.
Les modèles disponibles et leurs identifiants
En mars 2026, les modèles actifs sont :
- claude-opus-4-6 — le plus puissant. 1M tokens de contexte, adaptive thinking, 14h30 d’autonomie agentique. $15 input / $75 output par million de tokens. Réservé aux tâches les plus complexes.
- claude-sonnet-4-6 — le meilleur rapport performance/coût. 1M tokens. $3 input / $15 output par million de tokens. Recommandé pour la grande majorité des cas d’usage en production.
- claude-haiku-4-5-20251001 — le plus rapide et économique. 200K tokens. $1 input / $5 output par million de tokens. Idéal pour les applications à fort volume et faible latence.
Les anciens modèles Claude Sonnet 3.7 et Haiku 3.5 ont été retirés. Migrez vers Sonnet 4.6 et Haiku 4.5. Claude Haiku 3 sera retiré le 19 avril 2026.
Les fonctionnalités avancées de l’API Claude
Au-delà du simple appel messages, l’API Claude expose des primitives puissantes pour construire des applications de production robustes et économiques.
Prompt caching : −90 % de coût
Le prompt caching permet de réutiliser les parties statiques de vos prompts (system prompt, définitions d’outils, documents de référence) sans les retraiter à chaque appel. Les tokens de cache read coûtent seulement 10 % du prix standard — soit −90 % sur ces tokens. Un bot de support avec 50 000 tokens de system prompt peut économiser plus de 4 000 $/mois. Depuis 2026, le caching automatique est disponible : ajoutez un seul champ cache_control au niveau top-level, le système gère les breakpoints automatiquement.
Durées de cache : 5 minutes (1,25x le prix standard pour l’écriture) ou 1 heure (2x le prix standard). Les tokens read ne comptent pas dans vos limites ITPM.
Batch API : −50 % asynchrone
Le Batch API traite vos requêtes en mode asynchrone et vous garantit la livraison sous 24 heures — en échange d’une remise de 50 % sur tous les tokens (input et output). Idéal pour : génération de rapports en fin de journée, création de contenu en masse, analyse de datasets, traitement de documents non urgents. Vous soumettez un batch, vous polling le statut, vous téléchargez les résultats par custom_id. Cette remise se cumule avec le prompt caching — jusqu’à 75 % d’économies combinées.
Tool Use, Streaming et Outputs structurés
Tool Use (Function Calling) : définissez vos fonctions en JSON Schema, Claude les appelle quand c’est pertinent. Outils natifs disponibles : web_search, code execution (Python sandboxé), computer use (contrôle d’interface graphique), text editor, bash. Le fine-grained tool streaming est maintenant en GA sur tous les modèles.
Streaming SSE : ajoutez "stream": true pour recevoir les tokens au fur et à mesure via Server-Sent Events. Réduit la latence perçue pour les interfaces conversationnelles. Compatible avec le prompt caching — les métriques de cache apparaissent dans l’événement message_start.
Structured Outputs : depuis fin 2025, GA sur Sonnet 4.5, Opus 4.5 et Haiku 4.5. Forcez Claude à répondre en JSON valide selon un schéma que vous définissez — zéro parsing d’erreurs, zéro hallucination de format.
Tarifs Claude API 2026 : comparatif complet par modèle
Tous les prix sont en dollars par million de tokens. La série 4.5 représente une baisse de prix significative — Opus 4.5 est 66 % moins cher que son prédécesseur.
Claude Opus 4.6
Le plus puissant. 1M tokens de contexte. Adaptive thinking. 14h30 d’autonomie agentique. Pour les tâches les plus complexes uniquement.
$15 / $75
par million de tokens (input / output). Prompt caching : $0,15/MTok en lecture.
Claude Sonnet 4.6
Le meilleur rapport performance/coût. 1M tokens. Recommandé pour la grande majorité des apps en production. Modèle par défaut sur claude.ai.
$3 / $15
par million de tokens (input / output). Prompt caching : $0,03/MTok en lecture.
Claude Haiku 4.5
Le plus rapide et économique. 200K tokens. 90 % des performances de Sonnet à 2x la vitesse. Chatbots, modération, multi-agents haute fréquence.
$1 / $5
par million de tokens (input / output). Prompt caching : $0,01/MTok en lecture.
Rate limits, tiers et disponibilités cloud
L’API Claude utilise un système de 4 tiers basés sur votre historique de dépenses. Les limites s’appliquent au niveau de l’organisation (pas par clé) et mesurent les requêtes par minute (RPM), les tokens input par minute (ITPM) et les tokens output par minute (OTPM). Anthropic utilise l’algorithme du token bucket pour la recharge continue — pas de reset à heure fixe.
Tier 1 (dépôt de 5 $) : accès de base pour commencer. Tier 2 (dépenses $40+) : limites étendues. Tier 3 (dépenses $200+) : production standard. Tier 4 (dépenses $400+) : accès à la fenêtre de 1M tokens pour Sonnet, limites maximales. Les tokens lus depuis le cache ne comptent pas dans votre ITPM.
Disponibilités cloud : Claude est le seul modèle frontier disponible sur les trois grands clouds simultanément. AWS Bedrock : intégration native, facturation AWS, isolation des données par région. Google Vertex AI : TPU Google, intégration Workspace, isolation par projet GCP. Microsoft Azure (AI Foundry) : conformité enterprise, VNET, Active Directory. Depuis mars 2026, Anthropic a lancé le Claude Partner Network avec 100 millions de dollars engagés pour accompagner les entreprises dans leurs déploiements.
Disponible sur AWS, Google Cloud et Azure
Vous voulez intégrer l’API Claude dans votre application ?
J’accompagne les équipes product et tech à intégrer Claude API dans leurs workflows : architecture, optimisation des coûts (prompt caching, batch), choix du bon modèle, mise en production. Un échange de 30 minutes pour valider votre approche technique.
Questions fréquentes sur l’API Claude
Comment obtenir une clé API Claude ?
Rendez-vous sur console.anthropic.com (ou platform.claude.com). Créez un compte, ajoutez un moyen de paiement, puis allez dans « API Keys » pour générer votre première clé. Copiez-la immédiatement — vous ne pourrez plus la voir ensuite. Stockez-la dans la variable d’environnement ANTHROPIC_API_KEY. Un plafond de dépenses de 10-25 $ est recommandé pour commencer.
Quel est le prix de l'API Claude en 2026 ?
La tarification est à la consommation, en dollars par million de tokens. Opus 4.6 : $15 input / $75 output. Sonnet 4.6 : $3 input / $15 output. Haiku 4.5 : $1 input / $5 output. Le prompt caching réduit le coût des tokens cachés à 10 % du prix standard (−90 %). Le Batch API réduit l’ensemble de 50 % pour les traitements asynchrones. Ces deux réductions sont cumulables — jusqu’à 75 %+ d’économies dans les meilleurs scénarios.
Qu'est-ce que le prompt caching et comment l'activer ?
Le prompt caching stocke les parties statiques de vos prompts (system prompt, définitions d’outils, documents) pour les réutiliser sans les retraiter à chaque appel. Les tokens lus depuis le cache coûtent 0,1x le prix standard. En 2026, le caching automatique est disponible : ajoutez un champ "cache_control": {"type": "ephemeral"} au niveau top-level de votre requête, le système gère les breakpoints. La durée par défaut est 5 minutes. Une option 1 heure existe pour les prompts très répétitifs. Les tokens en cache read ne comptent pas dans vos ITPM.
Quelle est la différence entre l'API directe, AWS Bedrock et Google Vertex AI ?
L’API directe Anthropic est la solution la plus simple : une clé, une facture Anthropic, accès immédiat à tous les modèles et features. AWS Bedrock : facturation AWS consolidée, isolation des données par région AWS, intégration native avec les services AWS (Lambda, SageMaker…). Google Vertex AI : facturation GCP, isolation par projet, intégration Workspace et TPU. Microsoft Azure (AI Foundry) : conformité enterprise, VNET privé, Active Directory, certifications gouvernementales. Le choix dépend de votre cloud principal et de vos contraintes de conformité.
Comment fonctionne le Batch API Claude ?
Le Batch API traite vos requêtes en asynchrone avec une garantie de livraison sous 24 heures, en échange d’une remise de 50 % sur tous les tokens. Workflow : (1) soumettez un batch avec vos requêtes, chacune avec un custom_id unique, (2) polling du statut du batch ou webhook, (3) téléchargement des résultats filtrés par custom_id. Idéal pour : rapports automatiques, création de contenu en masse, analyse de datasets non urgents. La remise se cumule avec le prompt caching.
Qu'est-ce que le Tool Use (Function Calling) dans l'API Claude ?
Le Tool Use permet à Claude d’appeler vos fonctions quand c’est pertinent dans une conversation. Vous définissez vos outils en JSON Schema (nom, description, paramètres), vous les passez dans le paramètre tools, et Claude décide lui-même quand les appeler. Outils natifs disponibles : web_search (recherche web temps réel), code execution (Python en sandbox), computer use (contrôle d’interface graphique), bash, text editor. Le fine-grained tool streaming est GA depuis 2026 — les paramètres des outils streament token par token.
Quelles sont les limites de tokens de l'API Claude ?
Fenêtres de contexte : Opus 4.6 et Sonnet 4.6 supportent jusqu’à 1 million de tokens (activé par défaut pour les plans Max, Team, Enterprise depuis mars 2026 ; en beta pour les organisations Tier 4 sur Sonnet 4.5). Haiku 4.5 : 200 000 tokens. Outputs : jusqu’à 64 000 tokens par réponse pour Sonnet 4.5. Les rate limits (RPM, ITPM, OTPM) progressent avec vos tiers de dépenses. Les tokens lus depuis le cache ne comptent pas dans votre ITPM — permettant de multiplier par 5-10 votre débit effectif.
Comment activer l'extended thinking (raisonnement étendu) ?
L’extended thinking est disponible sur Opus 4.5, Sonnet 4.5 et Haiku 4.5. Il permet à Claude de « réfléchir à voix haute » avant de répondre — une chaîne de pensée interne qui améliore la qualité sur les tâches complexes. Activez-le avec le paramètre "thinking": {"type": "enabled", "budget_tokens": 1024}. Budget minimum : 1 024 tokens. Les tokens de thinking sont facturés au prix standard des tokens output. Recommandé : commencez à 1 024 tokens et augmentez progressivement selon la complexité de vos tâches.
L'API Claude respecte-t-elle le RGPD ?
Oui. Anthropic propose des options de conformité RGPD : Zero Data Retention (ZDR) pour les clients enterprise (les prompts et réponses ne sont pas stockés), data residency avec le paramètre inference_geo pour forcer l’inférence en US uniquement (1,1x le prix standard pour les modèles post-février 2026), et des DPA (Data Processing Agreements) disponibles. Pour les déploiements européens avec contraintes strictes, AWS Bedrock avec régions EU et Google Vertex AI avec régions EU offrent aussi des garanties supplémentaires.
Comment optimiser les coûts de l'API Claude en production ?
Les trois leviers principaux : (1) Prompt caching automatique — activez-le dès que votre system prompt dépasse 1 024 tokens, économie immédiate de 90 % sur les tokens répétés. (2) Batch API — pour tout ce qui n’est pas temps réel, prenez le −50 %. (3) Choix du modèle adapté — n’utilisez Opus que pour les 20 % de tâches qui le justifient vraiment, Haiku pour tout ce qui est simple et haute fréquence. Combiné, ces trois leviers peuvent réduire votre facture de 75 %+ par rapport à un usage naïf d’Opus sans caching.












