Actualités

OpenAI annonce GPT-4.5 Turbo avec architecture optimisée pour le RAG

30 octobre 2025
5 min de lecture
Équipe de Recherche Ailog

Le nouveau modèle GPT-4.5 Turbo propose des capacités de récupération intégrées, un mode de sortie structurée, et une réduction de coûts de 50% pour les applications RAG.

Annonce

OpenAI a dévoilé GPT-4.5 Turbo, une version intermédiaire entre GPT-4 et GPT-5, avec des fonctionnalités spécifiquement conçues pour les flux de travail de génération augmentée par récupération.

Fonctionnalités clés

Mode de récupération natif

GPT-4.5 inclut une récupération intégrée sans bases de données vectorielles externes :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[{"role": "user", "content": "Quelle est notre politique de remboursement ?"}], retrieval_sources=[ {"type": "file", "file_id": "file-abc123"}, {"type": "url", "url": "https://example.com/docs"} ], retrieval_mode="automatic" # ou "manual" pour un contrôle personnalisé )

Comment ça fonctionne :

  • OpenAI indexe les fichiers/URLs fournis
  • La récupération se fait pendant la génération
  • Aucune base de données vectorielle séparée nécessaire

Limitations :

  • Maximum 50 fichiers ou URLs par requête
  • Les fichiers doivent faire < 50MB chacun
  • Les fichiers mis à jour nécessitent une réindexation

Mode de sortie structurée

Générer des réponses JSON conformes aux schémas :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[{"role": "user", "content": query}], response_format={ "type": "json_schema", "json_schema": { "name": "rag_response", "schema": { "type": "object", "properties": { "answer": {"type": "string"}, "sources": { "type": "array", "items": { "type": "object", "properties": { "title": {"type": "string"}, "page": {"type": "integer"}, "quote": {"type": "string"} } } }, "confidence": {"type": "number"} } } } } )

Avantages :

  • JSON valide garanti
  • Pas d'erreurs de parsing
  • Format de citation cohérent

Utilisation améliorée du contexte

Meilleur à utiliser les longs contextes :

  • Fenêtre de 128K tokens (inchangée)
  • 40% de meilleure performance "needle in haystack"
  • Maintient la précision sur toute la longueur du contexte

Résultats des benchmarks :

Longueur contexteGPT-4 TurboGPT-4.5 Turbo
32K tokens94.2%96.1%
64K tokens89.7%94.3%
96K tokens82.3%91.8%
128K tokens74.1%87.2%

Améliorations de performance

Vitesse

  • 30% plus rapide que GPT-4 Turbo
  • Latence médiane : 1,2s (contre 1,7s)
  • Supporte jusqu'à 500 tokens/seconde en streaming

Réduction des coûts

Tarification optimisée pour RAG :

ModèleEntrée (par 1M tokens)Sortie (par 1M tokens)
GPT-4 Turbo$10.00$30.00
GPT-4.5 Turbo$5.00$15.00
GPT-3.5 Turbo$0.50$1.50

Réduction de coût de 50% tout en maintenant la qualité niveau GPT-4.

Qualité

Testé sur des benchmarks spécifiques au RAG :

BenchmarkGPT-4 TurboGPT-4.5 Turbo
NaturalQuestions67.3%71.8%
TriviaQA72.1%76.4%
HotpotQA58.4%64.2%
MS MARCO42.1%48.7%

Amélioration cohérente de 5-7% sur tous les jeux de données.

Capacités spécifiques au RAG

Génération de citations

Insertion automatique de citations :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[...], enable_citations=True # Nouveau paramètre ) # La réponse inclut des citations en ligne print(response.choices[0].message.content) # "La politique de remboursement permet les retours sous 30 jours[1] pour un # remboursement complet[2]." # Citations fournies séparément for citation in response.citations: print(f"[{citation.id}] {citation.source}: {citation.quote}")

Scoring de factualité

Auto-évaluation de la confiance de la réponse :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[...], include_confidence=True ) print(response.confidence_score) # 0.0-1.0 # 0.9 = Confiance élevée # 0.5 = Incertain # 0.2 = Confiance faible, hallucination probable

Utile pour filtrer les réponses de faible qualité.

Gestion du contexte multi-tours

Meilleure gestion des conversations :

  • Résumé automatique des tours anciens
  • Troncature intelligente du contexte
  • Maintient la cohérence sur de longues conversations

Guide de migration

Depuis GPT-4 Turbo

Changements minimaux requis :

DEVELOPERpython
# Avant response = openai.chat.completions.create( model="gpt-4-turbo-preview", messages=messages ) # Après response = openai.chat.completions.create( model="gpt-4.5-turbo", # Modèle mis à jour messages=messages )

Activation des nouvelles fonctionnalités

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=messages, # Optionnel : Récupération intégrée retrieval_sources=[...], # Optionnel : Sortie structurée response_format={"type": "json_schema", ...}, # Optionnel : Citations enable_citations=True, # Optionnel : Scores de confiance include_confidence=True )

Cas d'usage

Support client

  • Récupération intégrée sur la documentation
  • Réponses structurées pour un formatage cohérent
  • Citation pour vérification des réponses

Assistants de recherche

  • Récupération à travers plusieurs articles
  • Scoring de confiance pour vérification des faits
  • Contexte long pour analyse complète

Gestion de connaissances d'entreprise

  • Documentation interne indexée
  • Extraction structurée d'informations
  • Rentable à grande échelle

Limitations

Récupération intégrée

  • Limitée à 50 sources par requête
  • Pas de contrôle fin sur le découpage
  • Impossible de mettre à jour les fichiers sans ré-upload
  • Pas adapté aux très grandes collections de documents

Recommandation : Utiliser le RAG traditionnel (base de données vectorielle) pour :

  • Grandes collections de documents (> 10K docs)
  • Contenu fréquemment mis à jour
  • Stratégies de découpage personnalisées
  • Récupération avancée (recherche hybride, re-ranking)

Sortie structurée

  • Ajoute ~10-15% de latence
  • Complexité maximale du schéma : 10 niveaux imbriqués
  • Impossible de mélanger sorties structurées et non structurées

Calculateur de tarification

Exemple de comparaison de coûts :

Scénario : 10K requêtes/jour, 2K tokens d'entrée, 500 tokens de sortie chacune

ModèleCoût quotidienCoût mensuel
GPT-4 Turbo$400$12 000
GPT-4.5 Turbo$200$6 000
GPT-3.5 Turbo$20$600

GPT-4.5 Turbo offre la qualité GPT-4 à la moitié du coût.

Disponibilité

  • Généralement disponible via l'API OpenAI
  • Déploiement sur Azure OpenAI (novembre)
  • Utilisateurs ChatGPT Plus/Team (sélectionner GPT-4.5)
  • Clients entreprise (accès immédiat)

Bonnes pratiques

  1. Utiliser la récupération intégrée pour les petits ensembles de docs (< 100 fichiers)
  2. Activer les citations pour la transparence
  3. Vérifier les scores de confiance pour le contrôle qualité
  4. Sortie structurée pour un parsing cohérent
  5. Surveiller l'utilisation des tokens pour optimiser les coûts

Conclusion

GPT-4.5 Turbo représente l'engagement d'OpenAI à rendre le RAG plus accessible et rentable. Bien que la récupération intégrée ne remplacera pas les bases de données vectorielles pour les applications complexes, elle abaisse significativement la barrière à l'entrée pour les cas d'usage RAG plus simples.

Tags

OpenAIGPT-4.5LLMapi

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !