DeepSeek V3 vs ChatGPT (2025)

Viral
27 January 2025
108
3 minutes read

En 2025, une startup chinoise a lancé DeepSeek V3, un modèle d’IA qui coûte 18 fois moins cher que le GPT-4 d’OpenAI – et qui, en plus, surpasse OpenAI dans les défis de codage. Mais voici le twist : quand on lui demande “Qui es-tu ?”, il répond “Je suis ChatGPT”. Ça peut sembler surprenant, mais c’est précisément pour ça que ce modèle fait parler de lui.

Pourquoi DeepSeek V3 fait-il parler de lui ?

Mixture-of-Experts (MoE) :
DeepSeek V3 utilise une architecture MoE de 671 milliards de paramètres avec 37 milliards de paramètres activés par jeton. Cela permet au modèle de se spécialiser pour chaque tâche tout en réduisant la consommation de ressources. À titre de comparaison, ChatGPT repose sur une architecture dense de 1,8 trillion de paramètres, ce qui exige bien plus de puissance de calcul.
Entraînement FP8 :
Ce modèle a été entraîné avec la technique FP8, une méthode d’entraînement à précision mixte qui réduit l’utilisation de la mémoire de 30 %. En termes de chiffres, DeepSeek a réalisé son pré-entraînement de 14,8 trillions de tokens en seulement 2,788 millions d’heures GPU, contre 30,8 millions d’heures GPU pour Llama 3.1 de Meta.

Un secret bien gardé : Le modèle MoE de DeepSeek

La clé du succès de DeepSeek V3 réside dans son architecture Mixture-of-Experts (MoE) et son entraînement ultra-efficace. Ce modèle allie puissance et économie de ressources, ce qui en fait une option très compétitive dans le domaine de l’IA.

Bien que l’IA chinoise présente des performances impressionnantes et un coût bien plus abordable que celui des géants de l’IA comme OpenAI, il reste à voir comment elle évoluera dans un secteur en constante innovation. Mais ce qui est clair, c’est que DeepSeek V3 a de quoi secouer le marché de l’intelligence artificielle.

Post Views: 10

Pourquoi DeepSeek V3 fait-il parler de lui ?

Un secret bien gardé : Le modèle MoE de DeepSeek

Djaz