DeepSeek

DeepSeek (chinois simplifié : 深度求索 ; pinyin : Shēndù Qiúsuǒ) est une société chinoise d'intelligence artificielle et le nom de son agent conversationnel, qui exploite un grand modèle de langage. Établie à Hangzhou, la société est fondée et soutenue par le fonds spéculatif chinois High-Flyer (en).

Début 2025, DeepSeek dévoile un nouveau modèle publié en open source sous licence MIT. Ce modèle, aux performances qui seraient comparables, voire supérieures, à celles des leaders américains, se démarque par son faible coût de développement et sa consommation réduite de ressources. La publication du nouveau modèle entraîne une réaction notable des marchés financiers. Les cours de plusieurs entreprises américaines, notamment ceux du leader mondial des puces graphiques utilisées dans l’intelligence artificielle Nvidia, chutent fortement. Peu après, DeepSeek lance aussi un autre modèle (Janus-Pro-7B) générateur d'image à partir de prompt textuel, qui pourrait concurrencer DALL-E 3 d’OpenAI et Stable Diffusion (de Stability AI, à Londres).

Historique

Création et premiers modèles (2023-2024)

En avril 2023, High-Flyer, fonds spéculatif basé à Hangzhou et employant un modèle d'intelligence artificielle pour le trading à haute fréquence, annonce par l'intermédiaire de son fondateur Liang Wenfeng lancer une entreprise indépendante spécialisée dans l'intelligence artificielle baptisée DeepSeek, pour développer et commercialiser une intelligence artificielle générale utilisant un grand modèle de langage développé par la firme.

En novembre 2023, DeepSeek lance son premier modèle, baptisé DeepSeek Coder et spécialisé dans la génération et la compréhension de codes sources.

Le 29 novembre de la même année, DeepSeek lance son premier agent conversationnel employant un grand modèle de langage unique baptisé DeepSeek LLM (à 67 milliards de paramètres, gratuit et open source).

Le 7 mai 2024, DeepSeek sort DeepSeek-V2, comportant cette fois 236 milliards de paramètres, et pouvant activer jusqu'à 21 milliards de paramètres à chaque jeton utilisé. Le mois suivant sort la deuxième version de DeepSeek Coder baptisée DeepSeek-Coder-V2.

En décembre 2024, DeepSeek sort DeepSeek-V3, qui remplace la version précédente et se veut une alternative chinoise aux autres modèles de langage disponibles en ligne^,. 256 grappes ("clusters") comprenant chacune 8 cartes graphiques H800 soit un total de 2048 cartes graphiques durant 5000 heures sont nécessaires pour la partie apprentissage fin supervisé et l'apprentissage par renforcement de DeepSeek-V3 soit au total un équivalent de 2.79 millions d'heures en carte graphique en utilisant des optimisations. Cependant des doutes subsistent concernant le fait qu'un nombre si faible de grappes ait été utilisé. Après entrainement, il a été déployé aussi sur des grappes H800. Les cartes H800 d'une grappe sont connectées par interconnexion directe NVLink, et les grappes sont connectées par InfiniBand.

Percée mondiale (2025)

Le 20 janvier 2025, l'entreprise annonce son premier modèle de raisonnement, DeepSeek-R1, qui emploie une chaîne de raisonnement développant des étapes logiques successives aux requêtes^,^,. Le modèle, publié avec son code source sous licence MIT, bouleverse le secteur de l'IA par un coût de développement significativement moins élevé que ses concurrents pour des performances comparables aux meilleurs acteurs du secteur (bien que plus lent), et une consommation en ressources de calcul notablement inférieure. Face à la rentabilité présumée de la technologie, le cours de la bourse de plusieurs géants du domaine, (dont celui de Nvidia, le fournisseur de processeurs GPU, qui perd 600 milliards de dollars), chute massivement^,.

Modèles

Critiques

Sous-estimation des coûts

Le budget annoncé de 5,57 millions de dollars, spécifiquement alloué à un seul cycle d'apprentissage de DeepSeek V3, exclurait d'autres dépenses significatives telles que les salaires du personnel, les coûts liés au traitement des données, ainsi que ceux associés à la conception et à l'architecture du système.

En outre, l'entraînement du modèle DeepSeek nécessiterait environ 2 048 cartes graphiques Nvidia H800, une version bridée du H100 développé par la même société et destinée à l'exportation en Chine. Avant les restrictions imposées par l'administration de Joe Biden au début de l'année 2025, le coût de ce matériel était estimé à environ 70 millions de dollars. Par ailleurs, les dépenses annuelles consacrées à ce projet seraient évaluées entre 500 millions et 1 milliard de dollars.

Allégations de détournement de l'interface de programmation d'OpenAI

En janvier 2025, OpenAI et Microsoft soupçonnent DeepSeek d'avoir utilisé un processus de distillation des connaissances pour extraire des données des modèles d'OpenAI via son interface de programmation, en violation de ses conditions d'utilisation. Le modèle répondant même à des questions du type « Qui es-tu? » par « Je suis ChatGPT ».

Microsoft dit avoir détecté fin 2024 d'importants transferts de données via des comptes développeurs OpenAI présumés liés à DeepSeek. OpenAI affirme détenir des preuves de ces pratiques, sans toutefois les détailler publiquement, et indique collaborer avec le gouvernement américain pour protéger sa propriété intellectuelle^,^,.

Stockage des données

Selon sa politique de confidentialité, DeepSeek stocke les données utilisateur sur des serveurs situés en République populaire de Chine, y compris l'historique des conversations et les informations personnelles de ses utilisateurs. L'entreprise est tenue de collaborer avec les autorités chinoises conformément à la loi sur le renseignement national, ce qui suscite la préoccupation du professeur d'informatique britannique Michael Woodridge et du ministre australien des Sciences, Ed Husic (en).

Censure

Soumis aux réglementations de l'internet en république populaire de Chine, l'agent conversationnel de DeepSeek refuse d'aborder certains sujets politiquement sensibles en Chine (manifestations de la place Tian'anmen, statut de Taïwan, manifestations de 2019 à Hong Kong, accusations de travail forcé au Xinjiang) et redirige la conversation ou formule une réponse avant de l'effacer. L'agent conversationnel reconnaît occasionnellement que ses réponses s'alignent sur les positions officielles du gouvernement chinois^,.

Plaintes et interdictions

Plaintes

En janvier 2025, Test-Achats, l'organisation de consommateurs belge, dépose plainte auprès de l'Autorité de protection des données contre DeepSeek. Lui est reproché un traitement des données en contravention avec le règlement général sur la protection des données (RGPD).

En janvier 2025, Altroconsumo (it), une organisation de consommateurs italienne, dépose plainte auprès du Garant de la protection des données personnelles (it) contre DeepSeek. L'association s'inquiète en effet d'un risque lié à la non conformité par DeepSeek au RGPD.