Sommaire
DeepSeek : la startup chinoise qui bouleverse le secteur tech
Après avoir provoqué des ondes de choc avec un modèle d’IA rivalisant avec les créations de Google et OpenAI, DeepSeek, la startup chinoise, fait face à des interrogations sur la crédibilité de ses affirmations audacieuses.
Des revendications remises en question
Basée à Hangzhou, la startup a annoncé avoir développé le modèle R1 à une fraction du coût des derniers modèles de la Silicon Valley, remettant en question les idées reçues sur la domination des États-Unis dans le domaine de l’IA et les valorisations astronomiques de ses entreprises technologiques.
Réactions de la communauté technologique
Cependant, certains sceptiques ont contesté le récit de DeepSeek, suggérant que l’entreprise aurait eu accès à des puces plus avancées et à un financement plus important que ce qu’elle a admis. Pedro Domingos, professeur émérite en informatique à l’Université de Washington, a déclaré : « Il est très ouvert de savoir si les affirmations de DeepSeek peuvent être prises au pied de la lettre. La communauté de l’IA va les examiner de près. »
Domingos a ajouté : « Il est plausible qu’ils puissent former un modèle avec 6 millions de dollars. Mais il est également tout à fait possible que ce ne soit que le coût de l’affinage et du post-traitement de modèles qui coûtent plus cher, ce que DeepSeek n’aurait pas pu faire sans s’appuyer sur des modèles plus coûteux d’autres entreprises. »
Technologie et coûts de développement
Dans un article de recherche publié la semaine dernière, l’équipe de développement de DeepSeek a déclaré avoir utilisé 2 000 GPU Nvidia H800 – une puce moins avancée conçue pour respecter les contrôles d’exportation américains – et avoir dépensé 5,6 millions de dollars pour former le modèle fondamental R1, V3.
Le PDG d’OpenAI, Sam Altman, a affirmé que le coût de formation de son chatbot GPT-4 avait dépassé les 100 millions de dollars, tandis que des analystes estiment que ce modèle a utilisé jusqu’à 25 000 GPU H100 plus avancés.
Impact sur le marché
L’annonce de DeepSeek, fondée fin 2023 par l’entrepreneur Liang Wenfeng, a renversé la croyance largement répandue selon laquelle les entreprises cherchant à être à la pointe de l’IA doivent investir des milliards de dollars dans des centres de données et des puces haut de gamme coûteuses. Cela a également soulevé des questions sur l’efficacité des efforts de Washington pour limiter le secteur de l’IA en Chine en interdisant l’exportation des puces les plus avancées.
Les actions de Nvidia, basée en Californie, détenant un quasi-monopole sur l’approvisionnement en GPU alimentant l’IA générative, ont chuté de 17 % lundi, effaçant près de 593 milliards de dollars de la valeur de marché du géant des puces – un chiffre comparable au produit intérieur brut (PIB) de la Suède.
Critiques de DeepSeek
Bien qu’il existe un large consensus sur le fait que le lancement de R1 par DeepSeek représente une réalisation significative, certains observateurs éminents ont mis en garde contre le fait de prendre ses affirmations au pied de la lettre. Palmer Luckey, fondateur de l’entreprise de réalité virtuelle Oculus VR, a qualifié le budget revendiqué par DeepSeek de « faux » et a accusé trop de « idiots utiles » de tomber dans la « propagande chinoise ».
Luckey a écrit sur X : « Cela est poussé par un fonds spéculatif chinois pour ralentir l’investissement dans les startups d’IA américaines, servir leurs propres positions à la baisse contre des titans américains comme Nvidia, et masquer l’évasion des sanctions. »
Perspectives d’avenir
Dans une interview la semaine dernière avec CNBC, Alexandr Wang, PDG de Scale AI, a également exprimé des doutes quant à l’énoncé de DeepSeek, affirmant qu’il était de son « entendement » que la startup avait accès à 50 000 puces H100 plus avancées, qu’elle ne pouvait pas évoquer en raison des contrôles d’exportation américains, sans fournir de preuves pour sa déclaration.
DeepSeek n’a pas répondu aux demandes de commentaire, mais Zihan Wang, un candidat au doctorat ayant travaillé sur un modèle précédent de DeepSeek, a répondu aux critiques de la startup en disant : « Parler est facile. »
Limitations et controverses
Les utilisateurs de R1 soulignent également les limitations auxquelles le modèle fait face en raison de ses origines en Chine, notamment la censure de sujets considérés comme sensibles par Pékin, y compris le massacre de Tiananmen en 1989 et le statut de Taïwan.
Dans un signe que la panique initiale concernant l’impact potentiel de DeepSeek sur le secteur technologique américain a commencé à diminuer, le prix des actions de Nvidia a récupéré près de 9 % mardi, tandis que le Nasdaq 100, axé sur la technologie, a augmenté de 1,59 % après avoir chuté de plus de 3 % la veille.
Réflexions finales sur DeepSeek
Tim Miller, professeur spécialisé en IA à l’Université du Queensland, a déclaré qu’il était difficile de savoir quelle confiance accorder aux affirmations de DeepSeek. Selon lui, « Le modèle lui-même donne quelques détails sur son fonctionnement, mais les coûts des principaux changements qu’ils revendiquent – à ma connaissance – ne se ‘révèlent’ pas dans le modèle lui-même. »
Miller a ajouté qu’il n’avait pas vu d’« alarmes » mais que des arguments raisonnables existent tant pour que contre la confiance accordée à l’article de recherche. « La percée est incroyable – presque d’un style ‘trop beau pour être vrai’. La répartition des coûts est floue. »
D’un autre côté, il a souligné que des percées se produisent parfois en informatique. « Ces modèles à grande échelle sont un phénomène très récent, donc des gains d’efficacité sont inévitables. »
Évolution des coûts
Lucas Hansen, cofondateur de l’organisation à but non lucratif CivAI, a expliqué qu’il était difficile de savoir si DeepSeek avait contourné les contrôles d’exportation américains, mais que le budget de formation revendiqué par la startup se réfère à V3, qui est à peu près équivalent à GPT-4 d’OpenAI, et non à R1 lui-même.
« GPT-4 a terminé sa formation fin 2022. Depuis 2022, il y a eu de nombreuses améliorations algorithmiques et matérielles qui ont réduit le coût de formation d’un modèle de classe GPT-4. Une situation similaire s’est produite pour GPT-2. À l’époque, c’était un projet sérieux à former, mais maintenant vous pouvez le former pour 20 dollars en 90 minutes, » a déclaré Hansen.
« DeepSeek a créé R1 en prenant un modèle de base – dans ce cas, V3 – et en appliquant quelques méthodes astucieuses pour enseigner à ce modèle de base à penser plus soigneusement. Ce processus d’enseignement est relativement peu coûteux par rapport au prix de formation du modèle de base. Maintenant que DeepSeek a publié des détails sur la façon de transformer un modèle de base en un modèle pensant, nous allons voir un grand nombre de nouveaux modèles pensants. »