LLM open-weights : Llama, Mistral, Qwen et le vrai sens du mot « open source »
« Modèle open source. » L'expression revient à chaque sortie de Llama, Mistral ou Qwen — mais elle est presque toujours fausse. La grande majorité de ces IA ne sont pas open source : elles sont open-weights (à poids ouverts). La nuance n'est pas qu'un détail de vocabulaire : elle change ce que vous avez le droit de faire avec le modèle, ce que vous pouvez vérifier, et le risque juridique que vous prenez en le déployant. On démêle les trois niveaux d'ouverture — open-weights, open-source et open-data — et ce qu'ils signifient vraiment.
- Dernière modification
16 juin 2026 - 11 minutes de lecture
📋 Sommaire ►
- Open-weights, open-source, open-data : trois niveaux à ne pas confondre
- La définition officielle de l'« open source IA » (OSI)
- Pourquoi presque aucun grand LLM n'est vraiment open source
- Llama, Mistral, Qwen : trois philosophies de l'ouverture
- Les types de licences à connaître avant de déployer
- Pourquoi cette distinction compte pour votre entreprise
- Open-weights et GEO : quel rapport ?
- Conclusion : lisez la licence avant le benchmark
- Sources et références
- Questions fréquentes sur les LLM open-weights
Open-weights, open-source, open-data : trois niveaux à ne pas confondre
Commençons par la réponse directe, car c'est elle qui change tout. Quand on parle d'un modèle d'IA « ouvert », il existe en réalité trois niveaux d'ouverture bien distincts, et la confusion entre eux est la source de la plupart des malentendus.
- Open-weights (à poids ouverts) : vous pouvez télécharger les poids du modèle — les milliards de paramètres numériques qui constituent son « cerveau » — et le faire tourner où vous voulez. En revanche, le code d'entraînement et surtout les données utilisées restent secrets. C'est le cas de l'immense majorité des modèles dits « open » : Llama, Mistral, Qwen, Gemma, DeepSeek.
- Open-source (au sens strict) : les poids, le code d'entraînement et la licence sont tous publics et libres. Vous pouvez auditer, modifier et redistribuer le modèle légalement. Mais sans les données, la reproductibilité reste partielle.
- Open-data (entièrement ouvert) : le niveau le plus rare. Poids, code, jeu de données d'entraînement et licence sont tous accessibles. On peut alors reconstruire le modèle de zéro. Seuls quelques projets de recherche, comme OLMo de l'Allen Institute for AI, atteignent ce niveau.
En une phrase : open-weights signifie « téléchargeable », pas « open source ». Pouvoir lancer un modèle sur votre serveur ne veut pas dire que vous avez accès à sa recette, ni que vous avez le droit d'en faire n'importe quel usage commercial.
Cette distinction est aujourd'hui largement reconnue par l'écosystème technique : la plupart des modèles populaires sont techniquement open-weight, et non pleinement open source. Pour le décideur, c'est la licence qui compte, bien plus que l'étiquette marketing.
La définition officielle de l'« open source IA » (OSI)
Le terme « open source » n'est pas qu'une formule publicitaire : il a un gardien officiel. L'Open Source Initiative (OSI), l'organisation qui définit depuis près de trente ans ce que « open source » veut dire pour le logiciel, a publié en octobre 2024 la première Open Source AI Definition (OSAID 1.0), une définition de l'open source appliquée à l'intelligence artificielle.
Selon cette définition, une IA est open source si elle accorde quatre libertés fondamentales :
- Utiliser le système pour n'importe quel usage, sans demander la permission.
- Étudier son fonctionnement et inspecter ses composants.
- Modifier le système pour n'importe quel usage, y compris changer ses réponses.
- Partager le système avec d'autres, avec ou sans modifications.
Pour garantir ces libertés, l'OSAID exige trois composants : des informations suffisantes sur les données d'entraînement (assez détaillées pour qu'une personne compétente puisse reconstruire un système substantiellement équivalent), le code complet de traitement et d'entraînement, et les paramètres (poids) du modèle.
Point crucial : l'OSI a choisi de ne pas exiger la publication intégrale du jeu de données, mais simplement une description suffisamment précise pour le reproduire. C'est un compromis assumé, motivé par les zones grises juridiques autour du copyright des données. Résultat, même avec cette barre assouplie, la plupart des modèles « ouverts » du marché — y compris ceux de Meta et de Mistral — ne franchissent pas ce seuil.
Pourquoi presque aucun grand LLM n'est vraiment open source
Si l'open source complet est si rare, ce n'est pas par négligence. Trois raisons de fond expliquent pourquoi les éditeurs gardent leurs données d'entraînement sous clé.
- L'avantage concurrentiel : la collecte, le nettoyage et la pondération des données d'entraînement représentent une part énorme de la valeur d'un modèle. Ouvrir ce pipeline (la chaîne de traitement des données), c'est offrir sa recette à la concurrence.
- Le risque juridique : les corpus d'entraînement contiennent souvent du contenu protégé par le droit d'auteur. Publier la liste exacte des sources reviendrait à exposer l'éditeur à une avalanche de poursuites. Le flou actuel arrange tout le monde, sauf la transparence.
- La vie privée : certains modèles sont entraînés sur des données personnelles ou des conversations d'utilisateurs. Le cas le plus cité est celui de Llama, que Meta a entraîné en partie sur des contenus issus de Facebook et Instagram — des données impossibles à rendre publiques sans poser d'énormes problèmes de confidentialité.
C'est précisément pour cette dernière raison que Meta, malgré une communication très « ouverte », n'a jamais officiellement qualifié Llama d'« open source » : le modèle est gratuit à télécharger, mais ses données restent privées, ce qui le rend tout simplement impossible à recréer à l'identique.
Llama, Mistral, Qwen : trois philosophies de l'ouverture
Ces trois familles sont souvent rangées dans le même sac « open source ». À tort : leurs licences racontent trois stratégies très différentes.
Llama (Meta) : open-weight sous licence maison
Llama est le modèle qui a démocratisé l'IA téléchargeable, mais c'est aussi un parfait exemple de fausse étiquette open source. Il est distribué sous la Llama Community License, une licence propre à Meta qui n'est pas approuvée par l'OSI.
Concrètement, cette licence impose deux contraintes notables. D'abord une clause de seuil : si votre produit dépasse 700 millions d'utilisateurs actifs mensuels, vous devez négocier un accord séparé avec Meta. Ensuite une politique d'usage acceptable (une liste d'usages interdits). Pour 99,9 % des entreprises, le seuil des 700 millions d'utilisateurs est purement théorique — mais juridiquement, ce n'est pas de l'open source. Les versions Llama 4 (dont Scout, qui détient le record de fenêtre de contexte avec 10 millions de tokens) restent sur ce modèle de licence maison.
Mistral (Mistral AI) : le champion européen à deux vitesses
Mistral, la pépite française, joue sur deux tableaux. Une partie de sa gamme est publiée sous licence Apache 2.0 — une vraie licence open source, permissive et sans restriction commerciale : c'est le cas de Mistral 7B, Mistral Small ou Devstral. D'autres modèles, plus haut de gamme, sortent en revanche sous des licences plus restrictives ou destinées à la recherche.
L'atout de Mistral pour le marché européen ne tient pas qu'à la performance : sa conformité native au RGPD et à l'AI Act en fait un choix stratégique pour les entreprises soumises à la réglementation européenne. Si vous voulez creuser les implications de ce cadre légal, nous l'avons décortiqué dans notre article sur l'AI Act et ce qu'il change concrètement pour vous. Pour le détail des modèles et de leurs licences, voir notre guide complet Mistral 2026.
Qwen (Alibaba) : la souplesse de l'Apache 2.0
Qwen, la famille développée par Alibaba, est souvent le choix le plus simple côté licence : beaucoup de ses variantes sont sous Apache 2.0, avec moins de restrictions que Llama. L'usage commercial est libre, parfois jusqu'à un certain seuil d'utilisateurs selon les versions.
Qwen brille particulièrement sur le multilinguisme et le multimodal (texte, image, audio), ce qui en fait un favori des projets internationaux. Sa montée en puissance a été spectaculaire : Qwen rivalise désormais avec les modèles propriétaires sur de nombreux benchmarks. Notre guide complet Qwen 2026 détaille ses points forts.
Et les autres : DeepSeek, Gemma, gpt-oss, OLMo
Le paysage open-weight ne se résume pas à ce trio. Quelques cas valent le détour :
- DeepSeek : le chinois qui a fait trembler la Silicon Valley en livrant des performances de pointe à coût réduit. Plusieurs de ses modèles sont sous licence MIT, l'une des plus permissives qui soit. Détails dans notre guide DeepSeek 2026.
- Gemma (Google) : bâti sur la même recherche que Gemini, mais sous des conditions d'usage propres à Google, qui imposent que les versions dérivées restent soumises à la licence.
- gpt-oss (OpenAI) : en 2025, OpenAI a publié gpt-oss-120B et gpt-oss-20B sous Apache 2.0 — ses premiers modèles ouverts depuis GPT-2 en 2019.
- OLMo (Allen Institute for AI) : l'un des très rares modèles réellement open source, avec ses poids, son code et ses données d'entraînement publics. La preuve que le full open source existe — mais reste minoritaire.
Les types de licences à connaître avant de déployer
Au-delà des noms de modèles, ce sont les familles de licences qui déterminent vos droits réels. Voici les trois grandes catégories à garder en tête.
- Licences permissives (Apache 2.0, MIT) : les plus propres pour un usage commercial. Pas de plafond d'utilisateurs, pas de restriction géographique, liberté de modifier et de redistribuer. Si vous lancez une application commerciale, ce sont les options les plus sûres. Concernées : Qwen (la plupart des variantes), Mistral Small, DeepSeek, gpt-oss.
- Licences communautaires « sur mesure » : utilisables mais à lire attentivement. Elles ajoutent souvent des plafonds d'utilisateurs, des clauses d'usage acceptable, parfois des limites sur l'utilisation des sorties du modèle pour entraîner d'autres IA. Concernées : Llama, certaines variantes de Qwen.
- Licences de recherche / non commerciales : réservées à l'expérimentation, interdites en production commerciale. À ne jamais confondre avec de l'open source.
La règle d'or tient en une phrase : « open weights » ne signifie jamais automatiquement « usage commercial illimité ». Avant de bâtir un produit sur un modèle, faites lire sa licence par quelqu'un — ce réflexe vous évitera de mauvaises surprises au moment de passer à l'échelle.
Pourquoi cette distinction compte pour votre entreprise
Cette nuance peut sembler théorique. Elle a pourtant des conséquences très concrètes pour toute organisation qui envisage d'utiliser un LLM ouvert.
Le contrôle et la confidentialité. Un modèle open-weight peut être hébergé sur vos propres serveurs (on parle de self-hosting, c'est-à-dire héberger soi-même le modèle). Vos données ne transitent alors par aucune API externe — un argument décisif dans la santé, le juridique ou la finance.
La personnalisation. Avoir les poids permet d'adapter le modèle à votre métier par fine-tuning (ré-entraînement spécialisé sur vos propres données). Et grâce à la quantization (compression du modèle), un LLM open-weight peut même tourner sur un matériel modeste. Vous pouvez aussi créer vos propres forks — des versions dérivées, c'est-à-dire des copies modifiées et redistribuées du modèle.
Le risque juridique. Déployer un modèle sous licence communautaire sans en vérifier les clauses, c'est s'exposer à devoir tout reconstruire le jour où votre produit dépasse un seuil, ou pire, à une rupture de conformité. C'est exactement le genre d'angle mort où un accompagnement expert fait gagner un temps précieux.
Chez Digital-m, nous aidons les PME et les équipes marketing à naviguer ce paysage : choix du modèle adapté à votre cas d'usage et à votre budget, vérification des contraintes de licence, et intégration dans une stratégie de contenu cohérente. C'est aussi tout l'objet de notre formation GEO, pensée pour rendre les équipes autonomes face à la révolution des LLM.
Open-weights et GEO : quel rapport ?
On pourrait croire que le débat open source ne concerne que les développeurs. C'est une erreur stratégique, car ces modèles façonnent directement le GEO (Generative Engine Optimization, l'optimisation de votre visibilité dans les réponses des IA génératives).
Pourquoi ? Parce que les modèles open-weights comme Mistral, Llama ou Qwen sont de plus en plus intégrés dans des moteurs de recherche IA, des assistants d'entreprise et des outils qui citent des sources web. Plus ces modèles se diffusent — y compris en version auto-hébergée chez des milliers d'entreprises — plus le nombre de « points de contact » où votre contenu peut être cité augmente. Optimiser pour les seuls géants propriétaires (GPT, Gemini, Claude) revient à ignorer une part croissante de l'écosystème.
La bonne nouvelle : les principes du GEO restent les mêmes quel que soit le modèle. Un contenu structuré, factuellement dense, bien sourcé et avec les définitions placées tôt dans la page (les LLM accordent une attention disproportionnée au premier tiers d'un article) a plus de chances d'être cité, qu'il soit lu par un modèle open-weight ou par une IA propriétaire. Pour aller plus loin sur ce paysage mouvant, voir notre panorama LLM : tout ce qu'il faut savoir en 2026 et notre décryptage des frontier models (modèles de pointe, à la frontière de l'état de l'art).
Conclusion : lisez la licence avant le benchmark
Le mot « open source » est devenu un argument marketing appliqué un peu trop vite à des modèles qui, dans les faits, sont open-weights : téléchargeables, oui, mais ni totalement transparents ni totalement libres. Llama reste sous licence maison avec un plafond d'utilisateurs, Mistral joue sur deux niveaux, Qwen mise sur la souplesse de l'Apache 2.0, et le vrai open source — données comprises — reste l'exception, porté par des projets comme OLMo.
Pour une entreprise, le réflexe à adopter est simple : avant même de comparer les benchmarks, vérifiez la licence. C'est elle qui détermine ce que vous pourrez réellement faire, héberger et monétiser. Les licences permissives (Apache 2.0, MIT) sont vos meilleures alliées ; les licences communautaires demandent une lecture attentive.
Vous hésitez sur le modèle ouvert le plus adapté à votre projet, ou sur la façon de le rendre visible auprès des IA génératives ? Notre agence GEO et notre équipe de rédaction web vous accompagnent de bout en bout. Contactez-nous pour en discuter.
Et vous, avez-vous déjà vérifié la licence du modèle « open source » que vous utilisez ? Dites-le nous en commentaire !Sources et références
- Open Source Initiative – The Open Source AI Definition (OSAID 1.0)
- HPCwire – OSI Open AI Definition Stops Short of Requiring Open Data
- SiliconANGLE – OSI clarifies what makes AI systems open-source
- Hugging Face – Open Source and Open-Weight LLMs to Run Locally (2026)
- Stackviv – Open Weights vs Open Source AI: Key Differences (2026)
- CodeSOTA – Open Source LLM Leaderboard 2025–2026
- Centre for AI Leadership – Is Llama Truly Open-Source ?
Questions fréquentes sur les LLM open-weights
Quelle est la différence entre open-weights et open source ?
Open-weights signifie que les poids du modèle (ses paramètres) sont téléchargeables et que vous pouvez le faire tourner vous-même, mais que le code et les données d'entraînement restent privés. Open source au sens strict implique en plus la publication du code et d'informations suffisantes sur les données pour reproduire le modèle. La plupart des modèles « open » (Llama, Mistral, Qwen) sont en réalité open-weights, pas open source.
Llama de Meta est-il vraiment open source ?
Non. Llama est un modèle open-weight distribué sous la Llama Community License, qui n'est pas approuvée par l'Open Source Initiative. Cette licence impose notamment un accord séparé avec Meta au-delà de 700 millions d'utilisateurs actifs mensuels, ainsi qu'une politique d'usage acceptable. Meta lui-même évite d'ailleurs de qualifier officiellement Llama d'« open source », car ses données d'entraînement restent privées.
Puis-je utiliser un LLM open-weight pour un projet commercial ?
Souvent oui, mais cela dépend de la licence. Les modèles sous Apache 2.0 ou MIT (comme Mistral Small, Qwen ou DeepSeek) n'ont pas de restriction commerciale. Les licences communautaires comme celle de Llama autorisent l'usage commercial mais avec des conditions (plafonds d'utilisateurs, clauses d'usage). Vérifiez toujours la licence avant de déployer un produit en production.
Pourquoi les éditeurs ne publient-ils pas leurs données d'entraînement ?
Pour trois raisons principales : l'avantage concurrentiel (le pipeline de données représente une grande partie de la valeur du modèle), le risque juridique (les corpus contiennent souvent du contenu protégé par le droit d'auteur) et la protection de la vie privée (certains modèles sont entraînés sur des données personnelles ou des conversations d'utilisateurs). C'est pourquoi le véritable open source IA reste rare.
Existe-t-il des LLM vraiment open source, données comprises ?
Oui, mais ils sont minoritaires. Le projet OLMo de l'Allen Institute for AI publie ses poids, son code et ses données d'entraînement, ce qui en fait un modèle réellement open source au sens de la définition de l'OSI. Ces initiatives, souvent issues de la recherche, prouvent que le full open source est possible, même s'il reste l'exception face aux modèles open-weights dominants.