Faire tourner Llama 3 et Mistral sur son PC — Guide complet
Installez LM Studio et faites tourner des IA comme Llama 3 ou Mistral directement sur votre machine, sans abonnement ni cloud. Guide pas à pas pour débutants.
Faire tourner Llama 3 et Mistral sur son PC — Guide débutant
Vous avez entendu parler de ChatGPT, mais saviez-vous qu'il existe des IA tout aussi capables que vous pouvez faire tourner entièrement sur votre ordinateur ? Pas de connexion internet, pas d'abonnement, aucune donnée envoyée quelque part. Votre machine, votre IA.
Ce guide vous montre comment installer LM Studio, un logiciel gratuit avec une interface simple, pour charger et utiliser des modèles comme Llama 3 de Meta ou Mistral — les deux stars du moment en IA open source.
Ce qu'on va faire
Pensez à LM Studio comme un lecteur de musique, mais pour des IA. Au lieu de MP3, vous téléchargez des fichiers de modèles (les "cerveaux" de l'IA), et le logiciel les fait tourner sur votre PC. Simple.
Ce qu'il vous faut avant de commencer
- Un PC Windows 10/11 ou Mac (Intel ou Apple Silicon) ou Linux
- Au minimum 8 Go de RAM (16 Go recommandés pour un confort réel)
- 10 à 20 Go d'espace disque libre selon le modèle choisi
- Une connexion internet pour télécharger LM Studio et les modèles (ensuite, tout fonctionne hors ligne)
Pas besoin de carte graphique puissante pour commencer — les petits modèles tournent bien sur le processeur seul, juste un peu plus lentement.
Étape 1 : Télécharger et installer LM Studio
Rendez-vous sur https://lmstudio.ai et téléchargez la version correspondant à votre système d'exploitation.
Sur Windows, vous obtenez un fichier .exe d'installation classique. Double-cliquez, acceptez, suivez l'assistant. En moins de deux minutes, LM Studio est installé.
Sur Mac avec une puce Apple Silicon (M1, M2, M3, M4), téléchargez la version ARM spécifique — elle est beaucoup plus rapide. Sur Mac Intel, prenez la version x64.
Sur Linux, le fichier est un .AppImage. Rendez-le exécutable avec :
## Rendre le fichier exécutable
chmod +x LM_Studio-*.AppImage
## Lancer LM Studio
./LM_Studio-*.AppImageÉtape 2 : Choisir le bon modèle selon votre RAM
C'est là que beaucoup de gens se perdent. Les modèles ont des tailles différentes, et il faut choisir selon votre RAM disponible.
Une règle simple : le fichier du modèle doit tenir en RAM (ou en VRAM si vous avez une carte graphique).
Selon votre configuration :
- 8 Go de RAM : prenez Llama 3.2 3B Q4 ou Mistral 7B Q4 (fichiers ~4 Go)
- 16 Go de RAM : prenez Llama 3.1 8B Q5 ou Mistral Small 3.1 Q4 (~8 Go)
- 32 Go de RAM : vous pouvez vous offrir Llama 3.3 70B quantisé Q3 (~30 Go)
Le suffixe Q4, Q5, Q8 indique le niveau de compression ("quantization"). Q4 = plus léger, légèrement moins précis. Q8 = plus lourd, meilleure qualité. Q4_K_M est souvent le meilleur compromis.
Étape 3 : Télécharger un modèle via LM Studio
Ouvrez LM Studio. L'interface ressemble à iTunes ou Spotify : une barre de recherche en haut, des résultats en dessous.
Dans la barre de recherche, tapez mistral-7b-instruct ou llama-3.2-3b-instruct.
LM Studio se connecte à Hugging Face (la bibliothèque de modèles IA la plus connue) et vous montre les fichiers disponibles. Cherchez les fichiers au format GGUF — c'est le format optimisé pour tourner localement sans GPU dédié.
Cliquez sur le fichier Q4_K_M correspondant à votre RAM, puis sur Download. La progression s'affiche directement.
Selon votre connexion, le téléchargement prend entre 5 minutes (fibre) et 30 minutes (ADSL).
Étape 4 : Lancer une conversation
Une fois le téléchargement terminé, cliquez sur l'onglet Chat dans le menu de gauche.
En haut de l'écran, un menu déroulant vous permet de sélectionner votre modèle téléchargé. Cliquez dessus, choisissez votre modèle, attendez quelques secondes qu'il se charge en mémoire.
Une fois chargé, une zone de texte apparaît en bas. Tapez votre question, appuyez sur Entrée, et l'IA répond. Exactement comme ChatGPT, mais sur votre machine.
La vitesse dépend de votre matériel. Sur un bon CPU, attendez 5 à 15 tokens (mots) par seconde. Avec un GPU NVIDIA, ça grimpe à 50+ tokens/s.
Étape 5 : Configurer le System Prompt
Le System Prompt (invite système), c'est comme donner des instructions permanentes à votre IA avant chaque conversation. Par exemple :
> "Tu es un assistant spécialisé en cuisine française. Tu réponds toujours en français. Tu proposes des recettes simples adaptées aux débutants."
Dans LM Studio, trouvez la section System Prompt dans le panneau de droite. Tapez vos instructions, et elles s'appliquent à toute la conversation.
C'est là que le local prend tout son sens : vous pouvez créer des assistants spécialisés sans jamais envoyer quos données à une entreprise.
Étape 6 : Utiliser LM Studio comme API locale
LM Studio inclut un serveur OpenAI-compatible. Activez-le dans l'onglet Local Server (l'icône ressemble à un serveur).
Cliquez sur Start Server. LM Studio écoute maintenant sur http://localhost:1234.
Cela signifie que n'importe quel outil compatible OpenAI peut s'y connecter : Continue (extension VS Code), Obsidian, SillyTavern, vos propres scripts Python...
## Tester l'API avec curl
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "local-model",
"messages": [{"role": "user", "content": "Bonjour !"}]
}'Dépannage rapide
L'IA répond très lentement : le modèle est trop grand pour votre RAM. Essayez un modèle plus petit (3B au lieu de 7B) ou une quantization plus agressive (Q4 au lieu de Q8).
LM Studio ne détecte pas mon GPU NVIDIA : vérifiez que vos drivers NVIDIA sont à jour. Dans les paramètres de LM Studio, cherchez l'option GPU offload et augmentez le nombre de couches GPU.
Erreur "Out of Memory" : fermez les autres applications, ou passez au modèle Q4_K_S (version encore plus légère).
La réponse est incohérente : essayez de baisser la température à 0.3-0.5 dans les paramètres du modèle. Une température haute = plus créatif mais moins précis.
Pour aller plus loin
Une fois à l'aise avec LM Studio, regardez du côté de Jan.ai (alternative open source à LM Studio) ou de notre guide Ollama pour une utilisation en ligne de commande avec plus de flexibilité.
Le monde des LLM locaux évolue vite. Mistral AI sort régulièrement de nouveaux modèles gratuits, Meta aussi avec la famille Llama. L'IA locale n'a jamais été aussi accessible.
À lire aussi
Fine-tuner un modèle IA avec LoRA : le guide pas à pas
Apprenez à personnaliser un modèle d'IA en le fine-tunant avec LoRA, même avec une carte graphique modeste. Guide complet pour débutants.
Fine-tuning LoRA/QLoRA : configuration avancée et optimisation
Guide technique complet pour fine-tuner un LLM avec LoRA : quantification QLoRA, hyperparamètres, multi-GPU, troubleshooting et déploiement GGUF.
Bot Discord + Claude API : architecture complète et production
Architecture robuste d'un bot Discord alimenté par Claude. Gestion d'erreurs, rate limiting, Docker, déploiement VPS et bonnes pratiques de production.