Projet Compagnon Immo

Portfolio Image
Portfolio Image
Portfolio Image
Portfolio Image
App Screenshot Image
Dashboard
Analysis
Modelisation
Python Pandas Scikit-learn Jupyter Notebook Matplotlib Seaborn Plotly ARIMA / Prophet SHAP
Machine Learning
Avril 2025

Compagnon Immo

Consigne : Développer une solution permettant aux acheteurs de logements d'explorer et de comparer différents territoires en termes de prix de l'immobilier, démographie, transports, services, éducation, criminalité, et économie. L'application doit offrir une Data Visualization, permettant aux utilisateurs d'établir des classements et de visualiser les forces et faiblesses relatives des territoires. L'objectif global est d'aider les acheteurs à prendre des décisions éclairées en traduisant des données complexes et nombreuses en informations utiles et accessibles.

Architecture

  • Python : langage principal pour la collecte et le traitement des données.
  • Pandas : manipulation et nettoyage des données.
  • Scikit-learn : régression et modèles pour estimation de prix au m².
  • Time series : modèles d'évolution (ex. régression réguliarisée, ARIMA/Prophet, LSTM)
  • Matplotlib, Seaborn, Plotly : visualisation des tendances et des métriques.
  • Jupyter Notebook : environnement interactif pour l'exploration et la documentation des analyses.
  • Interface : Streamlit pour un dashboard accessible.
  • ETL: normalisation des sources (INSEE, DVF, OpenData)

Compagnon Immo est un projet académique réalisé dans le cadre de ma formation Data Scientist, en tant que projet fil rouge. L'objectif est de développer une solution permettant aux acheteurs de logements d'explorer et de comparer différents territoires en termes de prix de l'immobilier, démographie, transports, services et économie. L'application propose une Data Visualization interactive, permettant d'établir des classements et de visualiser les forces et faiblesses relatives des territoires.

Deux objectifs principaux sont considérés :

  • Prédire l'évolution du prix des logements selon les territoires.
  • Estimer le prix au m² d'un logement donné, avec une première prédiction basée sur les données tabulaires, enrichie par des informations issues de l'annonce (texte descriptif, photos du logement).

Ce projet peut présenter certaines imperfections, liées à la montée en compétence progressive durant la formation. La qualité et le rendu reflètent un apprentissage itératif, avec une volonté de mettre en pratique les outils et méthodes de la data science dans un contexte réaliste.

La multiplicité des critères (prix, mobilité, éducation, sécurité, emploi, services) rend la comparaison des territoires difficile pour un acheteur non spécialiste. Les sources de données sont hétérogènes (formats, granularités, périodicités), et l'agrégation fiable requiert une standardisation solide. Le défi consiste à unifier ces données, à pondérer les critères selon des préférences utilisateur, puis à exposer des indicateurs lisibles pour guider le choix.

Solution

La solution repose sur une approche complète de data science, combinant exploration, traitement et modélisation des données. L'objectif est de transformer des données hétérogènes en indicateurs clairs et en prédictions fiables pour aider les acheteurs à comparer les territoires et estimer le prix des logements.

  • EDA & Visualisation : analyse exploratoire des données pour comprendre les distributions, corrélations et tendances, avec des graphiques interactifs et des cartes thématiques.
  • ETL : récupération, nettoyage et intégration des données issues de sources variées (prix immobiliers, démographie, transports, services, criminalité, économie).
  • Compréhension des données : mise en évidence des variables clés influençant le prix au m² et l'évolution des marchés locaux.
  • Modélisation : régression linéaire pour une première estimation des prix et de leur évolution.
  • Tests de modèles avancés : expérimentation avec des techniques plus complexes comme le bagging, le stacking et des approches de deep learning pour améliorer la précision.
  • Restitution : présentation des résultats dans un dashboard interactif, permettant aux utilisateurs de comparer les territoires et d'obtenir des insights actionnables.

Caractéristiques principales

  • Streamlit - UI interactive
  • Jupyter Notebook - EDA
  • ETL - collecte & nettoyage
  • Plotly / Seaborn - visualisations
  • Scikit-learn - régression & ML
  • Time Series - ARIMA / Prophet / LSTM