tp05

2025-01-28 15:54:25 +01:00
parent 9f681902db
commit 07d489824e
3 changed files with 1721 additions and 0 deletions
--- a/TP05/.ipynb_checkpoints/Untitled-checkpoint.ipynb
+++ b/TP05/.ipynb_checkpoints/Untitled-checkpoint.ipynb
@@ -0,0 +1,6 @@
+{
+ "cells": [],
+ "metadata": {},
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
--- a/TP05/Untitled.ipynb
+++ b/TP05/Untitled.ipynb
--- a/TP05/tp05.py
+++ b/TP05/tp05.py
@@ -0,0 +1,390 @@
+"""
+Projet de Machine Learning : Prédiction de Maladies Cardiaques (Version corrigée)
+Dataset : UCI Heart Disease Dataset
+Objectif : Comparer deux architectures de réseaux de neurones pour la prédiction de maladies cardiaques
+"""
+
+import pandas as pd
+import numpy as np
+import urllib.request
+import ssl
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
+from tensorflow.keras.optimizers import Adam
+from tensorflow.keras.callbacks import EarlyStopping
+import matplotlib.pyplot as plt
+
+# 1. Chargement des données avec gestion du SSL
+def load_data():
+    try:
+        # Créer un contexte SSL non-vérifié (à utiliser avec précaution)
+        ssl._create_default_https_context = ssl._create_unverified_context
+        
+        # URL du dataset
+        url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
+        
+        # Définir les noms des colonnes
+        columns = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
+                  'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']
+        
+        print("Téléchargement des données...")
+        
+        # Télécharger directement dans un DataFrame
+        data = pd.read_csv(url, names=columns)
+        
+        # En cas d'erreur, utiliser un dataset de démonstration
+        if data.empty:
+            raise Exception("Le dataset est vide")
+            
+    except Exception as e:
+        print(f"Erreur lors du téléchargement des données: {e}")
+        print("Utilisation d'un dataset de démonstration...")
+        
+        # Créer un petit dataset de démonstration
+        np.random.seed(42)
+        n_samples = 300
+        
+        data = pd.DataFrame({
+            'age': np.random.normal(55, 10, n_samples),
+            'sex': np.random.binomial(1, 0.5, n_samples),
+            'cp': np.random.randint(0, 4, n_samples),
+            'trestbps': np.random.normal(130, 20, n_samples),
+            'chol': np.random.normal(240, 40, n_samples),
+            'fbs': np.random.binomial(1, 0.2, n_samples),
+            'restecg': np.random.randint(0, 3, n_samples),
+            'thalach': np.random.normal(150, 20, n_samples),
+            'exang': np.random.binomial(1, 0.3, n_samples),
+            'oldpeak': np.random.normal(1, 1, n_samples),
+            'slope': np.random.randint(0, 3, n_samples),
+            'ca': np.random.randint(0, 4, n_samples),
+            'thal': np.random.randint(0, 3, n_samples),
+            'target': np.random.binomial(1, 0.4, n_samples)
+        })
+    
+    # Nettoyer les données
+    data = data.replace('?', np.nan)
+    data = data.dropna()
+    
+    # Convertir les colonnes en nombres
+    for column in data.columns:
+        data[column] = pd.to_numeric(data[column])
+    
+    # Binariser la target (0 pour pas de maladie, 1 pour maladie)
+    data['target'] = (data['target'] > 0).astype(int)
+    
+    return data
+
+# 2. Prétraitement des données
+def preprocess_data(data):
+    # Séparer features et target
+    X = data.drop('target', axis=1)
+    y = data['target']
+    
+    # Split train/test
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+    
+    # Standardisation
+    scaler = StandardScaler()
+    X_train_scaled = scaler.fit_transform(X_train)
+    X_test_scaled = scaler.transform(X_test)
+    
+    return X_train_scaled, X_test_scaled, y_train, y_test
+
+# 3. Premier modèle : Réseau dense classique
+def create_model_1(input_shape):
+    model = Sequential([
+        Dense(64, activation='relu', input_shape=input_shape),
+        BatchNormalization(),
+        Dense(32, activation='relu'),
+        Dropout(0.3),
+        Dense(16, activation='relu'),
+        Dense(1, activation='sigmoid')
+    ])
+    
+    model.compile(optimizer=Adam(learning_rate=0.001),
+                 loss='binary_crossentropy',
+                 metrics=['accuracy'])
+    
+    return model
+
+# 4. Second modèle : Réseau plus profond avec régularisation plus forte
+def create_model_2(input_shape):
+    model = Sequential([
+        Dense(128, activation='relu', input_shape=input_shape),
+        BatchNormalization(),
+        Dropout(0.3),
+        Dense(64, activation='relu'),
+        BatchNormalization(),
+        Dropout(0.3),
+        Dense(32, activation='relu'),
+        BatchNormalization(),
+        Dense(16, activation='relu'),
+        Dense(1, activation='sigmoid')
+    ])
+    
+    model.compile(optimizer=Adam(learning_rate=0.001),
+                 loss='binary_crossentropy',
+                 metrics=['accuracy'])
+    
+    return model
+
+# 5. Fonction d'entraînement et d'évaluation
+def train_and_evaluate(model, X_train, X_test, y_train, y_test, model_name):
+    # Early stopping pour éviter le surapprentissage
+    early_stopping = EarlyStopping(
+        monitor='val_loss',
+        patience=10,
+        restore_best_weights=True,
+        verbose=1
+    )
+    
+    # Entraînement
+    history = model.fit(
+        X_train, y_train,
+        validation_split=0.2,
+        epochs=50,  # Réduit pour la démonstration
+        batch_size=32,
+        callbacks=[early_stopping],
+        verbose=1
+    )
+    
+    # Évaluation
+    test_loss, test_accuracy = model.evaluate(X_test, y_test, verbose=0)
+    print(f"\n{model_name} - Test Accuracy: {test_accuracy:.4f}")
+    
+    return history
+
+# 6. Visualisation des résultats
+def plot_training_history(history1, history2):
+    plt.figure(figsize=(12, 4))
+    
+    # Plot accuracy
+    plt.subplot(1, 2, 1)
+    plt.plot(history1.history['accuracy'], label='Model 1 accuracy')
+    plt.plot(history1.history['val_accuracy'], label='Model 1 val accuracy')
+    plt.plot(history2.history['accuracy'], label='Model 2 accuracy')
+    plt.plot(history2.history['val_accuracy'], label='Model 2 val accuracy')
+    plt.title('Model Accuracy')
+    plt.xlabel('Epoch')
+    plt.ylabel('Accuracy')
+    plt.legend()
+    
+    # Plot loss
+    plt.subplot(1, 2, 2)
+    plt.plot(history1.history['loss'], label='Model 1 loss')
+    plt.plot(history1.history['val_loss'], label='Model 1 val loss')
+    plt.plot(history2.history['loss'], label='Model 2 loss')
+    plt.plot(history2.history['val_loss'], label='Model 2 val loss')
+    plt.title('Model Loss')
+    plt.xlabel('Epoch')
+    plt.ylabel('Loss')
+    plt.legend()
+    
+    plt.tight_layout()
+    plt.show()
+
+# 7. Programme principal
+def main():
+    print("Loading data...")
+    data = load_data()
+    print("Data shape:", data.shape)
+    
+    print("\nPreprocessing data...")
+    X_train, X_test, y_train, y_test = preprocess_data(data)
+    input_shape = (X_train.shape[1],)
+    
+    print("\nTraining Model 1...")
+    model1 = create_model_1(input_shape)
+    history1 = train_and_evaluate(model1, X_train, X_test, y_train, y_test, "Model 1")
+    
+    print("\nTraining Model 2...")
+    model2 = create_model_2(input_shape)
+    history2 = train_and_evaluate(model2, X_train, X_test, y_train, y_test, "Model 2")
+    
+    print("\nPlotting results...")
+    plot_training_history(history1, history2)
+
+if __name__ == "__main__":
+    main()
+    
+
+    
+'''
+Modèle 1 : Réseau Dense Classique
+- C'est une architecture relativement simple et légère avec 4 couches :
+1. Première couche : 64 neurones avec activation ReLU
+    - Cette couche initiale capture les patterns de base dans les données
+    - Suivie d'une normalisation par lots (BatchNormalization) pour stabiliser l'apprentissage
+2. Deuxième couche : 32 neurones avec activation ReLU
+    - Suivie d'un Dropout de 30% pour éviter le surapprentissage
+3. Troisième couche : 16 neurones avec activation ReLU
+    - Réduit progressivement la dimensionnalité
+4. Couche de sortie : 1 neurone avec activation sigmoid
+    - Pour la prédiction binaire (malade/non malade)
+    
+Modèle 2 : Réseau Plus Profond
+- C'est une architecture plus complexe avec 5 couches et plus de régularisation :
+1. Première couche : 128 neurones avec activation ReLU
+    - Commence avec plus de neurones pour capturer des patterns plus complexes
+    - Suivie de BatchNormalization et Dropout 30%
+2. Deuxième couche : 64 neurones avec activation ReLU
+    - Également suivie de BatchNormalization et Dropout
+3. Troisième couche : 32 neurones avec activation ReLU
+    - Avec BatchNormalization
+4. Quatrième couche : 16 neurones avec activation ReLU
+5. Couche de sortie : 1 neurone avec activation sigmoid
+
+Les principales différences sont :
+1. Complexité : Le modèle 2 a plus de paramètres et de couches
+2. Régularisation : Le modèle 2 utilise plus de BatchNormalization et de Dropout
+3. Capacité d'apprentissage : Le modèle 2 peut capturer des relations plus complexes dans les données
+
+L'idée est de comparer :
+- Une approche simple qui pourrait suffire pour ce problème médical relativement simple
+- Une approche plus complexe qui pourrait potentiellement capturer des patterns plus subtils
+
+Les deux modèles utilisent le même optimiseur (Adam) avec le même learning rate (0.001) pour une comparaison équitable.
+
+Cette configuration permet d'observer si la complexité supplémentaire du deuxième modèle apporte réellement un avantage en termes de performances, ou si le modèle plus simple est suffisant.
+
+- ReLU (Rectified Linear Unit) est une fonction d'activation très populaire en deep learning : ReLu (x) = max (0,x)
+
+- Le Dropout est une technique de régularisation cruciale en deep learning. Voici une explication détaillée :
+Principe de base :
+Pendant l'entraînement, à chaque itération
+Désactive aléatoirement un certain pourcentage de neurones
+Ces neurones sont temporairement "éteints" avec toutes leurs connexions
+Le pourcentage est défini par le paramètre de dropout (ex: 0.3 = 30% des neurones)
+
+- La BatchNormalization (ou normalisation par lots) est une technique très importante en deep learning. Voici une explication détaillée :
+Principe fondamental :
+Normalise les activations d'une couche pour chaque batch
+Maintient la moyenne proche de 0 et l'écart-type proche de 1
+S'applique avant la fonction d'activation
+'''
+    
+'''
+## Exercice 1 : 
+adapter le programme sur les données suivantes : 
+https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data
+
+
+## Exercice 2 : 
+On vous demande d'implémenter 2 autres modèles en suivant le schéma du programme donné. Sur les 2 data-set. 
+
+L'objectif est de rendre un rapport explicatif complet sur au moins un des modèles ; le code doit être commenté et des tests (changement de paramètres : itération, taux, couches réseaux) doivent être fait.
+
+### Premier Modèle : Random Forest Classifier
+
+Ce modèle est particulièrement intéressant car il offre :
+- Une excellente performance sur les données médicales
+- Une interprétabilité des résultats
+- Une facilité relative d'implémentation
+
+Voici un exemple de structure pour l'implémentation :
+
+```python
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.model_selection import GridSearchCV
+
+def create_model_rf(X_train, y_train):
+    # Création du modèle avec des hyperparamètres de base
+    rf_model = RandomForestClassifier(
+        n_estimators=100,
+        max_depth=10,
+        random_state=42
+    )
+    
+    # Définition des paramètres à optimiser
+    param_grid = {
+        'n_estimators': [50, 100, 200],
+        'max_depth': [5, 10, 15],
+        'min_samples_split': [2, 5, 10]
+    }
+    
+    # Recherche des meilleurs paramètres
+    grid_search = GridSearchCV(
+        rf_model,
+        param_grid,
+        cv=5,
+        scoring='accuracy',
+        n_jobs=-1
+    )
+    
+    # Entraînement avec recherche des meilleurs paramètres
+    grid_search.fit(X_train, y_train)
+    
+    return grid_search.best_estimator_
+```
+
+### Deuxième Modèle : XGBoost
+
+XGBoost est un algorithme de boosting très performant qui permet souvent d'obtenir d'excellents résultats. Voici une structure d'implémentation :
+
+```python
+import xgboost as xgb
+from sklearn.model_selection import cross_val_score
+
+def create_model_xgb(X_train, y_train):
+    # Création du modèle avec des paramètres de base
+    xgb_model = xgb.XGBClassifier(
+        learning_rate=0.1,
+        n_estimators=100,
+        max_depth=5,
+        random_state=42
+    )
+    
+    # Paramètres à optimiser
+    param_grid = {
+        'learning_rate': [0.01, 0.1, 0.3],
+        'n_estimators': [50, 100, 200],
+        'max_depth': [3, 5, 7]
+    }
+    
+    # Optimisation des hyperparamètres
+    grid_search = GridSearchCV(
+        xgb_model,
+        param_grid,
+        cv=5,
+        scoring='accuracy',
+        n_jobs=-1
+    )
+    
+    grid_search.fit(X_train, y_train)
+    
+    return grid_search.best_estimator_
+```
+
+Pour faciliter l'implémentation, voici les points essentiels à comprendre :
+
+Pour le Random Forest :
+- C'est un ensemble d'arbres de décision
+- Chaque arbre est entraîné sur un sous-ensemble aléatoire des données
+- La prédiction finale est obtenue par vote majoritaire des arbres
+- Les paramètres clés sont le nombre d'arbres (n_estimators) et la profondeur maximale (max_depth)
+
+Pour XGBoost :
+- C'est un algorithme de boosting qui construit les arbres séquentiellement
+- Chaque nouvel arbre corrige les erreurs des arbres précédents
+- Le learning_rate contrôle la contribution de chaque arbre
+- La profondeur des arbres (max_depth) limite la complexité du modèle
+
+Pour l'évaluation des modèles, on peut réutiliser les fonctions de visualisation existantes en les adaptant légèrement. Par exemple :
+
+```python
+def plot_model_comparison(models_results):
+    plt.figure(figsize=(10, 6))
+    
+    for model_name, scores in models_results.items():
+        plt.plot(scores['val_accuracy'], label=f'{model_name} validation accuracy')
+    
+    plt.title('Model Comparison')
+    plt.xlabel('Iteration')
+    plt.ylabel('Accuracy')
+    plt.legend()
+    plt.show()
+```
+
+'''