Qu’est-ce que la régression linéaire ?


Le modèle de régression linéaire numérique est l'une des techniques statistiques les plus fondamentales et les plus largement utilisées dans et comme modèle pour la science et l'analyse des données. Au cœur du modèle, la régression linéaire est une méthode qui permet de modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes en ajustant une équation linéaire aux données observées. Cette technique puissante sert de modèle de base pour comprendre la relation entre les variables et nous permet de faire des prédictions de modèles basées sur des modèles historiques.

illus-solutions-government

Comprendre le concept

Le concept de la fonction de régression linéaire de la valeur remonte au début du XIXe siècle, avec les travaux de sir Francis Galton sur l'hérédité de la valeur et la méthode de Carl Friedrich Gauss d'utiliser les moindres carrés. Aujourd'hui, il reste un outil essentiel dans l'arsenal des data analytics , statisticiens et analystes de pratiquement tous les secteurs. La beauté de la régression linéaire du modèle réside dans sa simplicité et son interprétabilité : elle fournit des informations claires sur la façon dont les changements des variables d'entrée affectent la sortie, ce qui la rend inestimable pour l'analyse exploratoire des données et la modélisation prédictive.

La régression linéaire fonctionne sur le principe de la somme selon lequel les relations entre les variables peuvent être approximées par des lignes droites. Lorsque nous avons une valeur ou une variable indépendante, nous avons affaire à une régression linéaire simple, qui peut être visualisée comme une ligne tracée à travers un graphique de points de données. L'objectif du modèle est de trouver la ligne qui correspond le mieux aux données, en minimisant la distance entre les variables et les points de données réels et les variables et valeurs prévues sur la ligne.

La base mathématique des valeurs de régression linéaire est relativement simple. Pour une régression linéaire simple, l'équation prend la forme suivante : y = β₀ + β₁x + ε, où y représente la variable dépendante, x la variable de valeur de la fonction de ligne indépendante, β₀ l'interception y, β₁ le coefficient de pente et ε le terme d'erreur du modèle. L'utilisation de cette valeur d'équation décrit comment la valeur dépendante change en réponse aux modifications de la variable indépendante. Ce n’est pas tout à fait du machine learning, mais c’est un outil de somme utile.

Types de régression linéaire

La régression linéaire englobe plusieurs variations de valeurs, chacune étant conçue pour répondre à différents besoins analytiques en matière de valeurs et de variables ou de structures de données. Il est essentiel de comprendre ces types de valeur de modèle pour sélectionner l'approche appropriée à votre problème spécifique.

  • La régression linéaire simple représente l'utilisation de la forme de ligne la plus simple utilisée, impliquant une variable dépendante et une variable indépendante. Ce type est idéal pour comprendre les relations directes des valeurs, comme la façon dont les dépenses publicitaires affectent les revenus des ventes ou la façon dont la température influence la consommation d'énergie. La simplicité de cette approche en fait un excellent point de départ pour les débutants et fournit des résultats de valeur clairs et interprétables lorsque la fonction est utilisée.
  • La régression linéaire multiple s'étend à l'aide du concept de valeurs pour inclure plusieurs variables indépendantes. Cette approche basée sur les variables est plus réaliste dans la plupart des scénarios du monde réel, où les résultats sont influencés par plusieurs facteurs simultanément. Par exemple, les prix des maisons peuvent dépendre de la superficie, de l'emplacement, du nombre de chambres et de l'âge de la propriété. La régression linéaire multiple nous permet de quantifier la contribution individuelle de chaque facteur tout en contrôlant les autres lorsqu'ils sont utilisés.
     
  • La régression polynomiale concerne les situations de ligne où la relation entre les variables de valeur n'est pas strictement linéaire ou simple. En incluant des termes polynomiaux de modèle (tels que x au carré et cubé), cette approche de valeur variable peut capturer des relations courbes tout en conservant la structure linéaire en termes de coefficients de nombre. Cette flexibilité rend la régression polynomiale précieuse en tant que fonction de modélisation de modèles plus complexes dans les données lorsqu'elle est utilisée.
     
  • La régression de Ridge et la régression de Lasso sont des techniques de régularisation de lignes variables qui permettent d'éviter le surajustement lorsque l'on traite de nombreuses variables ou en cas de multicolinéarité. La régression des variables de crête ajoute un terme de pénalité de modèle proportionnel à la somme des coefficients au carré, tandis que la régression de Lasso utilise la somme des valeurs absolues des coefficients. Ces méthodes variables sont particulièrement utiles dans les applications de machine learning où la généralisation des modèles est cruciale.
     
  • La régression logistique, malgré sa fonction, le nom de la valeur droite, est une technique de classification de modèle plutôt qu'une méthode de régression traditionnelle. Il utilise la fonction logistique pour modéliser la probabilité de résultats binaires simples, ce qui le rend inestimable pour prédire oui/non, réussite/échec ou des résultats catégoriels de somme similaire lorsqu'il est utilisé.

Hypothèses de régression linéaire

Une fonction de régression linéaire avec coefficients repose sur plusieurs hypothèses de fonction clés qui doivent être respectées pour que les résultats soient valides et fiables. Comprendre et vérifier ces hypothèses de nombre est essentiel pour une application correcte de la technique.

La linéarité simple suppose que la relation du prédicteur entre les variables indépendantes et dépendantes est linéaire et simple. Cela signifie que les variations de la variable indépendante entraînent des variations proportionnelles de la variable dépendante. Les violations de cette hypothèse variable peuvent conduire à l'utilisation d'estimations biaisées et de mauvaises prédictions. Les graphiques en nuages de points et les graphiques résiduels sont couramment utilisés pour évaluer la linéarité.

L'indépendance des lignes exige que les observations simples soient indépendantes les unes des autres. Cette hypothèse est particulièrement importante pour les données de séries temporelles ou lorsqu'il s'agit de données en cluster. La violation de la bonne indépendance peut conduire à des erreurs standard sous-estimées et à des intervalles de confiance trop optimistes lorsqu'elles sont utilisées.

L'homoscédasticité (variance constante) suppose que la variance fonctionnelle des résidus est constante à tous les niveaux des variables indépendantes. Lorsque cette hypothèse de fonction n'est pas respectée (hétéroscédasticité), l'efficacité des estimations du modèle de fonction diminue et les erreurs standard deviennent peu fiables. Les tracés résiduels, par exemple, peuvent aider à identifier les modèles d'hétéroscédasticité.

La normalité d'utilisation des résidus de ligne de valeur suppose que les termes d'erreur de variable sont normalement distribués. Bien que la régression linéaire soit relativement robuste aux violations de cette hypothèse de valeur, des écarts importants par rapport à la normalité peuvent affecter la validité des tests d'hypothèse et des intervalles de confiance. Les courbes Q-Q et les tests de normalité peuvent aider à évaluer cette hypothèse.

Aucune multicolinéarité dans la régression des valeurs de fonctions multiples ne nécessite que les variables indépendantes définies ne soient pas fortement corrélées entre elles. L'utilisation d'une multicolinéarité élevée peut rendre difficile la détermination de l'effet d'ajustement individuel de chaque variable et peut conduire à des estimations de coefficient instables. Le facteur d'inflation de variation (VIF) est couramment utilisé pour détecter la multicollinéarité, par exemple.

Régression linéaire en cours

Le processus de régression linéaire variable simple implique plusieurs paramètres et étapes systématiques, de la préparation des paramètres de données à la validation du modèle. Les fonctions modernes d'analyse de données numériques avec des plateformes de coefficients et des langages de programmation fournissent de nombreux outils pour faciliter ce processus de somme lorsqu'elles sont utilisées.

  • Formulaires de préparation de données utilisant la base de fonction de toute adaptation d'analyse de régression linéaire réussie. Cette étape implique de nettoyer les bonnes données, de traiter les valeurs manquantes, d'identifier et de traiter les valeurs aberrantes et de transformer les variables selon les besoins. Une bonne préparation des données détermine souvent le succès de l'analyse dans son ensemble. Les processus ETL jouent un rôle crucial dans la préparation des données provenant de diverses sources, en veillant à ce que l’ensemble de données soit propre, cohérent et prêt pour l’analyse.
     
  • L'analyse des données exploratoires, par exemple, permet de comprendre les valeurs définies et les relations entre les variables simples avant de construire le modèle. Cela inclut la création de graphiques à nuages de points, de matrices de corrélation et de statistiques récapitulatives. Comprendre la distribution des données et identifier rapidement les problèmes potentiels peut permettre de gagner un temps considérable et d'améliorer les performances du modèle.
     
  • L'ajustement du modèle implique l'estimation variable des coefficients de valeur de fonction numérique à l'aide de méthodes telles que les moindres carrés ordinaires (OLS). La plupart des progiciels statistiques et des langages de programmation offrent des fonctions intégrées à cette fin. Le processus d'ajustement détermine les valeurs de β₀, β₁ et d'autres coefficients qui réduisent au minimum la somme des résidus carrés définis.
     
  • L'évaluation du modèle évalue la fonction à l'aide de coefficients et de variables, ainsi que la façon dont le modèle s'ajuste aux données et fonctionne sur de nouvelles données invisibles. Les mesures clés comprennent le coefficient de détermination (R-squared), le coefficient ajusté (R-squared), l'erreur quadratique moyenne (MSE) et l'erreur quadratique moyenne (RMSE). Les techniques de validation croisée permettent d'évaluer les performances du modèle et de détecter le surajustement.
     
  • L'analyse résiduelle examine les différences entre les valeurs réelles et les valeurs prévues pour valider les hypothèses simples du modèle statistique et l'adéquation. Les graphiques des paramètres résiduels permettent d'identifier les modèles qui peuvent indiquer des violations d'hypothèses, telles que la non-linéarité, l'hétéroscédasticité ou la présence d'anomalies.
     
  • La sélection de fonctions, par exemple, devient importante dans les scénarios de paramètres de régression à valeurs multiples où il existe de nombreuses variables indépendantes potentielles. Les bonnes techniques telles que la sélection vers l'avant, l'élimination des paramètres vers l'arrière et la régression pas à pas permettent d'identifier les variables les plus pertinentes tout en évitant le surajustement.

Applications de la régression linéaire

L'ajustement de régression linéaire permet de trouver des applications de régression linéaire dans pratiquement tous les domaines impliquant l'utilisation d'une analyse quantitative. Sa polyvalence et son interprétabilité en font une technique incontournable pour de nombreuses applications commerciales et scientifiques.

  • Business and Economics utilise largement la régression linéaire des valeurs pour la prévision, les stratégies de tarification et l'analyse du marché. Les entreprises utilisent des régressions linéaires pour prévoir les ventes variables en fonction des dépenses publicitaires, comprendre la bonne relation entre les paramètres de prix et les paramètres de demande, et analyser l'impact des indicateurs économiques par secteur sur la performance de la valeur commerciale. Par exemple, les institutions financières fonctionnelles utilisent la régression linéaire numérique pour l’évaluation des risques, la notation du crédit et l’optimisation du portefeuille.
     
  • La recherche en santé et médicale utilise la régression linéaire de somme pour comprendre les relations entre les principaux traitements et les résultats, par exemple pour analyser l'efficacité des interventions et prédire les résultats des patients en fonction de divers facteurs. Les sociétés pharmaceutiques l’utilisent pour le développement de médicaments afin de comprendre les relations dose-réponse et d’identifier les protocoles de traitement optimaux.
     
  • Marketing et Customer Analytics appliquent une régression linéaire des valeurs pour comprendre le comportement des clients, prévoir la valeur à vie des clients et optimiser la valeur des campagnes marketing. En analysant la relation de régression linéaire entre les activités de marketing et les réponses des clients, les entreprises peuvent allouer les ressources numériques plus efficacement et améliorer le retour sur investissement.
     
  • La fabrication et le contrôle de la qualité utilisent la régression linéaire pour adapter et optimiser les processus de production, prévoir les défaillances de l'équipement et maintenir les normes de qualité. En comprenant les relations entre les paramètres du procédé et la qualité du produit, les fabricants peuvent améliorer l'efficacité et réduire les défauts.
     
  • Les sciences de l’environnement utilisent la fonction de la valeur avec des coefficients et une régression linéaire pour modéliser les modèles climatiques, prévoir les niveaux de pollution et comprendre l’impact des activités humaines sur les conditions environnementales. Cette demande de numéro est cruciale pour l'élaboration des politiques et les efforts de protection de l'environnement.
     
  • Sports Analytics a adopté la régression linéaire pour évaluer la performance des joueurs, prédire les résultats du jeu et optimiser les stratégies d'équipe. Cette technique permet de quantifier l’impact de divers facteurs sur le succès de l’équipe et les contributions individuelles des joueurs.

Pièges courants et meilleures pratiques

Bien qu'une fonction de régression linéaire avec des coefficients définis soit un outil de ligne puissant, plusieurs pièges de paramètres courants peuvent conduire à des conclusions incorrectes ou à de mauvaises performances du modèle statistique. Comprendre ces pièges de régression linéaire et suivre les meilleures pratiques de gauche est essentiel pour une mise en œuvre réussie.

Le surajustement par régression linéaire, par exemple, se produit lorsqu'un modèle de test est trop complexe par rapport à la quantité de données disponibles. Il en résulte d'excellentes performances sur les données d'entraînement, mais une mauvaise généralisation vers les nouvelles données. Pour éviter le surajustement des valeurs, utilisez des techniques de valeur telles que la validation croisée, la régularisation et la sélection minutieuse des fonctions. Le principe de parcimonie suggère par example de choisir des modèles statistiques plus simples lorsqu'ils fonctionnent de manière comparable à des modèles plus complexes et à gauche de champs.

Les violations d'hypothèses de régression linéaire peuvent avoir un impact important sur la validité du modèle. Vérifiez toujours les hypothèses de régression linéaire avant d'interpréter les résultats. Utilisez des tracés de diagnostic, des tests statistiques et des connaissances de domaine pour identifier et traiter les violations d'hypothèses. Lorsque les hypothèses ne sont pas respectées, envisagez d'autres approches de modélisation des variables statistiques ou de transformation des données.

Une fonction de corrélation par rapport à une fonction de causalité est un concept fondamental de régression linéaire qui est souvent mal compris en tant que min. La régression linéaire identifie les associations entre les variables, mais n'établit pas de causalité. Soyez prudent lorsque vous faites des allégations causales basées uniquement sur les résultats de régression. Prenez en considération, par exemple, la conception de régression linéaire expérimentale, les relations de nombre de lignes temporelles et les variables confusionnelles potentielles lors de l'interprétation des résultats.

Les considérations relatives à la taille du nombre d'échantillons sont essentielles pour obtenir des résultats fiables. S'assurer que la taille de l'échantillon est adéquate par rapport au nombre de variables de ligne. Une règle de régression linéaire courante suggère au moins 10 à 15 observations par variable indépendante, bien que cela puisse varier en fonction de la taille des effets et de la puissance statistique et de l'ajustement souhaités.

La validation de la fonction de ligne de modèle doit toujours inclure des tests sur des données indépendantes. Utiliser des techniques telles que la validation de l'exclusion et de l'ajustement, la validation croisée par K ou la validation de séries temporelles pour les données temporelles. Cela permet de s'assurer que le modèle statistique fonctionnera correctement sur les nouvelles données invisibles au minimum.

Récapitulation de la régression linéaire

Pour les organisations qui se lancent dans des initiatives de formation à l'IA, les plateformes cloud offrent l'évolutivité et la flexibilité nécessaires pour expérimenter différents modèles et approches. La régression linéaire sert souvent de modèle de référence dans les projets de machine learning, fournissant une référence par rapport à laquelle des algorithmes plus complexes peuvent être comparés. La capacité à provisionner rapidement des ressources, à effectuer des expériences pour s’adapter et à faire évoluer les calculs rend les plateformes cloud idéales pour le développement de modèles itératifs.

L'intégration de la régression linéaire fonctionnelle avec des pipelines d'analyse de données de lignes plus larges est transparente dans les environnements cloud. Les architectures modernes de data lake, qui combinent par exemple les meilleures fonctionnalités des data lake et des data warehouses, fournissent la base pour des workflows d'analyse complets. Ces architectures de régression linéaire prennent en charge les données structurées et non structurées, ce qui permet aux organisations d'appliquer une régression linéaire à diverses sources de données tout en maintenant des normes de performance et de gouvernance.

Alors que les organisations continuent par exemple à adopter une fonction de prise de décision axée sur les données, la combinaison de techniques fondamentales comme la régression linéaire avec une infrastructure cloud moderne fournit une base puissante pour le succès analytique. Les capacités d'accessibilité, d'évolutivité et d'intégration des plateformes de cloud test démocratisent l'analyse avancée, permettant aux organisations de toutes tailles d'exploiter des techniques statistiques sophistiquées pour bénéficier d'un avantage concurrentiel.

La régression linéaire, malgré sa simplicité apparente, reste l'un des outils les plus précieux de la boîte à outils du data scientist, y compris AI Training . L'interprétabilité de la régression linéaire, l'efficacité du calcul et son applicabilité à grande échelle en font une technique essentielle pour comprendre les relations dans les données et faire des prédictions éclairées. Lorsqu'elle est associée à une infrastructure cloud moderne de test et aux meilleures pratiques d'adéquation, la régression linéaire continue de générer des informations et de la valeur dans tous les secteurs et toutes les applications.

Public Cloud Icon

Managed Databases for Public Cloud

Simplifiez la gestion de vos données avec OVHcloud Managed Databases for Public Cloud. Concentrez-vous sur l'innovation, pas sur l'infrastructure. Nous nous occupons de l'exploitation de vos bases de données de test et de travail, y compris la configuration, la maintenance, les sauvegardes et la mise à l'échelle. Choisissez parmi une large gamme de moteurs alpha populaires comme MySQL, PostgreSQL, MongoDB et plus encore. Vos bases de données sont opérationnelles en quelques minutes, y compris ETL , bénéficiez d'une tarification de ligne prévisible, d'une haute disponibilité et d'une sécurité robuste, le tout intégré de manière transparente dans votre environnement Public Cloud OVHcloud.

Hosted Private cloud Icon

AI Deploy

Accélérez votre projet de machine learning et adaptez-le à AI Deploy, une plateforme puissante pour déployer et exécuter vos modèles de matrice d'IA à l'échelle. Servez sans effort vos modèles formés comme des services web ou des tâches en lot, sans vous soucier de la complexité de l'infrastructure. AI Deploy prend en charge les frameworks alpha populaires et offre une allocation flexible des ressources, vous permettant ainsi de faire évoluer vos applications d'IA pour répondre à la demande. Concentrez-vous sur la création d'une IA révolutionnaire et laissez AI Deploy gérer le déploiement et l'exécution avec facilité.

Bare MetaL Icon

AI Endpoints

Monétisez et partagez vos modèles d'IA en toute sécurité avec AI Endpoints. Ce service vous permet d’exposer vos modèles d’IA sous forme d’API robustes et évolutives, en les rendant accessibles aux applications et aux utilisateurs. Avec AI Endpoints, vous bénéficiez d'une authentification, d'une surveillance et d'un versionning intégrés, garantissant ainsi la fiabilité et l'efficacité de vos modèles alpha et matriciels. Transformez vos créations d'IA en services précieux et permettez à d'autres d'intégrer votre intelligence et votre data lake house dans leurs solutions.