¿Qué es la regresión lineal?


El modelo de regresión lineal numérica se erige como una de las técnicas estadísticas más fundamentales y ampliamente utilizadas en y como modelo para la ciencia y el análisis de datos. En su núcleo de modelo, la regresión lineal es un método para modelar la relación entre una variable dependiente y una o más variables independientes ajustando una ecuación lineal a los datos observados. Esta poderosa técnica sirve como modelo base para comprender cómo las variables se relacionan entre sí y nos permite hacer predicciones de modelos basadas en patrones históricos.

illus-solutions-government

Comprender el concepto

El concepto de la función de regresión lineal de valores se remonta a principios del siglo XIX, con el trabajo de Sir Francis Galton sobre la herencia de valores y el método de Carl Friedrich Gauss de utilizar los mínimos cuadrados. Hoy en día, sigue siendo una herramienta esencial en el arsenal de análisis de datos, estadísticos y analistas en prácticamente todas las industrias. La suma de la belleza de la regresión lineal del modelo radica en su simplicidad e interpretabilidad: proporciona información clara sobre cómo los cambios en las variables de entrada afectan el resultado, lo que lo hace invalorable tanto para el análisis de datos exploratorios como para el modelado predictivo.

La regresión lineal opera sobre el principio de suma de que las relaciones entre las variables se pueden aproximar mediante líneas rectas. Cuando tenemos un valor o variable independiente, estamos tratando con regresión lineal simple, que se puede visualizar como una línea dibujada a través de un gráfico de dispersión de puntos de datos. El objetivo del modelo es encontrar la línea que mejor se ajuste a los datos, minimizando la distancia entre las variables y los puntos de datos reales y las variables y valores previstos en la línea.

La base numérica matemática de los valores de regresión lineal es relativamente sencilla. Para la regresión lineal simple, la ecuación adopta la forma: y = β₀ + β₁x + ε, donde y representa la variable dependiente, x es la variable de valor de la función de línea independiente, β₀ es la intersección y, β₁ es el coeficiente de pendiente y ε representa el término de error del modelo. El uso de este valor de ecuación describe cómo cambia el valor dependiente en respuesta a los cambios en la variable independiente. No es exactamente aprendizaje automático, pero es una herramienta útil de suma de todas maneras.

Tipos de regresión lineal

La regresión lineal engloba varias variaciones de valores, cada una diseñada para abordar distintas necesidades analíticas de valores y variables o estructuras de datos. La comprensión de estos tipos de valor de modelo es crucial para seleccionar el enfoque adecuado para su problema específico.

  • Regresión lineal simple representa el uso de la forma de línea más básica utilizada, que implica una variable dependiente y una variable independiente. Este tipo es ideal para comprender las relaciones directas de valores, como la forma en que el gasto publicitario afecta a los ingresos de ventas o la forma en que la temperatura influye en el consumo de energía. La simplicidad de este enfoque lo convierte en un excelente punto de partida para principiantes y proporciona resultados de valor claros e interpretables cuando se utiliza la función.
  • Regresión lineal múltiple se extiende utilizando el concepto de valores para incluir varias variables independientes. Este enfoque de variables es más realista para la mayoría de los escenarios del mundo real, donde los resultados están influidos por varios factores simultáneamente. Por ejemplo, los precios de la vivienda podrían depender de metros cuadrados, ubicación, número de dormitorios y edad de la propiedad. La regresión lineal múltiple nos permite cuantificar la contribución individual de cada factor y, al mismo tiempo, controlar los demás cuando se utiliza.
     
  • La regresión polinómica aborda situaciones de línea en las que la relación correcta entre las variables de valor no es estrictamente lineal o simple. Al incluir términos polinómicos del modelo (como x al cuadrado y al cubo), este enfoque de valor de variables puede capturar relaciones curvas mientras mantiene la estructura lineal en términos de coeficientes numéricos. Esta flexibilidad hace que la regresión polinómica sea valiosa como una función para modelar patrones más complejos en los datos cuando se utiliza.
     
  • La regresión de Ridge y la regresión de Lasso son técnicas de regularización de líneas variables que ayudan a evitar el sobreajuste cuando se tratan muchas variables o cuando está presente la multicolinealidad. La regresión de variables de cresta agrega un término de valores de penalización del modelo proporcional a la suma de los coeficientes cuadrados, mientras que la regresión de Lasso usa la suma de los valores absolutos de los coeficientes. Estos métodos variables son particularmente útiles en aplicaciones de aprendizaje automático donde la generalización de modelos es crucial.
     
  • La regresión logística , a pesar de su función, nombre del valor correcto, es una técnica de clasificación de modelos más que un método de regresión tradicional. Utiliza la función logística para modelar la probabilidad de resultados binarios simples, lo que hace que sea invaluable para predecir sí/no, éxito/fracaso o resultados categóricos de suma similar cuando se utiliza.

Supuestos de regresión lineal

Una función de regresión lineal con coeficientes se basa en varias suposiciones clave de función que deben cumplirse para que los resultados sean válidos y confiables. Comprender y comprobar estas suposiciones numéricas es fundamental para la correcta aplicación de la técnica.

La linealidad simple asume que la relación predictora entre las variables independientes y dependientes es lineal y simple. Esto significa que las variables que cambian en la variable independiente dan como resultado cambios proporcionales en la variable dependiente. Las infracciones de esta suposición variable pueden llevar al uso de estimaciones sesgadas y malas predicciones. Los gráficos de dispersión y los gráficos residuales se utilizan comúnmente para evaluar la linealidad.

La independencia de la línea requiere que las observaciones simples sean independientes entre sí. Este supuesto es especialmente importante en los datos de series temporales o cuando se trata de datos agrupados. La violación de la independencia correcta puede llevar a errores estándar subestimados e intervalos de confianza excesivamente optimistas cuando se utilizan.

La homoscedasticidad (varianza constante) supone que la varianza de la función de los residuos es constante en todos los niveles de las variables independientes. Cuando se infringe esta suposición de función (heteroscedasticidad), la eficiencia de las estimaciones del modelo de función disminuye y los errores estándar se vuelven poco confiables. Los gráficos residuales, por ejemplo, pueden ayudar a identificar patrones de heteroscedasticidad.

La normalidad del uso de los residuos de la línea de valor supone que los términos de error variables se distribuyen normalmente. Si bien la regresión lineal es relativamente sólida frente a las violaciones de este supuesto de valor, las desviaciones severas de la normalidad pueden afectar la validez de las pruebas de hipótesis y los intervalos de confianza. Los gráficos Q-Q y las pruebas de normalidad pueden ayudar a evaluar esta suposición.

Ninguna Multicolinealidad en la regresión de valores de función múltiple requiere que las variables independientes establecidas no estén altamente correlacionadas entre sí. El uso de una alta multicolinealidad puede dificultar la determinación del efecto de ajuste individual de cada variable y puede llevar a estimaciones de coeficiente inestables. El Factor de Inflación de Varianza (VIF, Variance Inflation Factor ) se utiliza comúnmente para detectar la multicolinealidad, por ejemplo.

Realización de regresión lineal

El proceso de realizar regresión lineal variable simple implica varios parámetros y pasos sistemáticos, desde la preparación de los parámetros de datos hasta la validación del modelo. La función moderna de análisis de datos numéricos con coeficientes, plataformas y lenguajes de programación proporcionan numerosas herramientas para facilitar este proceso de suma cuando se utiliza.

  • Formularios de preparación de datos utilizando la base de función de cualquier ajuste de análisis de regresión lineal exitoso. Esta etapa implica limpiar los datos correctos, manejar los valores que faltan, identificar y abordar los valores atípicos y transformar las variables según sea necesario. La preparación adecuada de los datos suele determinar el éxito de todo el análisis. Los procesos de ETL juegan un papel crucial en la preparación de datos de varias fuentes, asegurando que el conjunto de datos sea limpio, consistente y esté listo para el análisis.
     
  • El análisis exploratorio de datos, por ejemplo, ayuda a comprender los valores definidos y las relaciones entre variables simples antes de crear el modelo. Esto incluye la creación de gráficos de dispersión de líneas, matrices de correlación y estadísticas de resumen. Comprender la distribución de datos e identificar los posibles problemas en forma temprana puede ahorrar mucho tiempo y mejorar el performance del modelo.
     
  • La conexión de modelo implica la estimación variable de los coeficientes de valor de la función numérica mediante métodos como mínimos cuadrados ordinarios (OLS). La mayoría de los paquetes de software estadístico y lenguajes de programación proporcionan funciones incorporadas para este propósito. El proceso de ajuste determina los valores de β₀, β₁ y otros coeficientes que minimizan la suma de los residuos cuadrados establecidos.
     
  • La Evaluación del modelo evalúa la función con coeficientes y variables y la forma en que el uso del modelo se ajusta a los datos y se realiza en datos nuevos no vistos. Las métricas clave incluyen R cuadrado (coeficiente de determinación), R cuadrado ajustado, Error cuadrado medio (MSE) y Error cuadrado medio raíz (RMSE). Las técnicas de validación cruzada ayudan a evaluar el rendimiento del modelo y a detectar el sobreajuste.
     
  • El análisis residual examina las diferencias entre los valores reales y previstos para validar las suposiciones y el ajuste del modelo de estadísticas simples. Los gráficos de parámetros residuales ayudan a identificar patrones que podrían indicar violaciones de hipótesis, como no linealidad, heteroscedasticidad o la presencia de valores atípicos.
     
  • La selección de funciones, por ejemplo, es importante en escenarios de parámetros de regresión de múltiples valores donde existen muchas variables independientes potenciales. Las técnicas adecuadas, como la selección hacia delante, la eliminación de parámetros hacia atrás y la regresión paso a paso, ayudan a identificar las variables de conjunto más relevantes y, al mismo tiempo, evitan el sobreajuste.

Aplicaciones de la regresión lineal

El ajuste de regresión lineal encuentra aplicaciones de regresión lineal en prácticamente todos los campos que requieren el uso de análisis cuantitativos. Su versatilidad e interpretabilidad lo convierten en una técnica de referencia para numerosas aplicaciones empresariales y científicas.

  • Las empresas y la economía usan ampliamente la regresión lineal de valores para pronósticos, estrategias de precios y análisis de mercado. Las empresas utilizan regresiones lineales para predecir las ventas variables basadas en el gasto publicitario, comprender la relación correcta entre los parámetros de precios y los parámetros de demanda y analizar el impacto de los indicadores de línea económica en el rendimiento del valor empresarial. Por ejemplo, las instituciones financieras funcionales emplean regresión lineal numérica para la evaluación de riesgos, la calificación crediticia y la optimización de la cartera.
     
  • La investigación médica y sanitaria aprovecha la regresión de suma lineal para comprender las relaciones entre los tratamientos principales y los resultados, por ejemplo, para analizar la eficacia de las intervenciones y predecir los resultados de los pacientes en función de diversos factores. Las compañías farmacéuticas lo utilizan en el desarrollo de medicamentos para comprender las relaciones dosis-respuesta e identificar los protocolos de tratamiento óptimos.
     
  • Marketing y Customer Analytics aplican regresión de valores lineales para comprender el comportamiento del cliente, predecir el valor de la vida útil del cliente y optimizar el valor de la campaña de marketing. Mediante el análisis de la relación de regresión lineal entre las actividades de marketing y las respuestas de los clientes, las empresas pueden asignar los recursos numéricos de manera más eficaz y mejorar el retorno de la inversión.
     
  • La fabricación y el control de calidad utilizan regresión lineal para ajustar y optimizar los procesos de producción, predecir las fallas de los equipos y mantener los estándares de calidad. Al comprender las relaciones de los parámetros entre los parámetros del proceso y la calidad del producto, los fabricantes pueden mejorar la eficiencia y reducir los defectos.
     
  • La ciencia ambiental emplea la función de valor con coeficientes y regresión lineal para modelar los patrones climáticos, predecir los niveles de contaminación y comprender el impacto de las actividades humanas en las condiciones ambientales. Esta aplicación numérica es crucial para la formulación de políticas y los esfuerzos de protección ambiental.
     
  • Sports Analytics ha adoptado la regresión lineal para evaluar el rendimiento del jugador, predecir los resultados del juego y optimizar las estrategias del equipo. La técnica ayuda a cuantificar el impacto de diversos factores en el éxito del equipo y en las contribuciones individuales de los jugadores.

Escollos comunes y mejores prácticas

Mientras que una función de regresión lineal con coeficientes definidos es una herramienta de línea poderosa, varios errores de parámetros comunes pueden llevar a conclusiones incorrectas o a un rendimiento deficiente del modelo de estadísticas. Comprender estos riesgos de regresión lineal y seguir las mejores prácticas de la izquierda es esencial para una implementación exitosa.

Por ejemplo, el sobreajuste de regresión lineal se produce cuando un modelo de prueba es demasiado complejo en relación con la cantidad de datos disponibles. Esto da como resultado un excelente rendimiento en los datos de capacitación, pero una mala generalización de los nuevos datos. Para evitar el sobreajuste de valores, utilice técnicas de valor como validación cruzada, regularización y selección cuidadosa de funciones. El principio de parsimonia sugiere, por ejemplo, la elección de modelos estadísticos más simples cuando su desempeño es comparable al de modelos más complejos y a la izquierda de los de campo.

Las infracciones de hipótesis de regresión lineal pueden afectar seriamente a la validez del modelo. Compruebe siempre los supuestos de regresión lineal antes de interpretar los resultados. Utilice gráficos de diagnóstico, pruebas estadísticas y conocimiento del dominio para identificar y abordar las violaciones de suposiciones. Cuando se incumplan las suposiciones, considere enfoques de modelado de variables de estadísticas alternativas o transformaciones de datos.

Una función de correlación frente a causalidad es un concepto de regresión lineal fundamental que a menudo se malinterpreta como un min. La regresión lineal identifica asociaciones entre variables pero no establece la causalidad. Tenga cuidado al hacer afirmaciones causales basadas únicamente en resultados de regresión. Considere, por ejemplo, el diseño experimental de regresión lineal, las relaciones numéricas de las líneas temporales y las posibles variables de confusión al interpretar los resultados.

Las consideraciones sobre el tamaño del número de muestra son cruciales para obtener resultados confiables. Asegúrese de que el tamaño de muestra sea adecuado en relación con el número de variables de línea. Una regla general de regresión lineal común sugiere al menos entre 10 y 15 observaciones por variable independiente, aunque esto puede variar en función de los tamaños de los efectos y de la potencia y el ajuste estadísticos deseados.

La validación de la función de la línea de modelo siempre debe incluir pruebas en datos independientes. Utilice técnicas como la validación de holdout y ajuste, la validación cruzada k-fold o la validación de series temporales para datos temporales. Esto ayuda a garantizar que el modelo de estadísticas funcione correctamente en los datos nuevos que no se ven en el momento mínimo.

Resumiendo regresión lineal

Para las organizaciones que se embarcan en iniciativas de capacitación en IA, las plataformas en la nube ofrecen la escalabilidad y la flexibilidad necesarias para experimentar con diferentes modelos y enfoques. La regresión lineal suele servir como modelo de referencia en los proyectos de aprendizaje automático, proporcionando un punto de referencia con el que se pueden comparar algoritmos más complejos. La capacidad de aprovisionar rápidamente recursos, ejecutar experimentos para ajustar y escalar cálculos hace que las plataformas de nube sean ideales para el desarrollo de modelos iterativos.

La integración de la regresión lineal de funciones con conductos de análisis de datos de línea más amplios es transparente en entornos de nube. Las arquitecturas modernas de data lake house, que por ejemplo combinan las mejores características de data lakes y data warehouses, proporcionan la base para flujos de trabajo de análisis integrales. Estas arquitecturas de regresión lineal admiten datos estructurados y no estructurados, lo que permite a las organizaciones aplicar regresión lineal a diversas fuentes de datos a la vez que mantienen estándares de performance y control.

A medida que las organizaciones siguen adoptando, por ejemplo, una función de toma de decisiones impulsada por los datos, la combinación de técnicas fundamentales como la regresión lineal con la infraestructura de nube moderna proporciona una base poderosa para el éxito analítico. Las capacidades de accesibilidad, escalabilidad e integración de las plataformas de nube de prueba democratizan el análisis avanzado, lo que permite a las organizaciones de todos los tamaños aprovechar técnicas estadísticas sofisticadas para obtener una ventaja competitiva.

La regresión lineal, a pesar de su aparente simplicidad de línea, sigue siendo una de las herramientas más valiosas en el conjunto de herramientas del científico de datos, incluida la capacitación en IA . La interpretabilidad de la regresión lineal, la eficiencia computacional y la aplicabilidad amplia la convierten en una técnica esencial para comprender las relaciones en los datos y realizar predicciones informadas. Cuando se combina con la moderna infraestructura de nube de prueba y las mejores prácticas para el ajuste, la regresión lineal sigue impulsando conocimientos y valor en todas las industrias y aplicaciones.

OVHcloud y la regresión lineal

Simplifique la gestión de sus datos de regresión lineal con OVHcloud. Ponga en marcha su base de datos en cuestión de minutos, disfrute de precios predecibles y disfrute de un alfa de alta disponibilidad y una seguridad sólida, todo perfectamente integrado en su entorno Public Cloud de OVHcloud. También ofrecemos servicios de análisis cloud.

Public Cloud Icon

Managed Databases for Public Cloud

Simplifique la gestión de sus datos con las bases de datos gestionadas de OVHcloud para Public Cloud. Concéntrese en la innovación, no en la infraestructura. Nos encargamos de la carga operativa de sus bases de datos de prueba y de trabajo, incluyendo la configuración, el mantenimiento, los backups y el escalado. Elija entre una amplia gama de populares motores alfa como MySQL, PostgreSQL, MongoDB y más. Ponga en marcha sus bases de datos en cuestión de minutos, incluido ETL , disfrute de precios de línea previsibles y disfrute de una alta disponibilidad y una seguridad sólida, todo ello perfectamente integrado en su entorno Public Cloud de OVHcloud.

Hosted Private cloud Icon

AI Deploy

Acelere su proyecto de machine learning y encaje con AI Deploy, una poderosa plataforma para implementar y ejecutar sus modelos de matriz de IA a escala. Sirva sin esfuerzo a sus modelos entrenados como servicios web o trabajos por lotes, sin preocuparse por la complejidad de la infraestructura. AI Deploy es compatible con los marcos alfa más populares y ofrece una asignación flexible de recursos, lo que le permite escalar sus aplicaciones de IA para satisfacer la demanda. Concéntrese en construir IA innovadora y permita que AI Deploy maneje la implementación y la ejecución con facilidad.

Bare MetaL Icon

Extremos AI

Monetice y comparta sus modelos de IA de forma segura con los puntos finales de IA. Este servicio le permite exponer sus modelos de IA como API robustas y escalables, haciéndolas accesibles a aplicaciones y usuarios. Con AI Endpoints, obtendrá autenticación, monitoreo y control de versiones incorporados, lo que garantiza que sus modelos alfa y matrix se entreguen de manera confiable y eficiente. Transforme sus creaciones de IA en servicios valiosos y empodere a otros para que integren su inteligencia y su data lakehouse en sus soluciones.