Para resolver un ejercicio de regresión lineal múltiple a mano, generalmente se utiliza el método de mínimos cuadrados ordinarios para encontrar los coeficientes que mejor ajustan un modelo del tipo .
A continuación, se detalla un ejercicio resuelto paso a paso para un modelo con dos variables independientes ( ). Ejercicio de ejemplo Datos iniciales ( ): (Respuesta) X1cap X sub 1 X2cap X sub 2 1. Calcular productos y cuadrados
El primer paso es obtener las sumatorias necesarias para construir el sistema de ecuaciones. 2. Plantear el sistema de ecuaciones normales Para encontrar a mano, resolvemos el siguiente sistema: Sustituyendo nuestros valores: 3. Resolver el sistema Podemos usar el método de eliminación o matrices. De la ec. (1): Sustituyendo β0beta sub 0 en (2): Sustituyendo β0beta sub 0 en (3): Resolviendo las dos ecuaciones restantes: (multiplicamos por -2) Sumamos: Sustituimos: Calculamos β0beta sub 0 : Ecuación Final ✅
La ecuación de regresión estimada para este conjunto de datos es:
Ŷ=5+5X1+0X2cap Y hat equals 5 plus 5 cap X sub 1 plus 0 cap X sub 2 Esto indica que, por cada unidad que aumenta X1cap X sub 1 , aumenta 5 unidades (manteniendo X2cap X sub 2 constante), mientras que X2cap X sub 2
no tiene un efecto lineal directo en este modelo simplificado.
¿Te gustaría que resolvamos otro ejercicio con datos diferentes o que profundicemos en el método matricial? Multiple linear regression with matrices and by hand
Para dominar la regresión lineal múltiple a mano, imagina que eres el dueño de un pequeño negocio de jugos. Quieres predecir tus ventas diarias ( ) basándote en dos factores: la inversión en publicidad ( X1cap X sub 1 ) y la temperatura ambiente ( X2cap X sub 2 ).
Aquí tienes la "historia" de cómo resolverías este problema paso a paso. 1. El Escenario: Tus Datos
Recolectas datos de 5 días para ver cómo afectan tus variables a las ventas ( Publicidad ( X1cap X sub 1 X2cap X sub 2 El objetivo es hallar la ecuación: 2. El Nudo: El Proceso Matemático
Resolver esto "a mano" implica seguir un orden riguroso para no perderse en los números. Paso 1: Cálculos Básicos
Primero, debes crear una tabla extendida calculando los cuadrados y productos cruzados de cada fila: X12cap X sub 1 squared X22cap X sub 2 squared Paso 2: Sumatorias de Regresión
Suma cada columna de tu tabla. Luego, usa las fórmulas de desviación para simplificar el sistema (esto ayuda a que los números sean más pequeños y manejables): (Repite para todas las combinaciones posibles). Paso 3: Resolver los Coeficientes (
Utiliza las fórmulas específicas para un modelo de dos variables: :
(∑x22)(∑x1y)−(∑x1x2)(∑x2y)(∑x12)(∑x22)−(∑x1x2)2the fraction with numerator open paren sum of x sub 2 squared close paren open paren sum of x sub 1 y close paren minus open paren sum of x sub 1 x sub 2 close paren open paren sum of x sub 2 y close paren and denominator open paren sum of x sub 1 squared close paren open paren sum of x sub 2 squared close paren minus open paren sum of x sub 1 x sub 2 close paren squared end-fraction :
(∑x12)(∑x2y)−(∑x1x2)(∑x1y)(∑x12)(∑x22)−(∑x1x2)2the fraction with numerator open paren sum of x sub 1 squared close paren open paren sum of x sub 2 y close paren minus open paren sum of x sub 1 x sub 2 close paren open paren sum of x sub 1 y close paren and denominator open paren sum of x sub 1 squared close paren open paren sum of x sub 2 squared close paren minus open paren sum of x sub 1 x sub 2 close paren squared end-fraction Paso 4: El Intercepto (
Una vez tienes las pendientes, el punto de partida es fácil: 3. El Desenlace: Interpretación de Resultados Supongamos que tras tus cálculos obtienes:
: Si no inviertes nada en publicidad y hace 0 grados, venderías 20 jugos (teóricamente). regresion lineal multiple ejercicios resueltos a mano
: Por cada peso extra en publicidad, tus ventas suben 15 unidades, manteniendo la temperatura constante.
: Por cada grado que sube la temperatura, vendes 4 jugos más, manteniendo la publicidad constante. Herramientas de Apoyo
Si los cálculos matriciales se vuelven muy complejos para hacerlos totalmente a mano, puedes consultar guías paso a paso en sitios como Statology o ver ejemplos prácticos en YouTube.
¿Te gustaría que apliquemos estos pasos a un conjunto de números específicos para ver cómo queda la tabla de sumatorias? Regresión Lineal Múltiple Paso a Paso | PDF - Scribd
Modelo: Y = X β + ε, donde:
Y = [75, 80, 65, 90, 70]^T
X = [1 4 6 1 5 7 1 3 5 1 6 8 1 4 6]
La primera columna de unos sirve para estimar b₀.
While statistical software like R, Python, or SPSS handles multiple regression effortlessly, performing calculations by hand is the best way to truly understand the underlying mechanics. This article will guide you through the concepts and manual calculations of multiple linear regression with two independent variables.
The model is: [ Y_i = b_0 + b_1 X_1i + b_2 X_2i + e_i ]
Where:
We need to solve the normal equations (derived from minimizing sum of squared errors):
[ \begincases \sum Y = nb_0 + b_1\sum X_1 + b_2\sum X_2 \ \sum X_1Y = b_0\sum X_1 + b_1\sum X_1^2 + b_2\sum X_1X_2 \ \sum X_2Y = b_0\sum X_2 + b_1\sum X_1X_2 + b_2\sum X_2^2 \endcases ]
Una vez obtenidos $\beta_0, \beta_1, \beta_2$, se calculan los indicadores de calidad del modelo:
A. Suma de Cuadrados Totales (SCT): $$SCT = \sum Y^2 - \frac(\sum Y)^2n$$
B. Suma de Cuadrados del Error (SCE) o Residual: $$SCE = \sum (Y - \hatY)^2 = \sum e^2$$ (Se calcula restando el valor predicho al real en tu tabla).
C. Coeficiente de Determinación ($R^2$): $$R^2 = 1 - \fracSCESCT$$ Interpretación: Porcentaje de variabilidad de $Y$ explicada por el modelo. Para resolver un ejercicio de regresión lineal múltiple
D. Error Estándar de la Estimación ($S_e$): $$S_e = \sqrt\fracSCEn - k - 1$$ Donde $k$ es el número de variables independientes.
E. Coeficiente de Determinación Ajustado ($R^2_adj$): Crucial en regresión múltiple, ya que el $R^2$ normal siempre aumenta al añadir variables. $$R^2_adj = 1 - (1 - R^2) \fracn-1n-k-1$$
Ahora resolvemos un modelo más realista con 3 predictores y 4 observaciones, usando álgebra matricial.
Problema: Se quiere predecir la resistencia de un material ((Y)) en función de la temperatura ((X_1)), presión ((X_2)) y tiempo de curado ((X_3)).
Datos:
| Obs | (Y) | (X_1) | (X_2) | (X_3) | |-----|-------|---------|---------|---------| | 1 | 10 | 1 | 2 | 1 | | 2 | 12 | 2 | 1 | 2 | | 3 | 15 | 3 | 3 | 3 | | 4 | 18 | 4 | 2 | 4 |
Modelo: (Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \varepsilon)
[ \mathbfY = \mathbfX\boldsymbol\beta + \boldsymbol\varepsilon ] [ \mathbfY = \beginbmatrix 10 \ 12 \ 15 \ 18 \endbmatrix, \quad \mathbfX = \beginbmatrix 1 & 1 & 2 & 1 \ 1 & 2 & 1 & 2 \ 1 & 3 & 3 & 3 \ 1 & 4 & 2 & 4 \endbmatrix, \quad \boldsymbol\beta = \beginbmatrix \beta_0 \ \beta_1 \ \beta_2 \ \beta_3 \endbmatrix ]
Multiply the inverse by $X'Y$:
$\hat\beta_0 = 11\cdot425 + (-2.5)\cdot2255 + (-2.5)\cdot1355$
$= 4675 - 5637.5 - 3387.5 = 4675 - 9025 = -4350$? That’s huge! Something’s wrong.
Correction: I see an error. The inverse should yield reasonable coefficients. Let me recompute the adjugate properly.
Given $\det(A) = 20$:
Cofactor matrix $C$:
$C_11 = +(151\cdot55 - 91\cdot91) = 8305-8281=24$
$C_12 = -(25\cdot55 - 91\cdot15) = -(1375-1365) = -10$
$C_13 = +(25\cdot91 - 151\cdot15) = 2275-2265=10$
$C_21 = -(25\cdot55 - 15\cdot91) = -(1375-1365) = -10$
$C_22 = +(5\cdot55 - 15\cdot15) = 275-225=50$
$C_23 = -(5\cdot91 - 15\cdot25) = -(455-375) = -80$
$C_31 = +(25\cdot91 - 15\cdot151) = 2275-2265=10$
$C_32 = -(5\cdot91 - 15\cdot25) = -(455-375) = -80$
$C_33 = +(5\cdot151 - 25\cdot25) = 755-625=130$
Adjugate = transpose of cofactor matrix: La primera columna de unos sirve para estimar b₀
$$ \textadj(A) = \beginbmatrix 24 & -10 & 10 \ -10 & 50 & -80 \ 10 & -80 & 130 \endbmatrix^T = \beginbmatrix 24 & -10 & 10 \ -10 & 50 & -80 \ 10 & -80 & 130 \endbmatrix $$
(It's symmetric here by coincidence.)
Thus: $$ (X'X)^-1 = \frac120 \beginbmatrix 24 & -10 & 10 \ -10 & 50 & -80 \ 10 & -80 & 130 \endbmatrix = \beginbmatrix 1.2 & -0.5 & 0.5 \ -0.5 & 2.5 & -4 \ 0.5 & -4 & 6.5 \endbmatrix $$
Now multiply correctly:
$\hat\beta_0 = 1.2\cdot425 + (-0.5)\cdot2255 + 0.5\cdot1355$
$= 510 - 1127.5 + 677.5 = 60$
$\hat\beta_1 = (-0.5)\cdot425 + 2.5\cdot2255 + (-4)\cdot1355$
$= -212.5 + 5637.5 - 5420 = 5$
$\hat\beta_2 = 0.5\cdot425 + (-4)\cdot2255 + 6.5\cdot1355$
$= 212.5 - 9020 + 8807.5 = 0$
So $\beta_2 = 0$? That means quizzes don't matter given hours studied. Let’s check: indeed, with perfect multicollinearity? No, but data shows quizzes correlate with hours.
Wait — but our data: quizzes increase with hours. Let’s test manually:
If $\beta_2=0$, equation is $Y = 60 + 5X_1$:
For $X_1=2$: 70 ✓; $X_1=3$: 75 ✓; $X_1=5$: 85 ✓; $X_1=7$: 95 ✓; $X_1=8$: 100 ✓. Perfect fit!
So indeed, $X_2$ adds no unique information — the quizzes are redundant because $X_2 = 0.5 X_1$? Let's see: 2→1, 3→2 (not exactly linear but close). Actually, here $X_2 = X_1 -1$? No, 2→1, 3→2, 5→3, 7→4, 8→5 → $X_2 = X_1 - 1$? Check: 2-1=1✓, 3-1=2✓, 5-1=4? No, 5-1=4 but we have 3. So not exact. But the regression found $X_2$ irrelevant.
Thus final equation:
$$ \hatY = 60 + 5X_1 + 0X_2 $$
Or simply $\hatY = 60 + 5\cdot(\textHours)$.
For student 3 (( X_1=4, X_2=7 )):
( \hatY = 55 + 5(4) + 0 = 75 ) ✅ matches actual Y.
If you’d like an example where all coefficients are nonzero or a manual matrix solution (inverse of XᵀX), just let me know.