Regressão Linear – Parte 1

20/11/2023

ÍNDICE DE CONTEÚDO

Este post faz parte da série Introdução ao Machine Learning

Oi galera! Estamos de volta com mais um artigo. Hoje falaremos sobre Regressão Linear, um dos modelos mais básicos e tradicionais em Machine Learning. Partiu então?

Introdução

O nome “regressão” pode nos confundir bastante, mas já falamos um pouco sobre isso no artigo sobre Classificação X Regressão. De uma maneira bem direta e simples, a regressão linear consiste em construir um modelo que prevê números. O “linear” vem de linha ou reta, dessa forma, o objetivo do modelo é encontrar uma reta, ou melhor, traçar uma reta, o mais próxima possível dos dados e essa reta, portanto, descreve os dados. Também é por isso que dizemos “fit the model to the data”, isto é, “ajustar o modelo aos dados”, pois o modelo vai tentar se adequar aos dados que foram usados como entrada. Então, com a regressão linear estaremos modelando e avaliando relações entre dados numéricos, ou se preferir, variáveis numéricas.

Vamos recordar que os atributos alvo são sempre denotados por Y, e também podem ser chamados de variáveis dependentes. Os atributos de entrada são denotados sempre por X, e também podem ser chamados de atributos previsores ou variáveis explanatórias. Para quem não sabe, explanatória vem de explanar, isto é, explicar algo. Nós podemos ter um problema em que será necessário prever um único valor numérico, ou um problema em que é preciso prever vários valores numéricos (vários targets, ou vários atributos alvo, ou ainda vários atributos de saída). Podemos chamar esses problemas de single-target e multi-target respectivamente.

Finalizando, podemos resumir tudo como: “a regressão linear permite criar modelos que usam relações lineares entre as variáveis para predizer o valor de outra variável”. Está em aspas pois essa frase foi dita por Dmitry Kobak. Eu gostei muito de como ele definiu o conceito de regressão linear e decidi replicar aqui para vocês. Inclusive, recomendo que deem uma olhada nas aulas dele no Youtube, mas é preciso saber inglês e ter um pouco de embasamento matemático.

Que tipos de problemas podemos resolver com regressão linear? Alguns exemplos: prever a velocidade do vento a partir da temperatura, umidade e pressão do ar; prever a altura dos filhos com base na altura dos pais e antepassados; prever o valor do plano de saúde a partir da idade da pessoa, prever valores de vendas para um comércio, etc. Para quem quiser se aprofundar no assunto, e entender melhor a importância desta técnica para o mundo real, recomendo a leitura deste livro da Flávia Chain totalmente em português.

Regressão Linear Tradicional

Podemos usar regressão linear em dados que demonstram que existe uma relação linear entre as variáveis, isto é, ambas as variáveis crescem juntas. Crescer juntas significa que a variável 1 aumenta conforme a variável 2 também aumenta. O modelo de regressão linear tradicional (e mais simples) é aquele que consiste em traçar uma linha o mais próxima possível dos dados. O modelo tenta minimizar a distância vertical dos dados até a linha e é aqui que entra o como fazer isto acontecer. Uma forma é usar o cálculo dos mínimos quadrados (Mean Squared Error), onde o modelo busca obter uma reta que resulta na menor soma das distâncias quadradas de todos os dados até ela. Vamos entender melhor tudo isto com exemplos e imagens.

Figura 1: Gráfico ilustrando a regressão linear

Os pontos azuis no gráfico da Figura 1 são os dados do dataset. A linha vermelha é a linha que foi encontrada pelo modelo para os dados. Os eixos X e Y correspondem aos atributos de entrada e saída, ou variáveis de interesse. Por fim, a Equação 1 mostra os parâmetros básicos do modelo para apenas 2 variáveis:

y = b0 + b1 * x1 (1)

Como podem notar b0 e b1 que estão no gráfico também estão presentes na Equação 1, a qual corresponde à equação do traçado de reta usada lá em computação gráfica. Quando temos mais de duas variáveis, a equação muda, vejam a Equação 2:

y = b0 + b1 * x1 + b2 * x2 + … + ba * xa (2)

onde o “a” indica o número total de atributos do dataset. Como vocês podem notar, X = x1, x2, …., xa são os atributos e b0 e b1 são parâmetros do modelo que teremos de ajustar. Portanto, a equação 1 é referente à regressão linear simples, enquanto que a equação 2 refere-se à regressão linear múltipla. O parâmetro b0 é um valor constante que indica basicamente onde a reta começa, enquanto que o b1, b2, …, ba são valores de inclinação da reta. A Figura 2 ilustra o que pode acontecer com a reta, quando ela começa em 0, enquanto estamos ajustando os parâmetros.

Figura 2: Tentativas de traçados de retas durante o ajuste dos parâmetros

Para facilitar a visualização, coloquei cada linha em uma cor diferente. Não existe um consenso sobre qual é a melhor forma de realizar o ajuste dos parâmetros, mas o importante é que você defina isto e deixe claro para o time em que está trabalhando como isto está sendo feito. É importante também para replicar os experimentos. E não se esqueça que, sempre é possível fazer inúmeras experimentações, tentativas e erros mesmo, antes de rodar um modelo final. Você deve testar vários valores antes de decidir finalmente por um, mas é necessário esquematizar e documentar como estes testes estão sendo conduzidos.

Função De Custo

Como já mencionei, precisamos usar algum cálculo para encontrar a reta que mais se adequa aos dados e, a mais comum, é a mean squared error. Essa medida é a função de custo, isto é, uma função que vai nos dizer o quão bem o nosso modelo, com os parâmetros, descreve os dados. A MSE penaliza erros grandes, isto é, os grandes erros acabam por possuírem valores muitos altos ao final do cálculo, justamente porque estão mais longe da reta. Mas que erros são esses????

Vejamos a Figura 3. Diferente dos outros gráficos apresentados, esta tem uns tracinhos verticais na cor verde entre as bolinhas azuis e a reta vermelha. Bem, essas retas verdes são a distância entre os dados (pontos) e a reta, e correspondem ao erro. Quanto menor a distância do dado até a reta, melhor. Portanto, o que precisamos fazer é MINIMIZAR esse erro, isto é, minimizar a distância entre os dados e a reta. Daí que, quanto menor o valor do MSE, mais adequada ao modelo está a reta.

Figura 3: Cálculo das distâncias entre os dados e a reta.

Formalmente falando, a regressão linear aprende um modelo F que mapeia a entrada para a saída e, o erro descreve tudo sobre a relação entre a entrada e a saída que o modelo não consegue capturar. Portanto, estimamos essa função de mapeamento ao realizarmos a regressão linear e a equação 3 ilustra esta função.

Função de custo = f(x) + E (3)

Conclusão

Nos próximos artigos veremos outras funções de custo, assim como outros tipos de regressão e discutiremos também com detalhes o gradiente descendente, um conceito fundamental para regressão e também redes neurais. Vejo vocês lá pessoal.