Classificação X Regressão

13/11/2023

ÍNDICE DE CONTEÚDO

Este post faz parte da série Introdução ao Machine Learning

A partir de hoje, vamos começar a estudar os algoritmos mais conhecidos do aprendizado de máquina. Daremos início com os modelos de aprendizado preditivos e, entre eles, o mais simples pra gente começar é o k-NN. Mas antes disso, vamos ver a diferença entre as tarefas de classificação e regressão.

Definição Matemática Formal

Antes de seguirmos adiante, vamos ver como definir matematicamente as tarefas do aprendizado de máquina dos modelos preditivos.

Classificação

As equações a seguir definem matematicamente a classificação:

*Definição (2): problema de classificação*

onde:

D	dataset (conjunto de dados)	f	uma função que estima o valor de f para novas instâncias.
x_i	uma instância de D	y	classe predita
f(x_i)	uma função desconhecida	y_i	classe da instância
m	número total de instâncias de D	c	classe do problema
i	iterador

A função desconhecida é basicamente o modelo de classificação que vamos treinar, e como resultado disso obteremos o “f” chapéu. A classificação consiste então em classificar itens em uma classe, por exemplo: um carro é da marca FORD ou da marca BMW, uma camiseta é da cor branca ou da cor azul, uma pessoa é saudável ou doente. No entanto, a classificação não se limita a apenas categorizar itens binariamente (é ou não é), e isso já foi mencionado anteriormente. A Figura 1 ilustra melhor o processo de aprendizado de modelos de classificação.

*Figura 1: Abstração do processo de aprendizado de classificação (classificação.png)*

O modelo de classificação precisa decidir em qual classe do problema cada instância pertencerá, e aqui entra o conceito de fronteira de decisão. Observe a Figura 2.

*Figura 2: Fronteira de Decisão (fronteira.png)*

Na Figura 2 observamos que há bolotas rosas e cinzas e elas estão divididas perfeitamente por uma linha pontilhada. Podemos assumir que as bolotas rosas pertencem à classe do problema, enquanto as cinzas não. Essa linha pontilhada, dividindo perfeitamente as instâncias (bolotas) em pertencentes ou não à classe do problema em questão, é a fronteira de decisão. O algoritmo de classificação, de alguma forma, através da função, precisa encontrar essa linha (essa fronteira) e decidir para qual lado dessa linha a instância vai. Também chamamos essa linha de superfície de separação. Sendo linearmente separáveis, teremos uma reta, mas se tivermos uma combinação de retas então teremos hiperplanos de separação.

Classe positiva (1) significa que a instância pertence à classe do problema e, classe negativa (0) significa que a instância não pertence à classe. Dentro da classificação temos a classificação binária, multi-classe, multirrótulo e hierárquica multirrótulo. Falaremos mais sobre esses tipos de classificação no futuro. Portanto, na classificação nós temos as instâncias rotuladas (classificadas em uma classe do problema) e as usamos uma parte delas como entrada para o treinamento do modelo (que vai aprender uma função de estimação).

Depois que o modelo foi aprendido, a outra parte do conjunto de dados é usado para testar esse modelo gerado. Nessa fase de teste, o modelo vai tentar predizer as classes de cada uma das instâncias do conjunto de teste. Como temos os valores originais das classes desses conjuntos, podemos verificar se o modelo acertou ou não a predição. Por exemplo, uma instância qualquer foi classificada como pertencente à classe (y) do problema originalmente, e o modelo previu (ŷ) exatamente isso! Neste caso o modelo acertou! Mas obviamente que não é tão simples assim. Falaremos mais sobre isso nos próximos artigos.

Regressão

O objetivo na regressão é aprender uma função que relacione, ou mapeie, características. Portanto, a função de estimação mapeia os atributos de entrada com os atributos de saída. O que vamos encontrar não será uma reta, mas sim uma curva. Geralmente, o que queremos prever, ou predizer em regressão, são números e não classes. Por isto, a função aqui assume valores em um conjunto infinito e ordenado de valores, enquanto que a função na classificação assume valores em um conjunto discreto não ordenado. A Figura 3 ilustra o problema de regressão.

Observe que não temos uma linha separando as instâncias, mas sim uma linha em que as instâncias seguem um determinado fluxo, ou padrão. O que esperamos aqui é que essa linha, ou melhor dizendo, essa curva, se aproxime da curva verdadeira. O treino e teste do modelo é similar à classificação, no entanto a maior diferença é que a saída do modelo será um número e não uma classe. Dizer que um carro pertence à marca FORD (classificação), é diferente de dizer que o preço de venda daquele carro será provavelmente de R$50.000,00 em uma venda daqui há um mês (regressão).

É estranho dizer regressão quando estamos na verdade predizendo, já que regressão nos remete a algo para trás e não para frente. Estamos regredindo? Não, claramente. Mas acredito que, para não se perder, você pode focar na questão de aprender com os dados passados, anteriores e isso sim nos remete a regressão. E como então saber se o nosso modelo de regressão é bom ou não? Temos formas de calcular isso, mas assim como os modelos de classificação, este tema ficará para outro artigo.