Explorando os Datasets — Parte 1

25/08/2023

ÍNDICE DE CONTEÚDO

Este post faz parte da série Introdução ao Machine Learning

Oi galera!!!! No último artigo vimos os primeiros conceitos de datasets. Neste artigo aqui vamos explorar um pouco melhor os conceitos de um dataset. Além disso, vamos revisar alguns cálculos básicos necessários para uma análise inicial dos dados. Bora?

Identificando os tipos de atributos em um dataset

Antes de começarmos, gostaria de compartilhar com vocês dois sites onde é possível baixar gratuitamente dados para utilizar em seu aprendizado. O primeiro deles é o UCI, e ele está de cara nova. Existem muitos datasets lá e você também pode contribuir submetendo um dataset novo. Outro lugar muito famoso é o Kaggle que inclusive realiza competições frequentes.

O dataset que quero mostrar aqui para vocês é o FLAGS e ele está disponivel la no UCI. Quando vocês entrarem na página do dataset Flags, haverão ali algumas informações básicas e em inglês. Vou colocar em português aqui pois assim podemos discutir com mais tranquilidade. O dataset FLAGs provém de De Collins Gem Guide to Flags, 1986.

Características do conjunto de dados: multivariado;
Área de Assunto: Outros;
Tarefas Associadas: Classificação;
Tipo de atributo: categórico, inteiro;
# Instâncias: 194;
# Atributos: 30
Informações adicionais: Este arquivo de dados contém detalhes de várias nações e suas bandeiras. Neste arquivo os campos são separados por espaços (não vírgulas). Com esses dados, você pode tentar coisas como prever a religião de um país a partir de seu tamanho e das cores de sua bandeira. 10 atributos são de valor numérico. O restante é de valor booleano ou nominal;
Tem valores ausentes? Sim (símbolo: 0)

Bom, o UCI já nos fornece um monte de informações úteis, inclusive o tipo de tarefa que podemos usar com este dataset. Você leu ali multivariado e deve ter ficado confuso. Bom, Multivariado é uma palavra para definir que este dataset tem vários atributos, enquanto que univariado indica apenas um atributo. Além disso, o site fornece a descrição de cada um dos atributos do dataset:

nome: Nome do país em questão
massa terrestre: 1 = América do Norte, 2 = América do Sul
3 = Europa, 4 = África, 5 = Ásia, 6 = Oceania 3.
Zona: quadrante geográfico, baseado em Greenwich e no Equador. 1 = NE, 2 = SE, 3 = SW, 4 = NW
área: em milhares de quilômetros quadrados
população: em milhões redondos
idioma: 1 = inglês, 2 = espanhol, 3 = francês, 4 = alemão, 5 = eslavo, 6 = europeu, 7 = chinês, 8 = árabe, 9 = japonês/turco/finlandês, 10=outros
religião: 0 = católico, 1 = outro cristão, 2 = muçulmano, 3 = budista, 4 = hindu, 5 = étnico, 6 = marxista, 7 = outros
barras: Número de barras verticais na bandeira
listras: Número de listras horizontais na bandeira
cores: Número de cores diferentes na bandeira
vermelho: 0 se vermelho ausente, 1 se vermelho presente na bandeira
verde: 0 ausente, 1 presente
azul: 0 ausente, 1 presente
ouro: 0 ausente, 1 presente
branco: 0 ausente, 1 presente
preto: 0 ausente, 1 presente
laranja: 0 ausente, 1 presente
mainhue: cor predominante na bandeira (desempates decididos pela tonalidade mais alta, se falhar então tonalidade mais central, e se falhar a tonalidade mais à esquerda)
circulos: Número de círculos na bandeira
cruzes: Número de cruzes (verticais)
saltires: Número de cruzamentos diagonais
quarters: Número de quarters
sunstars: Número de símbolos de sol ou estrela
crescente: 1 se um símbolo de lua crescente presente, senão 0
triângulo: 1 se algum triângulo estiver presente, 0 caso contrário
ícone: 1 se uma imagem inanimada estiver presente (por exemplo, um barco), caso contrário, 0
animado: 1 se uma imagem animada (por exemplo, uma águia, uma árvore, uma mão humana) presente, 0 caso contrário
texto: 1 se houver letras ou escritos na bandeira (por exemplo, um lema ou slogan), 0 caso contrário
topleft: cor no canto superior esquerdo (mover para a direita para decidir desempates)
botright: Cor no canto inferior esquerdo (mover para a esquerda para decidir desempates)

Quando você baixa esse dataset direto do Kaggle, você vai receber três arquivos dentro de um zip: index, flag.names e flag.data. Juntar isso tudo num arquivo só vai dar muito trabalho. No entanto, existe um outro site em que podemos pegar esse mesmo dataset já mesclado e pronto para usar. Pois, sim, alguém já fez isso para resolver um problema de classificação específico, que é aprender e predizer as cores das bandeiras. Baixe aqui. Se você quiser trabalhar com outro problema com este dataset, então você mesmo deve organizar os arquivos originais em um formato que lhe permita trabalhar depois.

O arquivo que você baixou no site do cometa também não está em um formato para ser aberto em uma planilha do Excel. No entanto, eu já converti esse arquivo ARFF em um arquivo CSV, o qual pode ser aberto no Microsoft Excel ou LibreOffice. Mais pra frente, explicarei com mais detalhes como você pode fazer esta conversão. Infelizmente não há espaço aqui para explicar tudo, então vou escrever um artigo só sobre isso ok. A cara do dataset é esta:

Aqui podemos ver os 30 atributos e algumas instâncias, o que confirmam as informações disponíveis no Kaggle. Observe que a coluna POPULATION tem alguns valores zero, isso significa que esses campos não foram preenchidos corretamente no momento da coleta de informações. O que você pode fazer neste caso é, procurar no google pela informação correta e adicionar ali. O mesmo pode ser feito com o atributo área. No entanto, tenha em mente que nem sempre vai ser assim tão simples. Este aqui é apenas um exemplo inicial, afinal eu não sou do tipo que começa já com algo muito complexo. Quem lê meus artigos sabe que a complexidade vai aumentando conforme a gente avança nos conteúdos.

Este dataset, da forma como vocês estão vendo ai na Figura 3, mostra que é um dataset multirrótulo. Tá, mas que trem é esse ai de multirrótulo? É de comer? Bom, tá quase na hora da minha janta por isso to falando em comida, mas não é de comer não gente. Multi quer dizer muitos, e rótulo é a identificação de algo. Podemos entender rótulo aqui como classe ou categoria. Exemplo: uma música pertence a vários gêneros. Duvida? Claro que não, você já deve ter ouvido Forrock né? Ou um axé com rock? Enfim, dificilmente uma música é classificada em apenas um gênero musical. Então, uma música tem vários rótulos, portanto, multirrótulo. Em Flags, a brincadeira é classificar as cores, isto é, a bandeira daquele país pertence a quais dessas cores? Quais são as cores da bandeira daquele país? É isto! Também note que este dataset não tem dados textuais, somente números.

Computando

O dataset Flags vai nos ajudar com algumas coisas para exemplificar alguns cálculos estatísticos aqui, mas nos próximo artigos, trabalheremos com diferentes datasets e com maior variação de tipos de atributos. O que podemos usar da estatística descritiva aqui?

Medidas de Localidade

Definem pontos de referência nos dados. Média aritmética, média ponderada, mediana, moda, ponto médio, frequência, quartis e percentis são medidas de localidade.

Medidas de Espalhamento

Medem a dispersão ou espalhamento dos dados, permitindo verificar se os dados estão concentrados ou espalhados ao redor de um valor. Intervalo, amplitude, desvio padrão e variância são mediadas de espalhamento.

Medidas de Distribuição

São definidas em torno da média de um conjunto de valores. Momento, obliquidade e curtose são medidas deste tipo.

Dados multivariados

Além de podemos calcular todas essas medidas, nos dados multivariados também podemos calcular a correlação e covariância.

Conclusão

Bom, este artigo já ficou bem grandinho, então vou parando por aqui. No próximo explicarei essas medidas com mais detalhes. Veremos o formalismo matemático envolvido, a definição e conceito, assim como exemplos passo a passo. Obrigada por lerem até aqui. Te espero no próximo artigo. Ah, sim, se possível, crie uma pasta aí no seu computador para guardar os exemplos e exercícios que faremos ao longo desta série. Vamos usar planilhas (pode ser Google docs, Excel ou LibreOffice, você decide) e também as linguagens R e Python. Será interessante ver como essas 3 ferramentas trabalham em conjunto e separadamente.