Roger Sampaio
Deixa-a passar: maravilhosa, poderosa linguagem R
Fala meus guerreiros. É com muito entusiasmo que compartilho com vocês mais um artigo sobre a ciência de dados, dessa vez, falando sobre a maravilhosa, poderosa linguagem R. Embora ela seja antiga (nasceu em 1993, nos campos das universidades, criada por Ross Ilhaka e Robert Gentleman), hoje tem se tornando uma das principais ferramentas para trabalhar com ciência de dados contemplando comandos (já que é uma linguagem de programação voltada para análise estatística) para coletar, transformar, limpar, visualizar dados e aplicar modelos de aprendizado de máquina.
R atua como uma ferramenta complementar (junto as famosas PowerBI, Tableau e Qlik) permitindo fazer muita coisa já, sendo ainda gratuita, oferecendo alto nível de customização.
Gráficos.
Quando estamos no processo de análise de dados, isto é, coletando dados de diversas fontes, compreendendo cada um deles, é comum encontramos milhares de registros organizados em tabelas e tabelas. E se torna difícil compreender a relação entre os dados visualizando apenas a tabela. Carregar os dados num objeto do tipo dataframe (como se fosse uma planilha excel) e visualizá-lo através do comando View(nome_dataset) por um lado permite entender quais são as colunas da tabela, porém por outro a relação entre as variáveis não fica tão evidente. No RStudio (um ambiente de desenvolvimento para linguagem R), vamos visualizar o dataframe ‘tips’ usando os seguintes comandos:

O resultado (das 7 primeiras linhas) será:

Esse dataframe descreve a gorjeta de várias pessoas num restaurante. O campo ‘total_bill’ significa total da conta, ‘tip’ é o valor da gorjeta, ‘sex’ é o gênero do sexo (Masculino, Feminino), ‘smoker’ é se a pessoa é fumante ou não’, ‘day’ é o dia da semana, ‘time’ é o tipo de refeição (janta, almoço, ...), ‘size’ é a quantidade de pessoas na mesa. Como eu sei de tudo isso? Ora, porque são todas as palavras em inglês. Aposto que você me xingou me sua mente dizendo que não precisa saber inglês kkkk. Porém, é um diferencial e vai te ajudar (veja o artigo ‘Muito Mais Que Saber O Verbo To Be’ e entenda o porquê). Mas agora pergunto a você qual a relação entre a variável ‘total_bill (total da conta)’ e ‘tip (gorjeta)’? Será que existe um padrão no sentido que quanto maior o valor da conta, maior a gorjeta? Ou não necessariamente? Para responder, podemos construir um gráfico e visualizar isso. A linguagem R possibilita construir uma série de gráficos de vários tipos (dispersão, barras, histogramas, pizza,...) e customizar cada um deles. E olha que tem os gráficos simples, mas também uns elegantes em termos de aparência, perfeito para impressionar seu chefe na hora de mostrar o resultado do trabalho kkkk.
A linguagem R trabalha com pacotes. Existe um pacote chamado ‘base’ que já vem instalado por padrão e carregado quando inicializa o RStudio. Ele é dividido em dois subpacotes: graphics (para trabalhar com gráficos simples) e grDevices (para compilar gráficos em arquivos PDF, PNG entre outros). Se quiséssemos gráficos mais elegantes devemos instalar e usar o pacote ‘ggplot2’ (ele tem gráficos lindos e muito mais opções, porém não tão simples para manipular como o pacote ‘base’). Resumindo:

Calma, não me mate (kkkkk), eu sei que bastante informação para entender, porém confie em mim que no final dará certo. Continue na aventura guerreiro e você vai descobrir o poder da linguagem R. Bem, retornando ao nosso exemplo, vamos começar com o pacote ‘base’ e construir um gráfico de dispersão (associa a relação entre duas variáveis: uma que é independente, outra que é dependente). Vamos executar os comandos:

Sem desespero, meu filho (kkkk). Vou explicar tudo! O comando attach(nome_dataframe) é para evitar escrever toda hora o nome do dataframe nos comandos. A função plot é para construir um gráfico simples, de dispersão. E tem vários parâmetros (x é dado definido pela coordenada X, y é o dado definido pelo coordenada Y, ‘xlab’ é o nome que aparecerá em X, ‘ylab’ é o nome que aparecerá em Y). O resultado é:

Customização do gráfico é o que não falta aqui. Se quisermos adicionar um título ao gráfico basta usarmos a função title(). Podemos ainda definir um cor para esse título como, por exemplo, azul. O atributo ‘col.main’ é a cor do título principal, enquanto o atributo ‘main’ é o título propriamente dito. Veja:

O resultado será:

Podemos ainda fazer muita coisa nesse gráfico, porém não vou entrar nesse mérito (senão seria mais de cinquenta páginas escrevendo). Quero que você apenas foque nos pontos do gráfico. Note que há certo padrão quando o total da conta varia entre 8 a aproximadamente 25, as gorjetas ficam próximas de 2 a 4. Isso não conseguiria descobrir facilmente apenas com o resultado do dataframe em formato de tabela. Para isso serve os gráficos, eles facilitam a visualização da informação.
Ainda no pacote base podemos criar outros tipos como, por exemplo, gráfico de barras através da função barplot(). Note os comandos abaixo. Observe apenas o comando destacado em amarelo, não vou entrar nos aspectos técnicos dos demais. ‘Dados’ é o conjunto de dados, ou seja, o dataframe do número de casamentos criado, ‘col’ se refere às cores, ‘beside’ é quanto à orientação das barras (lado a lado).

Ao executar o comando, o resultado é: