Estatística descritiva para sumarização de dados com o R
Já apresentamos os operadores relativos às estatísticas descritivas básicas. Segue uma síntese:
Operadores aritméticos R
| Operador | Descrição |
|---|---|
| x + y | Adição de x com y |
| x - y | Subtração de y em x |
| x * y | Multiplicação de x e y |
| x / y | Divisão de x por y |
| xy ou x**y | x elevado a y-ésima potência |
| x%%y | Resto da divisão de x por y (módulo) |
| x%/%y | Parte inteira da divisão de x por y |
Operadores de comparação no R
| Operador | Significado |
|---|---|
| == | igual a |
| != | diferente de |
| > | maior que |
| < | menor que |
| >= | maior ou igual a |
| <= | menor ou igual a |
Os operadores de comparação sempre retornam um valor lógico TRUE ou FALSE.
Operadores lógicos no R
| Operador | Descrição | Explicação |
|---|---|---|
| & | AND lógico | Versão vetorizada. Compara dois elementos do tipo vetor e retorna um vetor de TRUEs e FALSEs |
| && | AND lógico | Versão não-vetorizada. Compara apenas o primeiro valor de cada vetor, retornando um valor lógico. |
| | | OR lógico | Versão vetorizada. Compara dois elementos do tipo vetor e retorna um vetor de TRUEs e FALSEs |
| || | OR lógico | Versão não-vetorizada. Compara apenas o primeiro valor de cada vetor, retornando um valor lógico. |
| ! | NOT lógico | Negação lógica. Retorna um valor lógico único ou um vetor de TRUE / FALSE. |
| xor | XOR | Ou Exclusivo. Retorna valor lógico TRUE se ambos os valores de entrada forem diferentes entre si, e retorna FALSE se os valores forem iguais. |
Também conhecidos como operadores booleanos, permitem trabalhar com múltiplas condições relacionais na mesma expressão, e retornam valores lógicos verdadeiro ou falso.
Algumas funções estatísticas para sumarização de dados
| Funções | Descrição |
|---|---|
min() | mínimo |
max() | máximo |
range() | amplitude |
mean() | média |
sum() | soma |
median() | mediana |
sd() | desvio-padrão |
IQR() | intervalo interquantil |
quantile() | quartis |
var() | variância |
cor() | correlação |
summary() | métricas de sumarização |
rowMeans() | média das linhas |
colMeans() | média das colunas |
rowSums() | soma das linhas |
colSums() | soma das colunas |
Tratamento de dados omissos
O R permite que sejam armazenados, em vetores e data.frames, o valor NA (Not Available), que representa dados que ainda não são conhecidos.
x == NAtrará sempre um resultado FALSE, mesmo quexnão seja conhecido.
Atividades de verificação de aprendizagem
Questão 1:
Abra o data.frame “iris”.
a <- iris
class(iris)
a. Calcule estatísticas básicas de cada variável. Copie e cole no Canvas (código e resultado).
Veja o exemplo:
summary(iris$Sepal.Length)
b. Para que serve p símbolo $ após o nome do data.frame?
c. Por meio das funções hist() e boxplot(), respectivamente, gere um exemplo de cada gráfico para a variável que você escolher. Copie e cole no Canvas.