Descobrir valores extremos

Em estatística, uma outlier

É um facto que é consideravelmente diferente dos outros dados da amostra. Muitas vezes discrepantes em um conjunto de dados pode alertar as estatísticas sobre anomalias experimentais ou erros nas medidas tomadas, e por isso pode o conjunto de dados de descarte. Se o conjunto de outliers eles ignoraram, pode haver mudanças significativas nas conclusões do estudo. Então, saber como calcular e avaliar valores extremos é importante para garantir a compreensão das informações estatísticas.

passos

1

Aprender a reconhecer potenciais valores atípicos. Antes de decidir se você deve ou não ignorar valores discrepantes de um conjunto de dados, em primeiro lugar, obviamente, temos de identificar possíveis valores extremos no conjunto de dados. De um modo geral, os valores extremos são dados que são muito diferente da tendência expressa pelos outros valores no conjunto de dados. Em outras palavras, localizado distante para os outros valores. Geralmente é fácil de detectar isso nas tabelas de dados ou (especialmente) nas paradas. Se o conjunto de dados é expressa visualmente num gráfico, valores extremos estão localizados "distante" para os outros valores. Se, por exemplo, a maioria dos dados em um conjunto de dados formado uma linha reta, não interpreta poderia razoavelmente valores extremos eram parte dessa linha.

  • Vamos dar um conjunto de dados que representa as temperaturas de 12 objetos diferentes em um quarto. Se 11 objectos têm temperaturas próximas de 70 graus Fahrenheit (21 graus Celsius), mas o objecto XII, um forno a uma temperatura de 300 graus Fahrenheit (150 graus Celsius), um ponto rápida indica que o forno é, provavelmente, um outlier.

2

Os tipos de dados menor para o maior. O primeiro passo para calcular valores aberrantes num conjunto de dados é encontrar o valor da mediana (média) do conjunto de dados. Esta tarefa é muito simplificada se os valores do conjunto de dados estão em ordem de menor para o maior. Portanto, antes de prosseguir, ordena os valores dos dados estabelecidos desta forma.

  • Vamos continuar com o exemplo acima. A seguir, o conjunto de dados que representa as temperaturas de vários objetos em um quarto: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Se encomendar os valores do conjunto de dados menor para o maior, o nosso conjunto de valores é: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.

3

Calcule a média do conjunto de dados. A mediana do conjunto de dados são os dados acima do qual metade dos dados é e abaixo do qual é a outra metade do de dados, basicamente, é o valor "no meio" do conjunto de dados. Se o conjunto de dados contém um número ímpar de dados, que é fácil de encontrar (a mediana será o de dados que possui o mesmo número de valores acima e abaixo um do outro). No entanto, se houver um número par de dados, então, não existe um único ponto médio, os dois pontos médios deve ser calculada a média para encontrar a média. Note-se que, quando o cálculo de outliers geralmente variável é atribuído ao Q2 mediana porque fica entre Q1 e Q3, os primeiro e terceiro quartis, que definem mais tarde.

  • Não pode ser confundido se o conjunto de dados tem um número par de valores. A média dos dois valores, muitas vezes é um número que não aparece no conjunto de dados si- isso é normal. No entanto, se os dois valores médios são o mesmo número, a média será, obviamente, o mesmo número, e este é também normal.
  • No nosso exemplo, temos 12 valores ou dados. Os dois valores correspondem ao suporte de dados 6 e 7, 70 e 71, respectivamente. Portanto, a mediana do nosso conjunto de dados representa a média destes dois valores: ((70 + 71) / 2) = 70,5.

4

Calcule o primeiro quartil. Este valor, que irá atribuir a variável Q1, é o de dados que é inferior a 25 por cento (ou quarto) de valores. Em outras palavras, este é o de dados que o conjunto de dados do suporte de dados é por baixo a mediana. Se houver um número par de valores abaixo da mediana, você deve novamente a média dos dois valores no meio para encontrar Q1, como talvez você teve que fazer para encontrar a si mediana.

  • No nosso exemplo, 6 dados estão acima da mediana e 6 dados abaixo deste. Isso significa que, para encontrar o primeiro quartil, teremos que calcular a média dos dois valores no meio dos seis dados de menor importância. Dados 3 e 4 dos seis menores ambos são 70. Portanto, a média é ((70 + 70) / 2) = 70. 70 será o nosso valor para Q1.



5

Calcule o terceiro quartil. Este valor, que irá atribuir a variável Q3, é os dados em que é 25 por cento dos títulos. O método para encontrar Q3 é quase idêntico ao utilizado para encontrar Q1, com a diferença de que, neste caso, os dados são considerados em a mediana, em vez daqueles encontrados abaixo deste.

  • Seguindo o nosso exemplo, os dois valores no meio dos seis dados sobre a mediana são 71 e 72. Com a média destes dois valores, obtemos ((71 + 72) / 2) = 71,5. 71,5 por Q3 será o nosso valor.

6

Encontre o intervalo interquartil. Agora que nós definimos Q1 e Q3, precisamos calcular a distância entre essas duas variáveis. A distância de Q1 a Q3 é calculado subtraindo Q1 Q3. O valor obtido para o intervalo interquartílico é a chave para determinar os limites para não outliers no conjunto de dados.

  • No nosso exemplo, os valores para Q1 e Q3 são 70 e 71,5, respectivamente. Para encontrar o Q3 intervalo interquartil subtrair - Q1: 71,5 - 70 = 1,5.
  • Note que isso funciona mesmo que Q1, Q3, ou ambos são números negativos. Por exemplo, se o nosso valor para o Q1 foi -70, a nossa gama interquartil seria 71,5 - (-70) = 141,5, o que seria correto.

7

Halla "limites internos" do conjunto de dados. Outliers são identificadas quando se avalia se eles são ou não dentro de limites numéricos chamados "limites internos" e "limites externos". Um valor que está fora dos limites internos do conjunto de dados é chamada outlier leve, e uma que está fora dos limites exteriores é chamada extrema outlier. Para encontrar os limites internos do conjunto de dados, em primeiro lugar, multiplicado por 1,5 intervalo interquartil. Em seguida, adiciona o resultado à réstaselo Q3 e Q1. Os dois valores são o resultado obter limites internos do conjunto de dados.

  • No nosso exemplo, o intervalo interquartil é (-70 71.5) ou 1.5. Multiplicando isso por 1,5 obter 2.25. Somarmos este número para subtrair Q3 e Q1 para encontrar os limites internos como mostrado abaixo:
  • 71,5 + 2,25 = 73,75
  • 70-2,25 = 67,75
  • Por conseguinte, os limites internos são 67.75 e 73.75.
  • Em nosso conjunto de dados, apenas a temperatura do forno (300 graus) é fora deste intervalo e, portanto, poderia tornar-se um ligeiro outlier. No entanto, ainda temos que determinar se esta temperatura é um fim outlier, por que não tirar conclusões até que tenhamos feito.
  • 8

    Encontre os "limites externos" do conjunto de dados. Estes são calculados da mesma maneira como os limites internos, com excepção de que a gama interquartil é multiplicado por três em vez de 1,5. Em seguida, o resultado é adicionado ao Q3 e Q1 é subtraído para encontrar os limites exteriores superior e inferior.

    • No nosso exemplo, multiplicando o intervalo interquartil mencionado obter três (1,5 * 3) ou 4,5. Nós encontramos o superior e inferior como antes limites exteriores:
    • 71,5 + 4,5 = 76
    • 70-4,5 = 65,5
    • Os limites exteriores são 65,5 e 76.
  • Quaisquer dados que está fora dos limites exteriores é considerado um fim outlier. Neste exemplo, a temperatura do forno, a 300 graus, é bem fora dos limites exteriores é, por conseguinte, definitivamente um valor muito atípico.
  • 9

    Usa uma avaliação qualitativa para determinar se você deve ou não "descartar" valores atípicos. Utilizando a metodologia descrita é possível determinar se certos dados são discrepantes leves, valores atípicos extremos ou qualquer outlier. No entanto, não se enganem, identificar uma figura como um outlier só ele categoriza como um candidato que pode ser ignorado no conjunto de dados, mas não como um facto deveria ignorado. o razão pelo qual um outlier é diferente de outros valores no conjunto de dados é crucial para determinar se você deve ignorar o outlier. Normalmente discrepantes cuja origem pode ser atribuído a um erro de algum tipo, como um erro de medição no registro, ou ainda em projeto experimental, são ignorados. Por outro lado, valores aberrantes, que não podem ser atribuídas a um erro e nova informação ou tendências revelando que não havia sido previsto pelos geral não Eles são ignorados.

    • Outro critério a considerar é se o outlier afeta significativamente a média (média) do conjunto de dados desviar ou fazer enganosa. Tenha em mente que este é particularmente importante se você pretende tirar conclusões a partir da média do conjunto de dados.
    • Nós avaliamos o nosso exemplo. No nosso exemplo, uma vez que é muito improvável que o forno atingiu 300 graus de temperatura devido a uma força natural imprevista, conclui-se que quase certamente o forno foi acidentalmente ligado, o que resulta numa leitura de temperatura de alta anómala. Além disso, se nós não ignorar o outlier, a média do nosso conjunto de dados é (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 graus, enquanto a média se ignorarmos o outlier é (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55.
    • Desde o outlier pode ser atribuída a erro humano e porque não é correto dizer que a temperatura média da sala foi quase 90 graus, devemos escolher negligência Atípica nosso valor.

    10

    Entende a importância de (por vezes) tem a outliers. Enquanto alguns valores discrepantes deve ser ignorado para conjuntos de dados porque eles são o resultado de um erro e / ou desviar tornando-os resultados imprecisos ou enganosos, alguns valores discrepantes deve ser contado. Se, por exemplo, parece que um outlier foi obtido de forma válida (ou seja, não como resultado de um erro) e / ou dar-lhe uma nova compreensão do fenómeno está a medir, não deve ser descartada. Experimentos científicos são situações particularmente sensíveis quando se trata de valores atípicos. Ignorando um erro outlier pode significar descartar informações indicando quaisquer tendências ou novas descobertas.

    • Por exemplo, digamos que vamos criar uma nova droga para aumentar o tamanho dos peixes em uma piscicultura. Nós vamos usar o mesmo conjunto de dados antes ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), só que desta vez, cada um dos dados representam a massa de um peixe ( em gramas) depois de ser tratado com uma droga experimental diferente desde o nascimento. Em outras palavras, o primeiro medicamento feito um peixe pesava 71 gramas, o segundo fármaco deu um peixe diferente pesando 70 gramas e assim por diante. Nesta situação, 300 segue sendo muito outlier, mas não devemos ignorar que, assumindo que não é devido a um erro, ele representa um importante sucesso em nosso experimento. As drogas que produzem um peixe de 300 gramas serviu mais do que todos os outros, por isso, esses dados é, na verdade, mais importante do nosso conjunto de dados, em vez de menos importante.

    dicas

    • Quando você encontrar valores discrepantes, tenta explicar sua presença antes de descartar o conjunto de dados. Podem dizer-lhe erros nas medições ou anormalidades da distribuição.

    Coisas que você precisa

    • calculadora

    RELACIONADOS

    Artigos Relacionados