Shapiro Wilk Teste De Normalidade Em Stata Forex


Executando a Normalidade em PASW (SPSS) Quando fazemos o teste de normalidade Muitos testes estatísticos (por exemplo, teste t) exigem que nossos dados sejam normalmente distribuídos e, portanto, sempre devemos verificar se essa suposição é violada. Exemplo de cenário Dado um conjunto de dados, gostaríamos de verificar se sua distribuição é normal. Neste exemplo, a hipótese nula é que os dados são normalmente distribuídos e a hipótese alternativa é que os dados normalmente não são distribuídos. O conjunto de dados pode ser obtido aqui. Os dados a serem testados armazenados na primeira coluna. Passo 1 Selecione Analisar - Estatísticas descritivas - Explore. Uma nova janela aparece. Passo 2 Na lista à esquerda, selecione a variável Dados na Lista de Dependentes. Clique em Plots à direita. Uma nova janela aparece. Verifique Nenhum para boxplot, desmarque tudo para descritivo e verifique se a caixa Normality plots com testes está marcada. Passo 3 Os resultados agora são exibidos na janela Saída. Passo 4 Agora podemos interpretar o resultado. As estatísticas de teste são mostradas na terceira tabela. Aqui dois testes de normalidade são executados. Para conjuntos de dados pequenos que 2000 elementos, usamos o teste de Shapiro-Wilk, caso contrário, o teste de Kolmogorov-Smirnov é usado. No nosso caso, já que temos apenas 20 elementos, o teste Shapiro-Wilk é usado. De A, o valor p é 0.316. Podemos rejeitar a hipótese alternativa e concluir que os dados provêm de uma distribuição normal. Copiar Maths-Statistics-Tutor 2010 Desenvolvimento Web Team. Shapiro-Wilk Teste Original Apresentamos a abordagem original para a realização do Teste Shapiro-Wilk. Esta abordagem é limitada a amostras entre 3 e 50 elementos. Ao clicar aqui, você também pode rever uma abordagem revisada usando o algoritmo de J. P. Royston, que pode lidar com amostras com até 5.000 (ou mesmo mais). A abordagem básica utilizada no teste Shapiro-Wilk (SW) para a normalidade é a seguinte: se n for igual, deixe mn 2, enquanto que se n for estranho, deixe m (n 1) 2 Calcule b como se segue, levando os pesos a partir de A Tabela 1 (com base no valor de n) nas Tabelas Shapiro-Wilk. Observe que se n for estranho, o valor mediano de dados não é usado no cálculo de b. Calcule a estatística de teste W b 2 SS Encontre o valor na Tabela 2 das Tabelas Shapiro-Wilk (para um dado valor de n) que é mais próximo de W. Interpolando, se necessário. Este é o valor p para o teste. Por exemplo, suponha W .975 e n ​​10. Com base na Tabela 2 das Tabelas Shapiro-Wilk, o valor p para o teste está em algum lugar entre 0,90 (W .972) e .95 (W .978). Exemplo 1 . Uma amostra aleatória de 12 pessoas é retirada de uma grande população. As idades das pessoas na amostra são dadas na coluna A da planilha na Figura 1. Esse dado normalmente é distribuído. Figura 1 Teste de Shapiro-Wilk para o Exemplo 1 Começamos ordenando os dados na coluna A usando o Data gt Sort amp FilterSort ou A função suplementar QSORT, colocando os resultados na coluna B. Observamos os valores do coeficiente para n 12 (o tamanho da amostra) na Tabela 1 das Tabelas Shapiro-Wilk. Colocando esses valores na coluna E. Corresponde a cada um desses 6 coeficientes a 1 ,, a 6. Calculamos os valores x 12 x 1. , X 7 x 6. Onde x i é o i dado elemento de dados em ordem ordenada. Por exemplo. Desde x 1 35 e x 12 86, colocamos a diferença 86 35 51 na célula H5 (a mesma linha que a célula contendo a 1). A coluna I contém o produto dos coeficientes e valores de diferença. Por exemplo. A célula I5 contém a fórmula E5H5. A soma desses valores é b 44.1641, que é encontrada na célula I11 (e novamente na célula E14). Em seguida, calculamos SS como DEVSQ (B4: B15) 2008.667. Assim, W b 2 SS 44.164122008.667 .971026. Agora procuramos .971026 quando n 12 na Tabela 2 das Tabelas Shapiro-Wilk e descobrimos que o valor p está entre 0,50 e 0,90. O valor W para .5 é .943 e o valor W para .9 é .973. Interpolando .971026 entre esses valores (usando interpolação linear), chegamos ao valor p .873681. Desde p-value .87 gt .05. Nós mantemos a hipótese nula de que os dados são normalmente distribuídos. Exemplo 2. Usando o teste SW, determine se os dados no Exemplo 1 de Testes Gráficos para Normalidade e Simetria são normalmente distribuídos. Figura 2 Teste de Shapiro-Wilk para o Exemplo 2 Como podemos ver a partir da análise na Figura 2, p-value .0419 lt .05. E assim rejeitamos a hipótese nula e concluimos com confiança 95 que os dados não são normalmente distribuídos, o que é bastante diferente dos resultados usando o teste KS que encontramos no Exemplo 2 do teste de Kolmogorov-Smironov. Função estatística real. O pacote de recursos de estatísticas reais contém as seguintes funções suplementares onde R1 consiste apenas em dados numéricos sem títulos: SHAPIRO (R1, FALSE) a estatística de teste Shapiro-Wilk W para os dados no intervalo R1 SWTEST (R1, FALSE, h) p - Valor do teste de Shapiro-Wilk nos dados em R1 SWCoeff (n, j FALSE) o jth coeficiente para amostras de tamanho n SWCoeff (R1, C1, FALSE) o coeficiente correspondente à célula C1 dentro do intervalo classificado R1 SWPROB (n , W, FALSE, h) p-valor do teste de Shapiro-Wilk para uma amostra de tamanho n para a estatística de teste W As funções SHAPIRO e SWTEST ignoram todas as células vazias e não-numéricas. O intervalo R1 em SWCoeff (R1, C1, FALSE) não deve conter células vazias ou não numéricas. Ao executar a pesquisa da tabela, o padrão é usar a interpolação harmônica (h TRUE). Para usar a interpolação linear, defina h como FALSE. Consulte Interpolação para obter detalhes. Por exemplo, para o Exemplo 1 do Teste Qui-Quadrado para Normalidade. Nós temos SHAPIRO (A4: A15, FALSE) .874 e SWTEST (A4: A15, FALSE, FALSE) SWPROB (15, .874, FALSE, FALSE) .0419 (referente à planilha na Figura 2 do Teste Qui-quadrado para Normalidade). É importante notar que SHAPIRO (R1, TRUE), SWTEST (R1, TRUE), SWCoeff (n, j. TRUE), SWCoeff (R1, C1, TRUE) e SWPROB (n, W, TRUE) referem-se aos resultados Usando o algoritmo Royston, conforme descrito em Shapiro-Wilk Expanded Test. Para compatibilidade com a versão de Royston do SWCoeff, quando j n 2, SWCoeff (n, j. False), o negativo do valor do jth coeficiente para amostras de tamanho n encontrado nas Tabelas Shapiro-Wilk. Quando j (n 1) 2, SWCoeff (n, j. FALSE) 0 e quando j gt (n 1) 2, SWCoeff (n, j FALSE) - SWCoeff (n. Nj 1, FALSE). Magnus Fribourg diz: tentei isso com uma amostra de 41. Eu consegui uma W 0,90728. De acordo com a tabela, o valor mais próximo é 0,92 (p 0,01) 8211 nenhum é menor com o mesmo tamanho de amostra. Eu apenas uso esse valor ou alguma medida deve ser tomada. Além disso, eu preciso ter certeza de que eu entendo o método corretamente. O p-valor que recebo da interpolação é o valor p real e tem que ser inferior a um valor limiar (digamos p 0,05) para rejeitar a hipótese nula 8211 correta Agradeço antecipadamente Magnus, sim, a abordagem que você é O uso está correto. Desde .90728 Magnus Fribourg diz: Muito obrigado. Ainda tenho outro problema. O que é mais confiável (e em que condições), QQ plot ou SW-test eu parece ter uma rejeição da hipótese nula usando SW, mas o QQ mostra desvios muito pequenos 8211 ou parece-me. É o teste SW muito sensível às amostras grandes (por exemplo, n 40) Magnus, acho mais fácil usar o teste SW, pois é mais fácil interpretar seus resultados, mas ambos são bastante precisos. Além disso, uma vez que a maioria dos testes são bastante robustos para violações da normalidade, qualquer teste pode mostrar se os dados realmente estão se afastando da normalidade. Ambos os testes podem ser processados ​​com grandes amostras. Charles Toda a minha população é apenas 30 valores. O teste Shapiro-Wilk também pode ser aplicado a uma população em vez de apenas uma amostra. Eu corrijo em assumir que é simplesmente um teste de simetria. Minha situação é que eu tenho centenas de conjuntos de dados de 30 valores e acho que, mesmo que o conjunto de dados É simétrico, a distribuição dos valores pode ser um longo caminho a partir da curva de sino de probabilidade 68-95-99.7. Por exemplo, para um conjunto de dados, o número de entradas em caixas 1Sd de -2sd a 2sd é 8230 7,4,13,5, o que produz um valor p de 0.43. Em contraste com esta distribuição, a curva de probabilidade 822068-95-99.78221 sugere que uma população de 30 deve ser 5, 10, 10, 4 ou 4, 10, 10, 5. É uma boa prática identificar esses conjuntos de dados onde a distribuição é Um longo caminho de 68-95-99.7 Se assim for, como é feito, obrigado antecipadamente. Jerry, se os dados não são normalmente distribuídos, então, para testes que assumem a normalidade, você pode 1. usar um teste não paramétrico que não exige normalidade 2. transformar os dados para que os dados resultantes sejam suficientemente normais. Além disso, alguns testes que exigem normalidade (por exemplo, A prova t) são suficientemente robustas, desde que os dados sejam simétricos, o teste geralmente será bom (embora, mesmo nesses casos, o teste não paramétrico de Mann-Whitney deve dar resultados semelhantes). Charles Obrigado Dr. Eu estou aprendendo muito com seu site útil. Quando tentei o Real Stat para o teste Shapir0-Wilk para os dois dados fornecidos nos dois exemplos, obto valores W e p diferentes dos dados nos exemplos, da seguinte forma: Wb2SS 0.971025924 W 0.971122526 0.5 0.943 p-value 0.922200674 0.9 0.973 alpha 0,05 p-valor 0,873679 normal sim Wb2SS 0,873965213 W 0,874012 0,02 0,855 p-valor 0,03866 0,05 0,881 alfa 0,05 p valor 0,041882692 normal não Você poderia explicar por que a diferença Eu cometi algum erro nos cálculos Eu não sei por que você obtém resultados diferentes. Se você me enviar uma planilha com seus cálculos vou tentar entender por que há uma diferença. Charles Hi Charles, muito obrigado por essa página Você disse que a função SWTEST ignora todas as células vazias e não-numéricas. Claro, porque se eu adicionar células vazias no final do intervalo R1, o valor p é diferente. Além disso, qual é a diferença entre o teste original de Shapiro-Wilk e o algoritmo de Royston, e quando você é um ou outro (o que significa que eu não sei se no SWTEST eu tenho que escrever 8220FALSE8221 ou 8220TRUE8221. Muito obrigado Julien I Apenas reescreveu as funções SWTEST e SHAPIRO adicionando células vazias e não numéricas no início, no final e no meio do intervalo. Os resultados são todos iguais. Qual versão do Excel está usando Se os valores que você procura são Encontrado na tabela, então você também pode usar o algoritmo original (embora os resultados usando o algoritmo de Royston sejam bastante semelhantes). Caso contrário, você deve usar o algoritmo de Royston. Eu costumo usar o algoritmo de Royston sempre que naquele caso eu não preciso Tomar decisões. Julien, esta é a versão mais recente do software para o Mac, mas não contém alguns dos recursos que adicionei para o Windows. Em particular, o WTEST apenas retorna a versão unilateral do teste. St deve dobrar o valor para obter o valor p para o teste de duas colunas. Espero obter uma nova versão para o Mac em breve (assim que eu conseguir um computador Mac para testá-lo). Charles Julien, agora entendo o problema. Ainda não atualizei a versão Mac do software com os recursos mais recentes. É por isso que alguns dos argumentos que don8217t funciona e por que algumas das funções que don8217t lida com os dados perdidos são iguais. O meu problema é que eu não tenho um Mac e preciso pedir emprestado para testar e atualizar o software. Charles I8217ve feito alguns testes usando seu pacote de recursos RS e I8217m com medo de dizer que I8217m detecta um tipo de erro, SWTEST (R1) doesn8217t sempre retorna o mesmo que SWPROB (n, W) 8211 o último dando o resultado correto. I8217 não tenho certeza se você realmente verificou isso para valores diferentes ao testar o algoritmo. Realmente não está tentando ser ingrato, ele é um complemento brilhante, mas eu notei que em 8220SHAPIRO (A4: A15) .874 e SWTEST (A4: A15) SWPROB (15, .874) .04198221 o intervalo A4: A15 wouldn8217t fornecer um valor de 15 para n, a menos que I8217m confunda Novamente, obrigado por todo o seu trabalho no pacote siteexcel meus dados de exemplo, começando com um rótulo em A1: 821282128212821282128212821282128212- sample1 : 2.8078385 sample2: 6.22198918 sample3: 100 sample4: 58.555133 sample5: 9.0669786 sample6: 2.2813688 sample7: 0.6727113 W: SHAPIRO (B2: B8) 0.7118325 valor p incorreto: SWTEST (B2: B8) 0.782674 (do que eu posso ver) corrigir p - valor: SWPROB (7, B32) 0.005 Do que eu posso ver na tabela p para n7, W0.71188230 fica entre p0 e p0.01, ou seja, p0.005 é viável, mas 0.782674 ain8217t. Eu acho que I8217m só vai usar o SWPROB por enquanto Obrigado por encontrar esse erro. Houve um erro na minha implementação do algoritmo de Royston para executar o teste Shapiro-Wilk para a normalidade para amostras entre 4 e 11 elementos. Eu acredito que agora consertei isso no último lançamento do Real Statistics Resource Pack que acabei de colocar no site. Se você baixar e instalar esta versão (versão 1.7.3), você deve encontrar esse SWTEST (B2: B8) .004981. O valor usando o algoritmo SW original é calculado pelo SWTEST (B2: B8, False) .005. Observe que as seguintes funções de Shapiro-Wilk possuem Royston e versões originais de SW: SHAPIRO (R1, b), SWTEST (R1, b), SWCoeff (n, j, b). Se b é True ou é omitido, então o algoritmo Royston é usado. Se b é Falso, então o algoritmo SW original é usado. A versão SWCoeff (n, j, False) é nova. Acabei de adicioná-lo ao software. Ele fornece os coeficientes A encontrados na Tabela de Coeficientes de SW na página da web, estatística estatística-tablesshapiro-wilk-table. Estarei atualizando o site em breve para explicar esta nova função. Deve usar-se cuidado ao empregar qualquer uma das versões do Teste SW para amostras muito pequenas (menos de 15 ou 20), uma vez que os resultados não são completamente precisos. Obrigado novamente por identificar o erro e desculpe por qualquer inconveniente que causou. Para o Exemplo 2, na página web, estatísticas reais - testes de normalidade e simetria-estatistica-normalidade-simetryshapiro-wilk-test. Temos os seguintes resultados SHAPIRO (A4: A18, False) .874 e SWTEST (A4: A18, False) SWPROB (15, .874) .0419. O intervalo usado é A4: A18 e não A4: A15, e assim um tamanho de amostra de 15 está correto. Observe que, para usar o algoritmo Shapiro-Wilk original, você precisa especificar False como o segundo parâmetro. O site não estava claro sobre isso. Eu agora revisei o site para tornar isso mais claro. Se você deixar de fora o segundo parâmetro, você obterá SHAPIRO (A4: A18) .874 e SWTEST (A4: A18) 0387, que são os resultados usando o algoritmo Royston. Obviamente, neste caso, não houve uma grande diferença. Não entendo a resposta a Touseef. O CLT diz que a distribuição de amostragem da média é de aprox. Normal para grande amostra aleatória. Não diz nada sobre a distribuição dos valores da amostra. Se você estiver amostragem de uma população não normal, a distribuição da amostra não será normal, não importa o tamanho da amostra, Dmitry direito, a CLT diz que a distribuição da amostra será, de fato, aproximadamente normal para amostras suficientemente grandes, mesmo que a distribuição da população Não é normal. Charles Oi, muito obrigado por publicar isso Foi muito útil e fácil de entender. Minha única pergunta é a primeira questão: como você interpola os valores W. Existe uma equação que você usou Atualmente, eu não uso nada particularmente sofisticado. Eu simplesmente executo uma interpolação linear para os valores de W. Mesmo que o valor não seja preciso, é muito superior ao p-valor de .05 e, portanto, não podemos rejeitar que os dados sejam normalmente distribuídos. Porque tantas pessoas pediram o teste Shapiro-Wik para amostras maiores que 50, ontem adicionei uma nova versão do teste SW que não utiliza interpolação e suporta tamanhos de amostra de pelo menos 5.000. Isso está disponível na versão atual do Real Statistics Resource Pack (R1.7.1). Obrigado pela informação que você forneceu sobre o teste SW. Como eu não estou tendo o histórico estatístico, então eu tenho uma pequena questão, como quando as amostras aleatórias aumentam até n500, suponha, como obteremos os pesos 8220a8221, pois a tabela apenas fornece 8220n8221 até 50, eu só avaliaria se você pudesse fornecer o responda. Oi Touseef, consegui os pesos 8220a8221 do papel original de Shapiro e Wilk em 1965. Nesse artigo, eles apenas forneceram pesos até n 50. Se é verdadeiramente uma amostra aleatória, então, pelo teorema do limite central para grandes valores de n (Geralmente n 50 é mais do que suficiente), a amostra será aproximadamente normalmente distribuída e, portanto, não precisa ser testado quanto à normalidade (novamente desde que a amostra seja verdadeiramente selecionada aleatoriamente). Charles Sua informação é realmente útil, agradeço por isso ter uma pergunta, muito elementar, mas preciso de uma resposta. No exemplo número 1 I8217m seguindo você até a interpolação, como você fez, quero dizer, o número 2 do quadro não segue uma função linear, então eu tentei colocá-lo em uma função logarítmica e não funcionou. Eu apreciaria sua resposta, eu realmente preciso disso. Oi Javiera, é uma boa pergunta. Simplesmente usei uma interpolação linear. Como você apontou, a tabela não representa uma função linear, mas os resultados geralmente serão bons o suficiente. Provavelmente usarei uma abordagem mais sofisticada no futuro, mas, por enquanto, queria manter a simplicidade. Charles Deixe uma resposta Cancelar resposta

Comments

Popular posts