Friday 25 August 2017

Excluindo Missing Values In Stata Forex


Bem-vindo ao Instituto de Pesquisa e Educação Digital Módulo de Aprendizado Stata Usando SI com comandos Stata Este módulo mostra o uso de se com comandos Stata comuns. Permite usar o arquivo de dados automático. Para este módulo, vamos nos concentrar nas variáveis ​​make, rep78, foreign, mpg e price. Podemos usar o comando Keep para manter apenas essas cinco variáveis. Vamos fazer uma tabela de rep78 por estrangeiros para analisar o histórico de reparos dos carros estrangeiros e domésticos. Suponhamos que queremos nos concentrar apenas nos carros com histórico de reparos de quatro ou melhores. Podemos usar se o sufixo para fazer isso. Vamos fazer a tabela acima usando as opções de coluna e nofreq. A coluna de comando solicita porcentagens de coluna enquanto o comando nofreq suprime as freqüências celulares. Observe que colum n e nofreq vêm após a vírgula. Estas são opções no comando tabular e as opções precisam ser colocadas após uma vírgula. O uso de if não está limitado ao comando tabulate. Aqui, usamos isso com o comando de lista. Você viu que algumas das observações tinham um valor de 39. 39 para rep78. Estes são valores em falta. Por exemplo, o valor de rep78 para o AMC Spirit está faltando. Stata trata um valor faltante como infinito positivo, o maior número possível. Então, quando dissemos a lista se rep78 gt 4, Stata incluiu as observações onde rep78 era. 39 também. Se quisermos incluir apenas as observações válidas (não faltantes) que são maiores ou iguais a 4, podemos fazer o seguinte para dizer a Stata que queremos apenas observações onde rep78 gt 4 e rep78 não estão faltando. Este código também produzirá a mesma saída que a anterior. Podemos usar se com a maioria dos comandos da Stata. Aqui, obtemos estatísticas resumidas de preço para carros com histórico de reparos de 1 ou 2. Observe que o duplo igual () representa IS IGAL TO eo pipe () representa OR. Uma maneira mais simples de dizer isso seria. Da mesma forma, podemos fazer isso para carros com histórico de reparo de 3, 4 ou 5. Além disso, podemos usar esse código para designar uma variedade de valores. Aqui está um resumo do preço para os valores de 3 a 5 em rep78. Vamos simplificar isso, dizendo rep78 gt 3. Você viu o erro que fizemos. Nós incluímos acidentalmente os valores perdidos, porque nós esquecemos de excluí-los. Nós realmente precisávamos dizer. Tomando uma amostra aleatória Também é possível tomar uma amostra aleatória simples de seus dados usando o comando de exemplo. Esta informação pode ser encontrada na nossa página de FAQs do STATA: Como posso desenhar uma amostra aleatória dos meus dados A maioria dos comandos do Stata pode ser seguido por if. Por exemplo Resumir se rep78 for igual a 2 Resumir se rep78 for maior ou igual a 2 Resumir se rep78 maior do que 2 Resumir se rep78 menor ou igual a 2 Resumir se rep78 menos de 2 Resumir se rep78 não é igual a 2 Se expressões podem ser conectadas Com para ou amplificador para AND Os valores ausentes são representados como 39. 39 e são o maior valor possível. Portanto, quando os valores estão faltando, tenha cuidado com comandos como para omitir valores em falta, use O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Instituto de Pesquisas e Educação Digital Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo explorará os dados ausentes no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como os dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades de dados ausentes em STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso para o assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores faltantes são omitidos nem sempre é consistente em todos os comandos, então deixe-nos dar uma olhada em alguns exemplos. Primeiro, let39s resumem nossas variáveis ​​de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em resumo, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com os dados que faltam. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para observações que tenham valores não faltantes em todas as variáveis ​​listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados em falta são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores faltantes são tratados nas instruções de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como os valores faltantes são tratados nas instruções de atribuição. A variável soma1 é baseada nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estivesse faltando, o valor para sum1 estava definido como ausente. Portanto, a soma 1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores perdidos produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados ausentes, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total 1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os ensaios não faltantes usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos testes não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se falta uma observação em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se uma observação estiver faltando em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observamos o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean mede os dados para os ensaios que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para nomiss variável. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Valores em falta em declarações lógicas É importante entender como os valores em falta são tratados em declarações lógicas. Por exemplo, diga que deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com a nova variável new1 da nossa nova criação. As observações com valores faltantes para trial2 receberam um zero para newvar1. Vamos explorar por que isso aconteceu olhando a tabela de freqüência do teste2. Como você pode ver na saída, os valores ausentes estão listados após o valor mais alto 2.1 Isso ocorre porque STATA trata um valor ausente como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores faltantes para garantir que sejam tratados adequadamente, conforme mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 possui valores faltantes para observações que também estão faltando para trial2. 6. Valores em falta em declarações lógicas Ao criar ou recodificar variáveis ​​que envolvem valores em falta, sempre preste atenção se a variável inclui valores faltantes. 7. Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment