Amostragem Probabilística
O processo mais comum de construção de amostras é a amostragem probabilística: parte-se da pressuposição que todos os elementos da população/universo possuem a mesma probabilidade de serem incluídos na amostra.
Por exemplo, podemos atribuir um número distinto a cada elemento da população e efetuar sucessivos sorteios até completarmos o tamanho da amostra. Esta seleção dos elementos da população que farão parte da amostra freqüentemente se baseia em programas computacionais (como folhas de cálculo) e/ou de calculadoras científicas que implementam a função RANDOM (ALEATORIZAÇÃO).
Este processo de amostragem probabilística equivale então a considerar que todos os elementos da população são homogêneos, e sua participação na amostra equivale a um sorteio de loteria.
O que são estratos?
Muitas vezes a população se divide, em sub-populações, subconjuntos ou estratos, sendo razoável supor que em cada estrato a variável de interesse (sendo estudada) apresente um comportamento substancialmente diverso. Por outro lado, pode-se supor que o comportamento é razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, o que influenciara o resultado pelas características dos estratos mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência desta influência será tanto maior quanto menor for o tamanho da amostra. Para evitar este efeito, pode-se adotar uma amostragem estratificada.
A amostragem estratificada consiste essencialmente em pré-determinar quantos elementos da amostra serão retirados de cada estrato. A pré-determinação pode ser feita de várias formas, sendo as mais comuns chamadas de uniforme (onde se sorteia um número igual de elementos em cada estrato) e proporcional (onde o número de elementos sorteados em cada estrato é proporcional ao número de elementos no estrato).
A amostragem estratificada uniforme será recomendável se os estratos da população forem pelo menos aproximadamente do mesmo tamanho. Caso contrario, será preferível a estratificação proporcional pelo fato de fornecer uma amostra mais representativa da população.
Por exemplo, se formos estudar uma varíável de comportamento de adultos que dependa de seu estado civil (solteiro, casado, divorciado, etc.), é evidente que os estratos não são de tamanho uniforme. Se na faixa de idade sob estudo, 70% dos adultos são casados, 10% são solteiros e 20% estão em outras situações, então para construir, por exemplo, uma amostra composta por 800 indivíduos, sortearmos de forma probabilística, dentro de cada um dos estratos, 560 casados, 80 solteiros e 160 em outras situações.
A estratificação pode levar em conta mais de um critério: por exemplo, além do estado civil, poderiamos pré-determinar a estratificação da amostra levando em conta faixas etárias (já que dispomos de informação detalhada da distribuição dos indivíduos por faixa etária nos censos de população).
É importante observar, entretanto, que a precisão de uma amostra não depende de unicamente da dimensão da população, mas também da respectiva variabilidade. A variabilidade de um estrato é elevada, quando os seus elementos têm características muito heterogêneas. Tal situação implica que um estrato com maior variância deverá levar à seleção de um maior número de unidades na amostra, quando comparado com um estrato com a mesma dimensão populacional mas menor variância (maior homogeneidade).
Em resumo, quanto maior for o estrato, maior deve ser a amostra respectiva. Mas se a variabilidade dentro de um estrato for maior, maior deverá ser a respectiva sub-amostra. Este método otimiza a amostra aplicada a um universo estratificado, razão pela qual também é conhecida como distribuição estratificada otimizada.
Estes princípios gerais da teoria da amostragem possuem aplicação prática em várias situações, incluindo os comportamentos de consumo. A nível geográfico, por exemplo, os estratos mais urbanos apresentam comportamento de consumo mais heterogéneos que os estratos com maior índice de ruralidade, pelo que a uma amostragem desproporcional permite obter dados mais rigorosos, através de uma sobre-amostragem nas regiões mais urbanas.
Ponderação dos dados
A aplicação de uma amostragem desproporcional, em comparação com uma distribuição proporcional, reduz a margem de erro de cada estrato, mas implica que na análise final, que deve representar os resultados para a amostra toda, os cálculos conjuntos de dois ou mais estratos tenham que ser sujeitos a uma calibragem (ou ponderação).
Por exemplo, se um grupo representa 30% do universo, mas representa 40% da amostra total, por ser mais heterogêneo, os valores resultantes terão que ser ponderados usando a fração 30/40.
Aplicando estes fatores de ponderação para cada estrato, teremos a contribuiçao de cada estrato para os resultados finais de acordo com o seu peso real no mercado todo, e não da sua participação na amostra.
Amostragem probabilística: Amostra estratificada
Vimos no post anterior as definições, vantagens e inconvenientes da amostra aleatória simples. Agora vamos explorar a amostra estratificada.
Esta técnica pertence a família de amostras probabilísticas e consiste em dividir toda a população ou o "objeto de estudo" em diferentes subgrupos ou estratos diferentes, de maneira que um indivíduo pode fazer parte apenas de um único estrato ou camada. Após as camadas serem definidas, para criar uma amostra, selecionam-se indivíduos utilizando qualquer técnica de amostragem em cada um dos estratos de forma separada. Por exemplo, se usamos a amostra aleatória simples em cada estrato, estamos falando de amosta aleatória estratificada (M.A.E. que veremos mais pra frente). Podemos usar outras técnicas de amostragem em cada estrato (amostra sistemática, aleatória, com reposição, etc).
As camadas ou estratos são grupos homogêneos de indivíduos, que por sua vez, são heterogêneos entre diferentes grupos. Por exemplo, se num estudo esperamos encontrar um comportamento diferente entre homens e mulheres, é conveniente definir duas camadas, uma para cada gênero. Se a seleção desses estratos for correta, encontraremos: (1) os homens devem se comportar de forma muito semelhante entre si, (2) as mulheres devem se comportar de forma muito parecida entre si e (3) homens e mulheres devem mostrar comportamentos diferentes entre si.
Se a condição comentada anteriormente é cumprida de forma correta (estratos internamente homogêneos e heterogêneos entre si), o uso da amostragem aleatória estratificada reduz o erro amostral, melhorando a precisão dos resultados ao realizar um estudo sobre a amostra.
É relativamente habitual definir os estratos de acordo com algumas variáveis características da população, tais como: idade, sexo, classe social ou região geográfica. Essas variáveis permitem dividir facilmente a amostra em grupos mutuamente exclusivos e frequentes, permitem discriminar comportamentos diferentes dentro da população.
Tipos de amostra estratificada
Dependendo do tamanho atribuído as camadas, estamos falamos sobre os diferentes tipos de amostragem estratificada. Também é costume falar sobre diferentes formas de definir as camadas da amostra.
(1) Amostra estratificada proporcional
Quando selecionamos uma característica dos indivíduos para definir camadas, frequentemente o tamanho resultante das subpopulações do universo são diferentes. Por exemplo, queremos estudar a % da população fumante no México e estipulamos que a idade pode ser um bom critério para a estratificação (ou seja, existem diferenças significativas de fumantes de acordo com a idade). Definimos três camadas: menores de 20 anos, 20 a 44 e superiores a 44 anos.
É de se esperar que, ao dividir a população mexicana, essas 3 camadas não resultam em grupos de tamanhos iguais. Na verdade, se olharmos para os dados oficiais, obtemos:
É de se esperar que, ao dividir a população mexicana, essas 3 camadas não resultam em grupos de tamanhos iguais. Na verdade, se olharmos para os dados oficiais, obtemos:
* Estrato 1 - População mexicana menor de 19 anos: 42,4 milhões (41,0%)
* Estrato 2 - População mexicana de 20 a 44 anos: 37,6 milhões (36,3%)
* Estrato 3 - População mexicana maior de 44 anos: 23,5 milhões (22,7%)
Se usamos a amostra estratificada proporcional, a amostra deverá obter camadas que obtenham as mesmas proporções observadas na população. Se queremos criar uma amostra de 1.000 indivíduos, os estratos precisam ter este tamanho:
Estrato
|
População
|
Proporção
|
Amostra
|
1
|
42,4M
|
41,0%
|
410
|
2
|
37,6M
|
36,3%
|
363
|
3
|
23,5M
|
22,7%
|
227
|
(2) Amostra estratificada uniforme
Para definir uma amostra uniforme, é necessário atribuir o mesmo tamanho de amostra para todas as camadas, independentemente do peso dos estratos da população. Continuando com o exemplo acima, a amostragem estratificada uniforme definiria a seguinte amostra por estrato:
Estrato
|
População
|
Proporção
|
Amostra
|
1
|
42,4M
|
41,0%
|
334
|
2
|
37,6M
|
36,3%
|
333
|
3
|
23,5M
|
22,7%
|
333
|
Esta técnica favorece os estratos que têm menor peso na população, equivalendo a importância dos estratos mais relevantes. Globalmente, reduz a eficiência da nossa amostra (resultados menos precisos), mas em troca, permite estudar características de cada camada de forma mais eficiente. No nosso exemplo, se emitirmos uma declaração específica sobre a população do estrato 3 (mais de 44 anos), podemos fazê-lo com menor erro de amostragem.
Neste caso, o tamanho das camadas da amostra não será proporcional com a população. Por outro lado, o tamanho das camadas é definido em proporção com o desvio-padrão das variáveis estudadas. Isto é, se obtêm camadas maiores dos estratos com maior variabilidade interna para representar melhor o total da amostra nos grupos populacionais mais difíceis de estudar.
Eficiência dos diferentes tipos de amostras estratificadas. As perguntas inevitáveis são: Quando devemos usar a estratificação? Que tipo de estratificação é mais conveniente?
A amostra estratificada proporcional produz um erro amostral menor ou igual a amostra aleatória simples, é mais precisa. A igualdade ocorre quando as médias ou as proporções que estamos analisando são iguais em todos os níveis dos estratos. Portanto, a estratificação produz mais benefícios quanto mais diferentes as camadas são.
A amostragem estratificada ótima é sempre igual ou mais precisa que a amostra estratificada proporcional. Ambos os métodos são igualmente precisos quando os desvios-padrão são iguais dentro de cada camada, neste caso ambos os métodos são completamente equivalentes. A estratificação ótima produz mais benefícios quando maior for o número de diferenças entre cada grupo, situação que podemos reduzir o tamanho da amostra dos grupos mais homogêneos para beneficiar os mais heterogêneo. Em contrapartida, é um método complexo que exige ter muita informação antes de se obter a amostra estudada, algo que normalmente não temos.
Infor. Autor: