quarta-feira, 1 de julho de 2009

Probabilidade e Variáveis Aleatórias - Parte I

Probabilidade é algo interessante, mas muitas vezes não é muito 'lógico'. Entenda, por lógico eu quero na verdade me referir aos passos tomados: acabamos usando argumentos dos quais não estamos muito seguros ou que dependem puramente de nossa intuição. Existe algo errado com isso? Claro que não [0]. Mas existe uma forma de usarmos argumentos certeiros e baseados em uma estrutura axiomática (isto é, partirmos de regras bem definidas), devido principalmente a Kolmogorov.

Prometo apenas uma coisa: ao fim desta primeira parte vou mostrar um exemplo em que a abordagem axiomática resolve um problema que pode não ser claro em outras abordagens (poderá parecer até um... erro).

O que é probabilidade?

Que tal responder a esta pergunta agora, antes de continuar lendo? É incrível a quantidade de respostas que esta pergunta pode ter. Desde "razão entre número de possibilidades num dado ensemble do vínculo pelo número de possibilidades ao todo" até outras demais, longas e cuidadosas. Tente modificar um pouco a pergunta:

Pode-se definir probabiliade de forma objetiva, sem ultrapassar um parágrafo usual?

É muito comum grandes textos escritos apenas para definir corretamente o que é probabilidade. E estes textos, diga-se de passagem, alcançam estado de arte, são verdadeiras obras literárias que conseguem trazer ao leitor a essência escondida na grandeza probabilidade.

Outra forma é ser objetiva e ponto. Como? Que tal um conjunto de axiomas que possam definir o que é uma probabilidade sem deixar dúvidas? Isso é legal, objetivo e serve bem para resolvermos problemas. Os leitores que eventualmente lerem este texto, podem comparar a outras definições (tal como a frequentista) e notar que todas são equivalentes. E, como pode ter ficado em dúvidas, todas as abordagens (não sei se posso falar em definições em alguns casos) à probabilidade e, de forma mais extensiva, à estatística (note a diferença!) são compatíveis.

Definição. Uma função , com sendo a -álgebra dos subconjuntos de um conjunto , é chamada de probabilidade se forem satisfeitos os três seguintes axiomas.
  1. .
  2. , .
  3. para toda sequência , com e disjuntos (em uma linguagem de estatística, mutuamente exclusivos), vale

Neste caso, chamamos de espaço amostral e pode ser encarado como o conjunto dos possíveis eventos. Chamamos a terna ordenada de espaço de probabilidade.

Tudo isto surge num contexto de teoria de medidas, e por isso é costumeiro ouvir falar em medida de probabilidade ou que a probabilidade em si é uma medida.

Pois é. Assusta? Tenho certeza que algumas pessoas possam já ter desistido. Mas a idéia é simples, e depois de aplicada fica muito mais clara. Como exercício, fiz praticamente todos os meus exercícios de Mecânica Estatística usando este esquema (Reif, cap. 1 por exemplo). Vamos a um exemplo. E se fosse um exemplo que todo físico (como eu) sabe resolver?

O problema do bêbado

Também muito conhecido como Random Walk (applet), trata-se do estudo do quanto um bêbado anda para a lateral enquanto caminha para frente. Supõe-se usualmente que o bêbado tá tão mamado que cada passo não depende do anterior (não há tendências a centralização, por exemplo), mas não o suficiente para que haja simetria de inversão espacial (há diferenças entre um lado e outro). Vamos começar?

Sejam o espaço amostral e o espaço amostral [1]. Vamos interpretar o evento como um passo à esquerda e , um passo à direita. Propomos portanto,

.

Naturalmente, e . Claro que , para que os axiomas se satisfaçam [2].

Até agora, muito bonito. Mas lembremos: isto vale para apenas um único passo! Não vale ainda para um conjunto de passos seguidos. Para tal deveríamos estender nossas contas.

Para modelarmos corretamente o caso com passos (ao total), propomos um espaço de probabilidade , sendo (conjunto das -tuplas formadas pelos elementos de ) e

.

Ok, agora sim podemos ter dado um passo grande e que pode exigir um pouco mais de explicações. Vamos analisar a nova medida de probabilidade proposta, . Primeiramente, para três passos (), então um possível evento pode ser o conjunto formado pela terna , que significaria dois passos para a direita e um para a esquerda. A função é o projetor usual, que toma uma tupla qualquer e retorna sua -ésima componente (caso exista, evidentemente). Agora que compreendemos as definições, podemos notar de cara que a probabilidade é invariante pela troca das ordens dos passos (não importa se ou se . A probabilidade de que ocorra (ou qualquer uma de suas permutações, deve ser



Se , então . Se , então .

Alguém pode estar se perguntando... e onde vem a famosa distribuição binomial? Vamos deixar isto para a Parte II deste artigo, em que definirei o que são variáveis aleatórias e, aí sim, veremos como chegar em uma distribuição para uma grandeza que podemos realmente medir em experimentos como esse do bêbado.

O exemplo final....

É possível que alguns já o conheçam como Paradoxo de Bertrand (Marcel Neuts, Probability, Allyn and Bacon Inc., Boston, 1973), trata-se de um problema em que todos os pontos discutidos vêm à tona. Antes, entenda por corda um segmento de reta que une dois pontos quaisquer de uma circunferência [3]. Quando uma corda passa pelo centro da circunferência, então seu comprimento será maximizado.

Num círculo unitário centrado em , um triângulo equilátero inscrito tem lado igual a . Qual a probabilidade de uma corda desse círculo, escolhida ao acaso, ter comprimento maior que o lado desse triângulo?

Vamos propor três possíveis soluções, e durante as três vou convencer o leitor de que aquela solução é correta. No entanto, verificaremos que as três fornecem respostas diferentes. Como então poderiam estar corretas as três, simultaneamente? Antes de começarmos, este problema exige muito desenho, e envolve contas muito trabalhosas (com geometria). Portanto, usarei alguns argumetnos razoáveis que podem ser constatados desenhando o círculo e o triângulo num papel e usando a geometria básica que todos conhecemos.

Primeira abordagem. Para qualquer corda escolhida ao acaso, podemos construir uma circunferência, dentro do círculo que circunscreve o triângulo, que tangencia esta corda e tem mesmo centro do círculo. Assim, definimos como o círculo unitário e como o conjunto que contém todos os subconjuntos de em que a área esteja definida. Assim, para um qualquer, podemos definir a probabilidade como a razão entre a área de pela área do círculo unitário, nominalmente . Pode-se mostrar que assim definidos formam um espaço de probabilidades (isto é, obedecem aos axiomas de Komogorov), e, para convencer um possível descrente leitor, pode-se notar que esta é a definição usual do que usam os frequentistas (razão de frequências de ocorrências).

O exercício de geometria está em mostrar que as cordas requeridas pelo enunciado são obtidas quando a circunferência construída tiver raio . Assim, a probabilidade de obtermos cordas maiores do que é


Vamos para a outra a abordagem.

Segunda abordagem. Como o raio do círculo é , podemos usar os arcos definidos pelas cordas tomadas para calcular esta probabilidade. Operando uma rotação sobre uma circunferência em que desenhamos uma corda, podemos sempre fazer com que um dos pontos da corda coincida com o de outras cordas. Chamaremos este ponto de origem. Portanto, um bom indicativo do tamanho da corda é o ângulo formado pelo arco que liga um ponto da corda ao outro caminhando pela circunferência. Seja o conjunto de todos os possíveis arcos formados neste círculo, cujo comprimento varia em . A -álgebra adequada ao problema seria aquela que contém todos os subconjuntos de (conjuntos de pequenos arquinhos e uniões entre eles). Por fim, para qualquer evento , a probabilidade de ele ocorrer será a razão entre o comprimento do arco por (comprimento do arco completo).

O exercício de geometria neste caso está em provar que as cordas com comprimento maior que estão associadas aos arcos cujo ângulo é (lembrando que usamos uma origem em comum). Portanto, a probabilidade de que a corda tenha comprimento maior que deve ser

.

Os dois resultados não bateram!

Terceira abordagem. Nesta última abordagem, propomos um método interessante de gerar uma corda de teste: comece traçando um dos raios da circunferência. Então, neste raio, escolha um ponto e trace nele um segmento de reta perpendicular ao raio. Este segmento deve começar e terminar nas extremidades da circunferência.

Entendeu como gerar as cordas? A base toda está em escolher um ponto de um dos raios, que tem comprimento . Logo, este é um procedimento análogo a escolhermos aleatoriamente um número no intervalo . Vamos usar então e uma -álgebra constituída de odo a incluir todos os intervalos de cujo comprimento esteja definido (por comprimento, dizemos uma função tal como ). Para todo evento , podemos definir .

Lembra da primeira abordagem? Pois é, então para que a corda final tenha o comprimento desejado, o comprimenro de A deve pertencer ao intervalo .

Portanto, a probabilidade de que a corda tenha comprimento maior que deve ser


E agora? Qual delas é a resposta correta? Afinal de contas, se nós realizarmos experimentos para medirmos estas cordas, com certeza a resposta será um número! Não há como haver mais de uma resposta possível correta!

A verdadeira confusão está na palavra em negrito: a experiência. Modelagens precisas levam em conta como o experimento é realizado. Note que nos três exemplos que fornecemos, após definir como seriam escolhidas as cordas, definimos nosso espaço de probabilidade e, portanto, nossa medida de probabilidade. Mas se os espaços de probabilidade e o procedimento de experiência são diferentes, porque comparar as duas respostas? Pode-se, por fim, argumentar que o erro está, na verdade, no enunciado, cuja clareza é razoavelmente duvidosa. E, infelizmente, muitas vezes é o que temos de enfrentar em situações reais.

Quando trabalhamos com algum problema real, existem além de outros fatores limitantes do próprio aparato que colhe medidas (erros na medida de tempos associados à ressaca do cara que fica no cronômetro, por exemplo). Um exemplo interessante disto é em experimentos de detecção de sinais radioativos ou espalhamento. Em geral estes detectores trabalham detectando picos de intensidades de tensão (provocadas pela chegada de fótons ou qualquer outra fonte de excitação). Mas existem limitações, como o tempo morto do detector, que é o tempo após cada pico que o detector não consegue detectar nada (usualmente, é gerado pela largura do sinal em tensão, mas pode variar muito de aparelho para aparelho). Este tempo morto pode deve ser considerado na modelagem probabilística para obter resultados mais acurados.

Leia também este artigo aqui do LeGauss.

Notas rápidas
  • [0] Me refiro mais às salas de aula do que exatamente aos pesquisadores e estudiosos que utilizam a estatística inferência Bayesiana ou frequentistas.
  • [1] Por o conjunto das partes do conjunto , o que é uma -álgebra.
  • [2] Pode-se mostrar, dos axiomas, que inclusive vale , quando e tem intersecções nulas.
  • [3] Como se trata de um segmento de reta, para que dois pontos sejam unidos a única possibilidade é que este segmento passe por dentro (a mesma região em que o centro está contido) da circunferência.




8 comentários: