Capítulo12 Jogos Bayesianos
12.1 Introdução
Nós iremos analisar agora os chamados jogos Bayesianos, às vezes também chamados de jogos com informação incompleta.
Até o momento nós lidamos com jogos em que os agentes possuem informação completa ou crenças comuns sobre movimentos da natureza, por exemplo. É comum que os agentes saibam mais sobre si mesmo do que dos demais. Políticos sabem suas preferências mais que eleitores, grupos de interesse mais sobre seus setores do que políticos e burocratas, líderes políticos mais sobre sua decisão de ir à guerra do que outros estados. Essas são situações em que temos assimetria de informação.
Em certo sentido, jogos simultâneos representam situações em que que os jogadores não sabem o que os demais escolhem, e devem fazer conjecturas sobre as escolhas dos outros, e elas devem ser mutuamente consistente para que possamos achar o equilíbrio do jogo. John Harsany foi possivelmente o primeiro a perceber a similaridade entre crenças sobre ações e crenças sobre preferências ou quem são os jogadores. Harsany, que viria a ganhar o prêmio Nobel de economia juntamente com Nash e Selten (que desenvolveu a noção de subjogo perfeito), desenvolvou uma forma elegante de pensar sobre as crenças que podemos formar sobre as características dos jogadores, o que iremos chamar de tipos dos jogadores. E nós chamamos jogos em que jogadores podem ser de diferentes tipos de jogos de informação incompleta.
Vale destacar que nós consideramos que a incerteza ou assitemria de informação é sempre sobre os payoffs. Isso porque assimetria sobre estratégias sempre podem ser convertidas em assimetria de informação sobre payoffs. Digamos que não sabemos se o conjunto de estratégias disponíveis para a jogadora 1 é \(\{A,B\}\) ou \(\{A, B, C\}\). Nesse caso, podemos dizer que tempos dois tipos de jogadoras, uma em que \(C\) é uma estratégia estritamente dominada por \(A\) e \(B\) (e portanto nunca é jogada), ou um tipo em que \(C\) não é estritamente dominada e deve ser considerada como uma opção.
Anteriomente, nós tínhamos três informações básicas para estruturar um jogo estático simultâneo de informação completa:
Jogadoras
Estratégias
Payoffs/Preferências/Utilidades
Agora, vamos precisar complexificar a estrutura 1 sobre as jogadoras. Diremos que as jogadoras possuem tipos, e precisamos ter crenças a priori sobre os tipos das jogadoras. Então, nosso jogo de informação incompleta é descrito por:
Jogadoras 1.1 Tipos 1.2 Crenças (comuns) a priori sobre os tipos
Estratégias
Payoffs/Preferências/Utilidades
12.2 Exemplo inicial
Nos tempos atuais, parece-mais do que apropriado introduzir a ideia de informação incompleta por meio de um jogo em um regime político democrático em que o líder poder ser do tipo golpista ou democrático. Considere dois partidos, incumbente e oposição. O incumbente pode ser um golpista, alguém que não aceitará transição pacífica caso perca eleição, ou um democrata, alguém que aceitará a transição pacífica de poder. A oposição pode escolher entre fazer oposição regular (business as usual) ou bloquear tudo (não-cooperar). Similarmente, o incumbente pode governar normalmente (business as usual) ou tentar acabar com a possibilidade de eleições livres (não cooperar).
12.3 Jogo Bayesiano: Incumbente Democrata ou Golpista
Matriz de payoff - Incumbente Democrata
## Warning in attr(x, "align"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
## Warning in attr(x, "format"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
C (Cooperar) | NC (Não Cooperar) | |
---|---|---|
C (Cooperar) | (2,3) | (2,3) |
NC (Não Cooperar) | (3,2) | (1,1) |
Matriz de payoff - Incumbente Golpista
## Warning in attr(x, "align"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
## Warning in attr(x, "align"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
C (Cooperar) | NC (Não Cooperar) | |
---|---|---|
C (Cooperar) | (2,3) | (2,3) |
NC (Não Cooperar) | (3,1) | (1,2) |
12.4 Jogo da coordenação Bayesiano
Vamos retomar o jogo da coordenação. Porém, há incerteza se a jogadora é uma boa amiga ou má amiga. Se ela é uma boa amiga, prefere ir para os mesmo concerto (Bash ou Stravinski) que a amiga, a ficar sozinha. Já uma má amiga prefere ir pra seu show preferido a ficar sozinha. Digamos que a incerteza é apenas sobre a jogadora 2. A jogadora 1 é uma boa amiga sem dúvida. Dizemos nesse caso que temos um jogo de informação incompleta de um lado somente. Temos então, no fundo, dois jogos possíveis, um em que a jogadora 1 está diante de uma boa amiga, e outro em que joga com uma má amiga.
O primeiro jgoo é como antes:
## Warning in attr(x, "align"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
## Warning in attr(x, "format"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Bach | Stravinski | |
---|---|---|
Bach | (2,1) | (0,0) |
Stravinski | (0,0) | (1,2) |
O segundo jogo (da amiga má) fica:
## Warning in attr(x, "align"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
## Warning in attr(x, "format"): 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Bach | Stravinski | |
---|---|---|
Bach | (2,0) | (0,2) |
Stravinski | (0,1) | (1,0) |
Veja que nós construimos os payoffs/utilidades para indicar que a amiga má prefere ficar sozinha a ficar com a amiga.
12.4.2 Aplicação - votação em um júri
Uma das aplicações clássicas de jogos Bayesianos é a de votação de um júri, desenvolvido no trabalho de Feddersen e Pesendorfer (1998). Neste artigo eles mostram que a regra da unanimidade (em que é necessário unanimidade para condenar um acusado) pode mais prejudicar do que ajuda pessoas que estao em julgamento, quando comparada com regra da maioria. Para entender o modelo e seus resultados, vamos começar supondo que o júri é formado por uma única pessoa, já que este é o caso mais simples.
A única jurada deve decidir se sentencia à reclusão ou absolve um réu acusado de um crime, ou seja, decide o resultado \(x \in \{a,s\}\). A jurada não sabem se o acusado é Culpado ou Inocente. Portanto, o conjunto de estado das variáveis é \(\Omega \in \{C,I\}\). A jurada atribui probabilidade a priori \(\pi\) ao estado \(C\), ou seja, acredita a priori que a probabilidade do réu ser culpado é \(\pi\). Por fim, se condenar uma pessoa culpada ou absolver um inocente, recebem \(0\) de utilidade. De outro lado, se prender um inocente obtem \(-q\) e se absolver um culpado recebem \(-(1-q)\) de utilidade, em que \(q \in (0,1)\). A ideia é que \(q\) representa o nível de “dúvida razoável” da jurada para condenar. Se ela acha que para condenar alguém deve ter \(80/%\) de certeza, então \(q=.8\) e se ela condenar um inocente obtém um payoff de \(-.8\) e se absolver um culpado o payoff é \(-(1-.8) = -0.2\). Ou seja, se o nível de dúvida razoável é maior que \(.5\), isso significa que é pior condenar um inocente do que absolver um culpado. Se \(q=.5\), a jurada vê como igualmente ruim errar condenando um inocente ou absolvendo um culpado.
Dada a probabilidade a priori, podemos calcular a utilidade esperada da jurada sem novas informações adicionais. \(\mathbb{E}[U_i(\text{veredito de culpado})] = 0\pi + -q(1-\pi) = -q + q\pi\) e \(\mathbb{E}[U_i(\text{veredito de inocente})] = -(1-q)\pi + 0(1-\pi) = -\pi + q\pi\). Queremos saber se \(-q + q\pi > -1 + q\pi\) e, portanto, a jurada deve condenar ou não. \(-q + q\pi > -\pi + q\pi = -q > -pi = q < \pi\)
Ou seja, se a probabilidade a priori do réu ser culpado é maior do que o ponto de corte de dúvida razoável, deve condenar. Se não, deve absolver. Agora, vamos supor que ela observa um sinal correlacionado com o verdadeiro estado mundo, isto é, um sinal informativo. Pode ser alguma evidência da defesa ou da acusação. Para simplificar, vamos supor que apenas um único sinal é observado. Essa informação é um sinal binário sobre a culpabilidade do réu \(\theta_i \in \{0,1\}\), e por sinal informativo queremos dizer que é mais provável receber um sinal \(\theta_i = 1\) quando o réu é culpado do que quando o réu é inocente e vice-versa. Vamos supor que \(Pr(\theta_i = 1|\omega = C) = Pr(\theta_i = 0|\omega = I) = p > 1/2\). Disso se segue que \(Pr(\theta_i = 1|\omega = I) = Pr(\theta_i = 0|\omega = C) = 1- p\).
Suponha inicialmente que o singal foi \(1\), isto é, de que o réu é culpado. A probabilidade a posteriori pode ser calculada usando o teorema de Bayes:
\[Pr(C|1) = \frac{Pr(C)Pr(1|C)}{Pr(1)} = \frac{\pi p}{Pr(C)Pr(1|C) + Pr(I)Pr(1|I)} = \frac{\pi p}{\pi p + (1-\pi)(1-p)}\] De maneira similar, podemos computar a probabilidade a posteri após observar um sinal de inocëncia:
\[Pr(I|1) = \frac{Pr(I)Pr(1|I)}{Pr(1)} = \frac{\ (1-\pi)(1-p)}{(1-\pi)(1-p) + \pi p}\] \(1-\pi < .5\) e \(q\pi < .25\) e a utilidade esperada de condenar é \(< -.25\). Por raciocínio análogo, a utilidade esperada de absolver é Ou seja, têm mais a ganhar condenando do que absolvendo. Vejam que a estratégia de escolher votar pela absolvição \(a\) é fracamente dominada por sentença \(S\). Se escolhermos eliminar estratégias fracamente dominadas, o que sobra é o equilíbrio de Nash em que todos condenam.
Podemos agora computar as utilidades esperadas de setenciamento e absolvição. \[\mathbb{E}[U_i(\text{veredito de culpado})] = 0Pr(C|1) + -q(1-Pr(I|1)) = -q\frac{\ (1-\pi)(1-p)}{(1-\pi)(1-p) + \pi p}\]
\[\mathbb{E}[U_i(\text{Inocente})] =-(1-q)Pr(C|1) + 0(1-Pr(I|1)) = -(1-q)\frac{\pi p}{\pi p + (1-\pi)(1-p)}\] A jurada prefere condenar quando \(-q\frac{\ (1-\pi)(1-p)}{(1-\pi)(1-p) + \pi p} > -(1-q)\frac{\pi p}{\pi p + (1-\pi)(1-p)}\). Rearranjando, temos: \(q < \frac{\ (1-\pi)(1-p)}{(1-\pi)(1-p) + \pi p}\), ou seja, \(q < Pr(C|1)\). Em palavras: como anteriormente, a jurada prefere condenar se probabilidade (a posteriori) de o réu ser culpado for maior do que o nível de “dúvida razoável”. Note também que se \(\pi = .5\), isto é, a probabilidade a priori da culpabilidade do réu é de \(50\%\), então \(Pr(C|1) = p\), a probabilidade de observar um sinal de culpado, dado que é culpado.
Se fizermos raciocínio smilar para o caso dela observar um sinal de inocente, podemos calcular qual o valor de \(q\) que torna preferível absolver o réu, e isso é dado por: \(q > \frac{\pi(1-p)}{(1-\pi) p + \pi(1-p)}\). Novamente, supondo que \(\pi = .5\), podemos simplificar e concluir que ela votará pela absolvição sempre que \(q > 1- p\). Juntanto o que concluímos antes, temos que a jurada votará com seu sinal sempre que \(1 - p < q < p\). Se \(q = .5\), como o sinal é informativo \(p > .5\), então ela sempre votará com seu sinal. Dizemos que se ela vota de acordo com seu sinal, sua votação é informativa.
12.4.3 Votando contra seu sinal
O que acontece se tivermos \(n\) juradas?
Suponha agora que a promotoria e dedefesa apresentam informações sobre o verdadeiro estado da natureza (se o réu é culpado ou inocente). Aqui, vamos trabalhar com apenas uma informação sendo apresentada para cada jurado. A ideia é que cada jurado possui alguma expertise que o permite avaliar com mais qualidade uma das informações recebidas e as demais eles descartam. Em temros de teoria dos jogos, dizemos que cada jurado recebe uma informação privada. Essa informação é um sinal binário sobre a culpabilidade do réu \(\theta_i \in \{0,1\}\), correlacionado com a verdade, ou seja, o sinal é informativo, de tal forma que uma jurada é mais provável de receber um sinal \(\theta_i = 1\) quando o réu é culpado do que quando o réu é inocente. Vamos supor que \(Pr(\theta_i = 1|\omega = C) = Pr(\theta_i = 0|\omega = I) = p > 1/2\). Disso se segue que \(Pr(\theta_i = 1|\omega = I) = Pr(\theta_i = 0|\omega = C) = 1- p\).
Após receber seu sinal privado, a jurada seleciona seu voto \(v(\theta_i)\) de forma a maximizar a probabilidade da decisão correta. Se todas as juradas adotarem comportamento sincero, isto é, \(v_i(1) = s\) e \(v_i(0) = a\).
Vamos aqui trabalhar com uma versão simplificada. Suponha que haja três jurados, ou seja, três jogadores \(N = \{1,2,3\}\), que são responsáveis por.
12.5 Cumplicidade ou duplicidade
Quando estamos lidando com tipos de agentes ou jogadoras, em geral não conseguimos fazer distinção entre cumplicidade e duplicidade. Quando alguém colabora com um regime político odioso, pode fazê-lo com cumplicidade ou duplicidade. No primeiro caso, racionaliza para sim mesmo suas ações, cometendo uma espécie de auto-engano. Diz, por exemplo “o regime é horrível, mas é melhor eu atuar por dentro do que por fora, para o bem comum”. Já no segundo caso, a duplicidade tem a ver com ser “duas caras”, ou seja, um esforço deliberado para esconder suas reais motivações.
12.6 Referências
Feddersen, T., & Pesendorfer, W. (1998). Convicting the innocent: The inferiority of unanimous jury verdicts under strategic voting. American Political science review, 92(1), 23-35.
12.7 Exercícios
Exercise 12.1 Considere o jogo do chicken em que, se ambos desviam, ganham um payoff de \(0\), se um desvia e o outro não, quem desvia ganha zeor, e quem não desvia ganha \(R\)m, de respeito dos pares, e se ambos não desviam, dividem o respeito da “galera”, R, e soferem perda \(k\), ou seja gaham um payoff \(\frac{R}{2} - k\). Podemos pensar que \(k\) é a punição por um acidente pelos pais, e o valor de \(k\) depende se os pais são duros (H) ou lenientes (L). Se os pais são do tipo \(H\), então \(k=H\), e se são do tipo \(L\), \(h = L\).
Escreva as duas matrizes de payoff, supondo que \(R=8\), \(H=16\) e \(L=0\).
Ache o equilíbrio de Nash em estratégias puras (se existir) de cada matriz de payoff.
Suponha que as probabilidade dos pais serem do tipo \(H\) ou \(L\) é 50% para ambos os adolescentes, e independentes entre si. Um influencer, que sabe um pouco de teoria dos jogos, decide usar esse modelo para dizer que mover uma sociedade em que todos os pais são lenientes terão efeitos negativos sobre o comportamento de adolescentes. Faça uma análise de equilíbrio para verficiar se é possível justificar essa afirmação do influencer? E se \(H=0\) e \(L=8\)?
Exercise 12.2 Conflito armado: Considere a seguinte situação estratégia: dois países rivais planejam disputar um território. Cada país pode escolher atacar (A) ou não atacar (N). Além disso, cada país pode ter um exército poderoso (P) ou fraco (F) com igual probabilidade, e independente de cada exército. Cada país sabe o próprio tipo de exército. Um exército pode capturar um território se ele ataca e o rival não ou seu rival ataque, mas é um rival do tipo fraco e seu país é poderoso. Se ambos atacarem e forem de igual força, ninguém capturar o território. O território vale \(m\) se conquistado e cada exércio tem um custo iagual a \(p\) se é poderosos e \(f\) se é fraco, em que \(p < f\). Se um exército ataca e o rival não, nenhum custo é incorrido por ambos os lados.
- Escreva o jogo na forma normal.
- Identifique todos os equilíbrios de Nash Bayesianos em estratégias puras para este jogo se \(m=3\), \(f=2\) e \(p=1\).
- E se \(m=3\), \(f=4\) e \(p=2\).
Exercise 12.3 Considere o jogo do júri em que \(p = \frac{3}{4}\) e \(\pi = \fra{2}{3}\).
- Suponha que \(n\) = 2. Caracterize o conjunto de equilíbrios de Nash Bayesianos do jogo.
- Suponha que \(n >2\). Considere também que, em vez da regra da maioria, nós utilizamos unanimidade (se todos votam por condenar, o réu é condenado, se pelo menos um jurado vota por absolver, o réu é absolvido). Caracterize o equilíbrio de Nash Bayeriano do jogo.
Exercise 12.4
- Descreva o que é demandado dos jogadores em termos de racionalidade nos conceito de: Equilíbrio de estratégia estritamente dominante, equlíbrio de Eliminação Iterativa de Estratégia Estritamente Dominada, Equilíbrio de Nash em estratégias puras, Equilíbrio de Nash Perfeito de Subjogo (em estratégias puras) e Equilíbrio de Nash Bayesiano.
- Discuta o que se ganha e o que se perde quando movemos de um conceito de equilíbrio pouco demandante para um altamente demendante em termos de racionalidade. Em particular, discuta a questão do realismo dos pressupostos e assertividade das previsões da teoria.
Exercise 12.5
- Considere que uma empresa quer montar um painel para um evento com duas palestrantes. Ela pode escolher entre a palestrante A, B ou C (ou seja, escolher duas de três). Cada palestrante pode falar bem, neutro ou mal do produto X da empresa. Cada palestrante que falar bem gera utilidade de 1, 0 se fizer fala neutra e -1 se falar mal. Suponha que as probabiliades de cada palestrante falar bem, neutro ou mal são dadas pela tabela abaixo. Qual deve ser a composição do painel?