Obviamente la interacción entre el mundo occidental y oriental se ve en parte reflejada por la escalada entre las operaciones militares (ejercicios) que se ha producido en el estrecho de Ormuz y en el mismísimo Irán. El impacto de esta escalada no ha pasado desapercibida para el mundo, toda vez que el precio del petróleo va en la misma dirección de las bravuconadas, hacia arriba. Con la IAEA (y la ONU) repitiendo casi con calco el escenario de 2003 previo a la invasión de Irak, no es descabellado pensar en similar resultado. Ahora bien, es interesante saber cual es el resultado final de esto bajo una perspectiva matemática:
Pero cual es el juego que puede representar la situación actual en medio oriente? y su resultado fina?. Entra el dilema del prisionero (Fuente Wikipedia) (spoiler, el texto subrayado)
El dilema del prisionero iterado (DPI)
Robert Axelrod, en su libro La evolución de la cooperación: el dilema del prisionero y la teoría de juegos (1984), estudió una extensión al escenario clásico del dilema del prisionero que denominó dilema del prisionero iterado (DPI). Aquí, los participantes deben escoger una y otra vez su estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invitó a colegas académicos de todo el mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad inicial, capacidad de perdón y similares.
Axelrod descubrió que cuando se repiten estos encuentros durante un largo periodo de tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias "egoístas" tendían a ser peores a largo plazo, mientras que las estrategias "altruistas" eran mejores, juzgándolas únicamente con respecto al interés propio. Usó esto para mostrar un posible mecanismo que explicase lo que antes había sido un difícil punto en la teoría de la evolución: ¿cómo puede evolucionar un comportamiento altruista desde mecanismos puramente egoístas en la selección natural?
Se descubrió que la mejor estrategia determinista era el Toma y daca (tit for tat, "Donde las dan, las toman"), que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el más simple de todos los programas presentados, conteniendo únicamente cuatro líneas de BASIC, y fue el que ganó el concurso. La estrategia consiste simplemente en cooperar en la primera iteración del juego, y después de eso elegir lo que el oponente eligió la ronda anterior. Una estrategia ligeramente mejor es "tit for tat con capacidad de perdón". Cuando el jugador B deserta, en la siguiente ronda el jugador A coopera a veces de todos modos con una pequeña probabilidad (del 1% al 5%). Esto permite la recuperación ocasional de quedarse encerrado en un círculo de deserciones. La probabilidad exacta depende de la alineación de los oponentes. "Toma y daca con capacidad de perdón" es la mejor estrategia cuando se introducen problemas de comunicación en el juego. Esto significa que a veces la jugada de un jugador se transmite incorrectamente a su oponente: A coopera pero B cree que ha desertado.
Toma y daca funcionaba, mantenía Axelrod, por dos motivos. El primero es que es "amable", esto es, comienza cooperando y sólo deserta como respuesta a la deserción de otro jugador, así que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro jugador si éste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el otro jugador entiende fácilmente la lógica detrás de las acciones de Toma y daca, y puede por ello encontrar una forma de trabajar con él productivamente. No es una coincidencia que la mayoría de las estrategias que funcionaron peor en el torneo de Axelrod fueron las que no estaban diseñadas para responder a las elecciones de otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de establecer una cooperación mutua fiable.
Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo, considérese una población donde todo el mundo deserta siempre, excepto por un único individuo que sigue la estrategia Toma y daca. Este individuo tiene una pequeña desventaja porque pierde la primera ronda. En una población con un cierto porcentaje de individuos que siempre desertan y otros que siguen la estrategia Toma y daca, la estrategia óptima para un individuo depende del porcentaje, y de la duración del juego. Se han realizado simulaciones de poblaciones, donde mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La mezcla de algoritmos en la población final depende de la mezcla en la población inicial.
Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fácilmente por inducción: El jugador A puede desertar la última ronda, ya que B no tendrá oportunidad de castigarle. Por ello, ambos desertaran la última ronda. Entonces, A puede desertar la ronda anterior, ya que B desertará en la última sin importar lo que suceda. Y se continúa de este modo. Para que la cooperación siga siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una solución consiste en hacer aleatorio el número total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un número infinito de rondas, y la puntuación es la media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender ciertas teorías de cooperación y confianza humana. En la suposición de que las transacciones entre dos personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en poblaciones puede ser modelado por una versión para varios jugadores e iterada del juego. Por ello ha fascinado a muchos estudiosos a lo largo de los años. Una estimación no demasiado actualizada (Grofman and Pool, 1975) sitúa el número de artículos dedicados al mismo sobre 2.000.
El equilibrio es desertar siempre, (desertar no es retirarse), es decir, vender al otro prisionero vs colaborar. Obviamente desertar en el caso Irán-USA vs Israel implica algunos botones rojos, cada vez de mayor calibre. Hasta donde llegan las iteraciones? veremos, pero en cada una lo más probable es que veamos el precio del crudo subir inexorablemente…
No hay comentarios:
Publicar un comentario
El objetivo de este Blog es compartir opiniones, así es que tus ideas y sugerencias son bienvenidas...