Skip to content

Instantly share code, notes, and snippets.

@jamm1985
Last active January 12, 2022 12:05
Show Gist options
  • Save jamm1985/eb98dfe4dd8b332d91238b69004cc417 to your computer and use it in GitHub Desktop.
Save jamm1985/eb98dfe4dd8b332d91238b69004cc417 to your computer and use it in GitHub Desktop.
Lab_10_hypotesis_testing_part_III.ipynb
Display the source blob
Display the rendered blob
Raw
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"name": "Lab_10_hypotesis_testing_part_III.ipynb",
"provenance": [],
"authorship_tag": "ABX9TyOJjDOrCIh/snDsToXHLiZy",
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
"<a href=\"https://colab.research.google.com/gist/jamm1985/eb98dfe4dd8b332d91238b69004cc417/lab_10_hypotesis_testing_part_iii.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
]
},
{
"cell_type": "markdown",
"source": [
"Видео лабораторной: https://youtu.be/wLw3GZVXJ6M\n",
"\n",
"TG: https://t.me/data_science_news\n",
"\n",
"\n",
"\n",
"---\n",
"\n"
],
"metadata": {
"id": "MfhwDmL8CU0R"
}
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "XSjs2khbGsgY"
},
"outputs": [],
"source": [
"import numpy as np\n",
"import matplotlib.pylab as plt\n",
"from scipy.stats import norm, binom\n",
"from scipy.stats import fisher_exact"
]
},
{
"cell_type": "markdown",
"source": [
"# Тетсирование биномиальных данных"
],
"metadata": {
"id": "HlEr4p6KXbtm"
}
},
{
"cell_type": "markdown",
"source": [
"## Задача №1 _(асимтотический двусторонний тест на одной выборке)_\n",
"\n",
"В шахматном онлайн сервисе заявлено, что цвет фигур (черные или белые) между двумя игнроками выбирается случайно и независимо в свободныых партиях с вероятностью 50/50. Вы проанализировали 130 собственных партий и выяснили, что 69 раз вы играли черными фигурами. Так случайно вышло, что вы играли черными фигурами больше или существует какой то другой фактор влияющий на выбор цвета фигур?"
],
"metadata": {
"id": "f1OXr_bfX03S"
}
},
{
"cell_type": "code",
"source": [
"N=130\n",
"black=69\n",
"p_0=0.5"
],
"metadata": {
"id": "dwR4bxUd1Kx-"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"## Формализация задачи\n",
"\n",
"Распределение данных по задаче можно выразить как последовательность независимых случайных величин Бернулли. Предположим, что $X_i=1$ если цвет фигур черный, и $X_i=0$ если белый. Таким образом, количество игр за черных в $N$ независимых итерациях выражено суммой $Y = \\Sigma_{i=1}^N X_i$, которое подчиняется биномиальному распределению:\n",
"\n",
"$p_Y(k;p)=P(Y=k)=\\binom{n}{k}p^k(1-p)^{n-k}$, $k=0,1,...,N$\n",
"\n",
"$\\mathbb{E}[Y]=np$\n",
"\n",
"$Var[Y]=np(1-p)$\n",
"\n",
"По условию задачи мы должны протестировать гипотезу:\n",
"\n",
"$H_0:\\ p=0.5\\ \\mathrm{VS}\\ H_A: p \\neq 0.5$, где $p$ это параметр биномиального распределения."
],
"metadata": {
"id": "Iw-RBRsFgpW3"
}
},
{
"cell_type": "markdown",
"source": [
"### Асимтотичность - практическое правило\n",
"\n",
"\n",
"$0 < np_0 - 3 \\sqrt{np_0(1-p_0)} < np_0 + 3 \\sqrt{np_0(1-p_0)} < n$ \n",
"\n",
"_[Larsen, Marx, An introduction to mathmatical statistics and its application 5-th ED p.361]_\n",
"\n",
"Если неравенство выполняется, то мы можем выполнить асимтотический тест.\n",
"\n",
"При этом у нас есть два пути для выбора тест статистики:\n",
"\n",
"1. Рассмотривать сумму $\\Sigma_{i=1}^N X_i \\sim N(np, np(1-p))$. Таким образом, нормализированная статистика будет иметь вид $\\frac{\\Sigma_{i=1}^N X_i-np}{\\sqrt{np(1-p)}} \\sim N(0,1)$\n",
"\n",
"2. Расматривать выборочное среднее $\\bar{X}_n = \\frac{1}{n}\\Sigma_{i=1}^N X_i \\sim N(p,\\frac{p(1-p)}{n})$, где нормализированный вариант будет иметь вид $\\sqrt{N}\\frac{\\bar{X}_N - p}{p(1-p)} \\sim N(0,1)$"
],
"metadata": {
"id": "ggpiROiamn9f"
}
},
{
"cell_type": "code",
"source": [
"print(N*p_0-3*np.sqrt(N)*p_0)\n",
"print(N*p_0+3*np.sqrt(N)*p_0)\n",
"print(0<N*p_0-3*np.sqrt(N)*p_0<N*p_0+3*np.sqrt(N)*p_0<N)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "bT_IP2vlG7zM",
"outputId": "9017a1ac-35c8-4c68-c9dd-639ebd6a10b5"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"47.89736862351293\n",
"82.10263137648707\n",
"True\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"### Статистический критерий\n",
"\n",
"Зафиксируем уровень статистической значимости $\\alpha=0.05$. То есть вероятность того, что мы отклоним нулевую гипотезу, при том что она истинна равна 5% или $P(\\mathrm{reject\\ H_0}|\\mathrm{H_0\\ true})=0.05$.\n",
"\n",
"В условиях нулевой гипотезы тест статистика имеет вид:\n",
"\n",
"$$\\frac{\\Sigma_{i=1}^N X_i-np_0}{\\sqrt{np_0(1-p_0)}}=\\sqrt{N}\\frac{\\bar{X}_N - p_0}{\\sqrt{p_0(1-p_0)}} \\sim N(0,1)$$\n",
"\n",
"Таким образом, статистический критерий выражен:\n",
"\n",
"$$\\psi_\\alpha=\\mathbb{1}\\left[\\frac{|\\Sigma_{i=1}^N X_i-np_0|}{\\sqrt{np_0(1-p_0)}}=\\sqrt{N}\\frac{|\\bar{X}_N - p_0|}{\\sqrt{p_0(1-p_0)}} > q_{\\frac{\\alpha}{2}}=1.96 \\right] $$"
],
"metadata": {
"id": "zxfEzCIn13BV"
}
},
{
"cell_type": "code",
"source": [
"# alpha/2 quantile\n",
"print(np.round(norm.ppf(0.975), decimals=2))\n",
"\n",
"# test statistics 1 \n",
"test_stat_1 = np.abs(black-N*p_0)/np.sqrt(N*p_0*(1-p_0))\n",
"print(\n",
" np.round(test_stat_1, decimals=3))\n",
"\n",
"# test statistics 2\n",
"test_stat_2 = np.sqrt(N)*np.abs(black/N-p_0)/np.sqrt(p_0*(1-p_0))\n",
"print(\n",
" np.round(test_stat_2, decimals=3))\n",
"\n",
"# decision\n",
"print(\n",
" 'Is the null hypothesis rejected? / {}'.format(\n",
" test_stat_1 > norm.ppf(0.975)\n",
" )\n",
" )\n",
"\n",
"# p-value\n",
"print(np.round(1-norm.cdf(test_stat_1), decimals=2))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "3N_gF1Zd1hVG",
"outputId": "562572bf-3f8e-4ac9-c14b-9f813a8b2fc8"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"1.96\n",
"0.702\n",
"0.702\n",
"Is the null hypothesis rejected? / False\n",
"0.24\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"## Задача №2 _(точный двусторонний тест на одной выбоке)_\n",
"\n",
"Предположим, что 21 пациент с редким заболеванием участвуют в исследовании лекартсва, которое изменяет болевой синдром. Известно, что действующий препарат эффективен в 80% случаев. Допустим у 19 пациентов уменьшился болевой синдром. Имеет ли новый препарат эффективность перед существующим перпаратом? \n"
],
"metadata": {
"id": "S6bY7UOTzdRy"
}
},
{
"cell_type": "code",
"source": [
"p_0=0.8\n",
"N=21\n",
"alpha = 0.05"
],
"metadata": {
"id": "CGlBnUlQ1wAs"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"### Асимтотичность - практическое правило\n",
"\n",
"\n",
"$0 < np_0 - 3 \\sqrt{np_0(1-p_0)} < np_0 + 3 \\sqrt{np_0(1-p_0)} < n$ \n",
"\n",
"_[Larsen, Marx, An introduction to mathmatical statistics and its application 5-th ED p.361]_"
],
"metadata": {
"id": "B95Wzlk-I2W1"
}
},
{
"cell_type": "code",
"source": [
"print(N*p_0-3*np.sqrt(N*p_0*(1-p_0)))\n",
"print(N*p_0+3*np.sqrt(N*p_0*(1-p_0)))\n",
"print(0<N*p_0-3*np.sqrt(N*p_0*(1-p_0))<N*p_0+3*np.sqrt(N*p_0*(1-p_0))<N)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "FWqb1VRBIuvT",
"outputId": "9f2600eb-2fed-42c7-bdc1-d959af747b40"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"11.300909166052993\n",
"22.29909083394701\n",
"False\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"### Формализация задачи\n",
"\n",
"Распределение данных по задаче можно выразить как последовательность независимых случайных величин Бернулли. Предположим, что $X_i=1$ если у пациента уменьшился болевой синдром, и $X_i=0$ пациент не ощущает изменений. Таким образом, количество пациентиов, которые ощутили эффект в $N$ независимых итерациях выражено суммой $Y = \\Sigma_{i=1}^N X_i$, которое в условиях нулевой гипотезы подчиняется биномиальному распределению:\n",
"\n",
"$p_Y(k;p)=P(Y=k)=\\binom{n}{k}p^k(1-p)^{n-k}=\\binom{21}{k}0.8^k(1-0.8)^{21-k}$, $k=0,1,...,N$\n",
"\n",
"\n",
"По условию задачи мы должны протестировать гипотезу:\n",
"\n",
"$H_0:\\ p=0.8\\ \\mathrm{VS}\\ H_A: p \\neq 0.8$, где $p$ это параметр биномиального распределения."
],
"metadata": {
"id": "miZJM-gPIkGH"
}
},
{
"cell_type": "code",
"source": [
"rv_binom = binom(N, p_0)\n",
"x = np.arange(0,22)\n",
"pmf_x = np.round(rv_binom.pmf(x), decimals=3)\n",
"print(\"\\n\".join(\"{} {}\".format(x, y) for x, y in zip(x, pmf_x)))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "dfei5tZZwsxS",
"outputId": "408b529d-6a90-479c-e160-935b0da9e4de"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"0 0.0\n",
"1 0.0\n",
"2 0.0\n",
"3 0.0\n",
"4 0.0\n",
"5 0.0\n",
"6 0.0\n",
"7 0.0\n",
"8 0.0\n",
"9 0.0\n",
"10 0.001\n",
"11 0.003\n",
"12 0.01\n",
"13 0.029\n",
"14 0.065\n",
"15 0.122\n",
"16 0.183\n",
"17 0.216\n",
"18 0.192\n",
"19 0.121\n",
"20 0.048\n",
"21 0.009\n"
]
}
]
},
{
"cell_type": "code",
"source": [
"right_bound = rv_binom.ppf(1 - alpha/2)\n",
"left_bound = rv_binom.ppf(alpha/2)\n",
"print('left bound is {}, right bound is {}'.format(left_bound, right_bound))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "xk1CJG0A23Wy",
"outputId": "c58a9ad4-5ad2-43bf-ccae-205ec3d013c1"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"left bound is 13.0, right bound is 20.0\n"
]
}
]
},
{
"cell_type": "code",
"source": [
"print('P(Y<13)={}'.format(np.round(rv_binom.cdf(13), decimals=3)))\n",
"print('P(Y>20)={}'.format(np.round(1-rv_binom.cdf(20), decimals=3)))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "zchRATVjNFg6",
"outputId": "4ff8c3b3-b6db-408d-aa2f-358584b3e114"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"P(Y<13)=0.043\n",
"P(Y>20)=0.009\n"
]
}
]
},
{
"cell_type": "code",
"source": [
"plt.rcParams['figure.figsize'] = [12, 8]\n",
"plt.plot(x+2, rv_binom.pmf(x+2))\n",
"plt.vlines([left_bound, right_bound],-0.00,+0.23, 'red')\n",
"plt.ylabel(r'PMF $Y$', fontsize = 15)\n",
"plt.xlabel(r'$Y$', fontsize = 15)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 520
},
"id": "httEbGmx4Fia",
"outputId": "80cd8ae9-7f93-401d-b822-6a579cdae854"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"Text(0.5, 0, '$Y$')"
]
},
"metadata": {},
"execution_count": 48
},
{
"output_type": "display_data",
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 864x576 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
}
}
]
},
{
"cell_type": "markdown",
"source": [
"### Статистический критерий\n",
"\n",
"Зафиксируем уровень статистической значимости $\\alpha=0.05$. То есть вероятность того, что мы отклоним нулевую гипотезу, при том что она истинна равна 5% или $P(\\mathrm{reject\\ H_0}|\\mathrm{H_0\\ true})=0.05$.\n",
"\n",
"Согласно распределению в условиях нулевой гипотезы $P(Y=k) = \\binom{21}{k}0.8^k(1-0.8)^{21-k}$\n",
"\n",
"$P(Y < 13)=0.043$\n",
"\n",
"$P(Y > 20)=0.009$\n",
"\n",
"Таким образом $P(\\mathrm{reject\\ H_0}|\\mathrm{H_0\\ true}) = P(Y < q_{\\frac{\\alpha}{2}}|\\mathrm{H_0\\ true}) + P(Y> q_{\\frac{\\alpha}{2}}|\\mathrm{H_0\\ true})=P(Y< 13|p=0.8) + P(Y> 20|p=0.8) \\approx 0.05$\n",
"\n",
"Определим критичесткую область: \n",
"\n",
"$R_{\\alpha}=\\{Y:\\ Y< 13\\ \\mathrm{or}\\ Y > 20\\}$\n",
"\n",
"Согласно данным только 19 пациентов ощутили эффект. Значит, $Y=19 \\notin R_{\\alpha}$. Следовательно, **нулевая гипотеза сохраняется**."
],
"metadata": {
"id": "mjFQ8E8TLIIZ"
}
},
{
"cell_type": "markdown",
"source": [
"## Задача №3 A/B-testing _(асимтотический, односторонний тест с двумя выборками)_ \n",
"\n",
"При проектировании web-сайта для нового продукта вы хотите принять решение относительно местоположения кнопки для перехода к заказу услуги. В ваших предыдущих проектах кнопка заказа располагется в нижней части страницы, однако, сейчас вы предполагаете, что зафиксировав конпку в другом месте вы сможете повысить количество нажатий. \n",
"\n",
"Для сбора данных вы создаёте две версии сайта с разным местоположением кнопок. Далее, всем новым посетителям сервер случайно выбирает одну из двух версий сайта. Выполняя эксперимент два дня вы собрали следующие данные:\n",
"\n",
"> Общее количество посетителей с традицонным расположением кнопки: 49, количество переходов: 28. Общее количество посетителей с альтернативным расположением элемента дизайна: 51, количество переходов 38. \n",
"\n",
"\n",
"Принимать ли новый дизайн в производство?\n",
"\n",
"\n"
],
"metadata": {
"id": "YQWAEP1wmCCw"
}
},
{
"cell_type": "markdown",
"source": [
"### Формализация задачи\n",
"\n",
"По условию задачи мы имеем две выборки ($X$ - традиционная кнопка, $Y$ - альтернативная), где $\\{X_i\\ \\mathrm{or}\\ Y_i\\}=1$ если пользователь нажал на кнопку при просмотре страницы и $0$ в противном случае.\n",
"\n",
"Пусть $N=49$ и $M=51$ развер выборок для традиционного и альтернативного расположения кнопок. Тогда, $\\bar{X}_N=\\frac{1}{n}\\sum_{i=1}^n X_i$ и $\\bar{Y}_M=\\frac{1}{n}\\sum_{i=1}^M Y_i$ это выборочные средние для каждого наблюдения. \n",
"\n",
"По центральной предельной теореме $\\bar{X}_N \\sim N(p_X, \\frac{p_X(1-p_X)}{N})$ и $\\bar{Y}_M \\sim N(p_Y, \\frac{p_Y(1-p_Y)}{M})$\n",
"\n",
"Для решения задачи необходимо выполить тест:\n",
"\n",
"$H_0:\\ p_X=p_Y\\ \\mathrm{VS}\\ H_A: p_Y > p_X$, где $p$ это параметр биномиального распределения."
],
"metadata": {
"id": "UvxEjxgqqnEC"
}
},
{
"cell_type": "markdown",
"source": [
"### Статистический критерий\n",
"\n",
"Зафиксируем уровень статистической значимости $\\alpha=0.05$. То есть вероятность того, что мы отклоним нулевую гипотезу, при том что она истинна равна 5% или $P(\\mathrm{reject\\ H_0}|\\mathrm{H_0\\ true})=0.05$.\n",
"\n",
"Известно, что $\\mathbb{E}[\\bar{X}_N]=p_X$ и $\\mathbb{E}[\\bar{Y}_M]=p_Y$.\n",
"\n",
"Кроме этого, функция максимального правдоподобия, для двух выборок будет иметь вид:\n",
"\n",
"$L(X_1,...,X_N, Y_1,...,Y_M;\\ p_X,p_Y) =p_X^{\\sum_{i=1}^N X_i}(1-p_X)^{N-\\sum_{i=1}^N X_i} p_Y^{\\sum_{i=1}^M Y_i}(1-p_Y)^{M-\\sum_{i=1}^M Y_i}$\n",
"\n",
"У условиях нулевой гипотезы $p_X=p_Y$, тогда, лог-функция максимального правдоподобия будет выражена:\n",
"\n",
"$(\\sum_{i=1}^N X_i + \\sum_{i=1}^M Y_i)\\log(p)+(N+M-\\sum_{i=1}^N X_i-\\sum_{i=1}^M Y_i)\\log(1-p)$\n",
"\n",
"Минимизация лог-функции максимального правдоподобия относительно $p$ даёт точный результат: $\\hat{p}=\\frac{\\sum_{i=1}^N X_i+\\sum_{i=1}^M Y_i}{N+M}$\n",
"\n",
"Тогда, в условиях нулевой гипотезы, мы имеем следующую тест статистику:\n",
"\n",
"$\\frac{(\\bar{Y}_M - \\bar{Y}_M) - (p_Y - p_X)}{\\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{M} + \\frac{\\hat{p}(1-\\hat{p}}{N}}}=\\sqrt{NM}\\frac{\\bar{Y}_M - \\bar{Y}_M}{\\sqrt{(N+M)(\\hat{p}(1-\\hat{p})}} \\sim N(0,1)$\n",
"\n",
"Таким образом, статистический критерий выражен:\n",
"\n",
"$$\\psi_\\alpha=\\mathbb{1}\\left[\\sqrt{NM}\\frac{\\bar{Y}_M - \\bar{Y}_M}{\\sqrt{(N+M)(\\hat{p}(1-\\hat{p})}} > q_{\\alpha}=1.65 \\right] $$"
],
"metadata": {
"id": "xqIlKZ8KqydV"
}
},
{
"cell_type": "code",
"source": [
"# data\n",
"alpha=0.05\n",
"N = 49\n",
"M = 51\n",
"sum_x = 28\n",
"sum_y = 38\n",
"\n",
"# quantile\n",
"q_alpha = norm.ppf(0.95)\n",
"print('Quantile 5% is {}'.format(np.round(q_alpha, decimals=3)))\n",
"\n",
"# p under null\n",
"mle_p = (sum_x + sum_y)/(N+M)\n",
"print('p under null is {}'.format(np.round(mle_p, decimals=3)))\n",
"\n",
"# test statistic\n",
"test_value = np.sqrt(N*M)*(sum_y/M - sum_x/N)*(1/np.sqrt((N+M)*(mle_p*(1-mle_p))))\n",
"print('test statistic is {}'.format(np.round(test_value, decimals=3)))\n",
"\n",
"# decision\n",
"print(\n",
" 'Is the null hypothesis rejected? / {}'.format(\n",
" test_value > q_alpha\n",
" )\n",
" )\n",
"\n",
"# p-value\n",
"print(np.round(1-norm.cdf(test_value), decimals=2))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "qGpD5zRr-ro0",
"outputId": "c0f83d1e-fcea-4ecf-bcd8-8c4d8d908b15"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"Quantile 5% is 1.645\n",
"p under null is 0.66\n",
"test statistic is 1.833\n",
"Is the null hypothesis rejected? / True\n",
"0.03\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"### Альтернативное решение - точный тест Фишера\n",
"\n",
"Простое [руководство](https://www.sheffield.ac.uk/polopoly_fs/1.43998!/file/tutorial-9-fishers.pdf) для двух выборок.\n",
"\n",
"Нулевая гипотеза: **никакого эффекта от изменений нет**.\n",
"\n",
"| |Алтернативная кнопка | Традиционная кнопка | Итого_______ \n",
"-------------------|-------------------|------------------|------------------\n",
"| Переходы |38 ($a$) | 28 ($b$) | 66 ($a+b$) \n",
"| Отсутствие перехода |13 ($c$) | 21 ($d$) | 34 ($c+d$)\n",
"| Итого | 51 ($a+c$) | 49 ($b+d$) | 100 ($n$)\n",
"\n",
"Тогда вероятность получить данные как в таблице, в условиях нулевой гипотезы выражены:\n",
"\n",
"$$P=\\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}$$\n",
"\n",
"P-value в условиях точного теста Фишера, это сумма вероятностей более экстримальных вариантов, т.е.: $\\mathrm{P-value}=P(a=38,b=27)+P(a=39,b=26)+...+P(a=51,b=15)$\n"
],
"metadata": {
"id": "MHkC-yeKnuA8"
}
},
{
"cell_type": "code",
"source": [
"# a=38, b=28\n",
"(\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(38)*np.math.factorial(28)*np.math.factorial(13)*np.math.factorial(21)*np.math.factorial(100)\n",
" )"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "l8yHY7mxp30w",
"outputId": "5b2b58a9-630e-4010-b863-be0f433b9a22"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.03202576668586309"
]
},
"metadata": {},
"execution_count": 50
}
]
},
{
"cell_type": "code",
"source": [
"# a=39, b=27\n",
"(\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(39)*np.math.factorial(27)*np.math.factorial(12)*np.math.factorial(22)*np.math.factorial(100)\n",
" )"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "G4dBZq7z392q",
"outputId": "962843fd-7e29-4b93-a5a2-08fcee9fc9de"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.013586688897032826"
]
},
"metadata": {},
"execution_count": 51
}
]
},
{
"cell_type": "code",
"source": [
"# a=40, b=26\n",
"(\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(40)*np.math.factorial(26)*np.math.factorial(11)*np.math.factorial(23)*np.math.factorial(100)\n",
" )"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "uQn0TtRm4YMv",
"outputId": "a64ce50c-33a1-4049-9c40-38733226ae0e"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.00478487739417243"
]
},
"metadata": {},
"execution_count": 52
}
]
},
{
"cell_type": "code",
"source": [
"# a=41, b=25\n",
"(\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(41)*np.math.factorial(25)*np.math.factorial(10)*np.math.factorial(24)*np.math.factorial(100)\n",
" )"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "Z_m_7_fW4p0Q",
"outputId": "58f48e9d-b0c3-4c09-9cad-93263495368b"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.0013907265596883284"
]
},
"metadata": {},
"execution_count": 53
}
]
},
{
"cell_type": "code",
"source": [
"# a=42, b=24\n",
"(\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(42)*np.math.factorial(24)*np.math.factorial(9)*np.math.factorial(25)*np.math.factorial(100)\n",
" )"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "Z2HCCLkS40tl",
"outputId": "a2a15bb2-ca97-4e5f-f428-6352abf2b6bb"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.00033112537135436386"
]
},
"metadata": {},
"execution_count": 54
}
]
},
{
"cell_type": "code",
"source": [
"probs = []\n",
"k=0\n",
"for i in range(38, 51, 1):\n",
" probs.append((\n",
" np.math.factorial(66)*np.math.factorial(34)*np.math.factorial(51)*np.math.factorial(49)\n",
" )/(\n",
" np.math.factorial(i)*np.math.factorial(28-k)*np.math.factorial(51-i)*np.math.factorial(21+k)*np.math.factorial(100)\n",
" ))\n",
" k=k+1"
],
"metadata": {
"id": "RAw-Qfaw6jTP"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"sum(probs)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "aXFm6v6LJA2D",
"outputId": "198b8c3e-7821-46ec-dbaa-985c93cb2c03"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.05219440145192389"
]
},
"metadata": {},
"execution_count": 56
}
]
},
{
"cell_type": "code",
"source": [
"table = np.array([[38,28],[13,21]])\n",
"oddsr, p = fisher_exact(table, alternative='greater')\n",
"print(p)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "Tp7Whp9pta6d",
"outputId": "9d416103-a9fe-456f-e270-aa82cd6b51e3"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"0.052194401451926706\n"
]
}
]
},
{
"cell_type": "code",
"source": [
""
],
"metadata": {
"id": "Y1WaZYNLwrdQ"
},
"execution_count": null,
"outputs": []
}
]
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment