Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save aaossa/ef7ec4a98703c24cb45bd20920848607 to your computer and use it in GitHub Desktop.
Save aaossa/ef7ec4a98703c24cb45bd20920848607 to your computer and use it in GitHub Desktop.
Análisis de commits para IIC2233 2020-1
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Procesamiento de *commits* de alumnes"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/home/aaossa/.local/lib/python3.8/site-packages/pandas/compat/__init__.py:117: UserWarning: Could not import the lzma module. Your installed Python is incomplete. Attempting to use lzma compression will result in a RuntimeError.\n",
" warnings.warn(msg)\n"
]
}
],
"source": [
"import re\n",
"from collections import Counter\n",
"\n",
"import pandas as pd"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"df_commits = pd.read_csv(\"commits (inc may 9).csv\")\n",
"df_commits = df_commits.rename(columns={\"commiter\": \"committer\"})\n",
"df_commits[\"message\"] = df_commits[\"message\"].fillna(\"null\") # Commit con 'message': 'null'"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"# Agregar columna con username (registrado en el curso)\n",
"df_commits[\"username\"] = df_commits[\"repo_name\"].map(lambda x: x[8:-15])"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"# Quitar commits de usuarios del equipo docente\n",
"equipo_docente = [\n",
" \"entamburini\",\n",
" \"bimartinez\",\n",
" \"aaossa\",\n",
" \"cruz\",\n",
" \"Drpinto1\",\n",
" \"fdoflorenzano\",\n",
" \"lily416\",\n",
" \"NevadaStreets\",\n",
"]\n",
"df_commits = df_commits[~(df_commits[\"committer\"].isin(equipo_docente))]\n",
"df_commits = df_commits[~(df_commits[\"author\"].isin(equipo_docente))]\n",
"df_commits = df_commits.reset_index(drop=True)"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"# Agregar cantidad de commits por repositorio\n",
"df_commits[\"history_size\"] = df_commits.groupby(\"repo_name\")[\"message\"].transform(len)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Detección de inconsistencias usando 'author' y 'committer'"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Notar que \"web-flow\" como *committer* indica que el cambio se hizo a través de la página de GitHub, y no con git"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Diferencia entre *author* y *commiter*"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>repo_name</th>\n",
" <th>url</th>\n",
" <th>author</th>\n",
" <th>committer</th>\n",
" <th>message</th>\n",
" <th>username</th>\n",
" <th>history_size</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
"Empty DataFrame\n",
"Columns: [repo_name, url, author, committer, message, username, history_size]\n",
"Index: []"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Copio df_commits\n",
"test_1 = df_commits.copy()\n",
"# Ignoro commits hechos via web\n",
"test_1 = test_1[test_1[\"committer\"] != \"web-flow\"]\n",
"# Selecciono commits con 'author' distinto de 'committer'\n",
"test_1 = test_1[test_1[\"author\"] != test_1[\"committer\"]]\n",
"\n",
"test_1"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Último *commit* no tiene como *committer* a usuario de GitHub"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {
"scrolled": true
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 100.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 97.96% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 97.67% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 97.67% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 97.22% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.97% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.88% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.83% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.59% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.3% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 96.23% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 95.83% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 95.74% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.87% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.74% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.67% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.62% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.59% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.59% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.44% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 94.44% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 93.94% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 93.62% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 93.02% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 90.74% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 89.74% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 89.29% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 89.19% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 87.88% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 87.5% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 87.1% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 85.71% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 85.07% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 84.78% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 83.64% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 82.4% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 82.35% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 79.49% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 77.78% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 72.09% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 56.12% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 53.85% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 50.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 47.27% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 46.88% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 25.0% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 8.82% de sus últimos commits\n",
"Usuario REDACTED firmó como REDACTED en el 8.0% de sus últimos commits\n"
]
}
],
"source": [
"# Copio df_commits\n",
"test_2 = df_commits.copy()\n",
"# Ignoro los commits hecho via web\n",
"test_2 = test_2[test_2[\"committer\"] != \"web-flow\"]\n",
"# Cuento cuantos commits inconsistentes hay\n",
"test_2[\"anomaly_size\"] = test_2.groupby([\"repo_name\", \"committer\"])[\"username\"].transform(len)\n",
"# Tomo el último commit en cada repo para determinar si la inconsistencia se mantiene\n",
"test_2 = test_2.groupby([\"repo_name\"]).head(1)\n",
"# Me lo quedo si es inconsistente\n",
"test_2 = test_2[test_2[\"committer\"] != test_2[\"username\"]]\n",
"# Calcular proporcion errónea\n",
"test_2[\"error_rate\"] = test_2[\"anomaly_size\"] / test_2[\"history_size\"]\n",
"# Ordenar por tasa de error\n",
"test_2 = test_2.sort_values([\"error_rate\"], ascending=False)\n",
"# Output definitivo\n",
"test_2 = test_2[[\"username\", \"committer\", \"error_rate\"]]\n",
"\n",
"# Imprimir\n",
"for _, (user, committer, error_rate) in test_2.iterrows():\n",
" user = \"REDACTED\"\n",
" committer = \"REDACTED\"\n",
" print(f\"Usuario {user} firmó como {committer} en el {round(100 * error_rate, 2)}% de sus últimos commits\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Datos interesantes"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Les alumnes han realizado 17710 commits durante el curso\n"
]
}
],
"source": [
"print(f\"Les alumnes han realizado {len(df_commits)} commits durante el curso\")"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Un 5.47% de commits ha sido via web\n"
]
}
],
"source": [
"int_1 = df_commits.copy()\n",
"int_1 = int_1[int_1[\"committer\"] == \"web-flow\"]\n",
"print(f\"Un {round(100 * len(int_1) / len(df_commits), 2)}% de commits ha sido via web\")"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Les 10 alumnes con más commits representan un 9.92% del total de commits de alumnes\n"
]
}
],
"source": [
"sum_top_10 = df_commits.groupby(\"repo_name\").count()[\"history_size\"].sort_values(ascending=False)[:10].sum()\n",
"print(f\"Les 10 alumnes con más commits representan un {round(100 * sum_top_10 / len(df_commits), 2)}% del total de commits de alumnes\")"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Gráfico # commits / alumne\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"ax = df_commits.groupby(\"repo_name\").count()[\"history_size\"].sort_values().plot(use_index=False)\n",
"ax.set_xlabel(\"Alumnes ordenados por # commits\")\n",
"ax.set_ylabel(\"# commits por alumne\")\n",
"print(\"Gráfico # commits / alumne\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## *Commits* curiosos"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"El largo promedio de un mensaje de commit es 21.59\n"
]
}
],
"source": [
"df_commits[\"message_len\"] = df_commits[\"message\"].apply(len)\n",
"commits_largo = df_commits[\"message_len\"]\n",
"print(f\"El largo promedio de un mensaje de commit es {round(commits_largo.mean(), 2)}\")"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Hay 682 commits solo escritos con mayúsculas\n"
]
}
],
"source": [
"df_commits[\"is_upper\"] = df_commits[\"message\"].apply(lambda m: m.isupper())\n",
"commits_mayusculas = df_commits[df_commits[\"is_upper\"]]\n",
"print(f\"Hay {len(commits_mayusculas)} commits solo escritos con mayúsculas\")"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {
"scrolled": true
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Hay 2 commits con que coinciden con ^AC[0]?0$ como mensaje\n",
"Hay 17 commits con que coinciden con ^AF[0]?1$ como mensaje\n",
"Hay 40 commits con que coinciden con ^AF[0]?2$ como mensaje\n",
"Hay 41 commits con que coinciden con ^AF[0]?3$ como mensaje\n",
"Hay 0 commits con que coinciden con ^AF[0]?4$ como mensaje\n",
"Hay 58 commits con que coinciden con ^AS[0]?1$ como mensaje\n",
"Hay 77 commits con que coinciden con ^AS[0]?2$ como mensaje\n",
"Hay 69 commits con que coinciden con ^AS[0]?3$ como mensaje\n",
"Hay 0 commits con que coinciden con ^AS[0]?4$ como mensaje\n",
"Hay 13 commits con que coinciden con ^T[0]?0$ como mensaje\n",
"Hay 74 commits con que coinciden con ^T[0]?1$ como mensaje\n",
"Hay 1 commits con que coinciden con ^T[0]?2$ como mensaje\n"
]
}
],
"source": [
"match_evaluaciones = [\n",
" # ^ y $ indican match de inicio a fin\n",
" # El primer 0 es opcional (por eso el '?')\n",
" r\"^AC[0]?0$\", # AC00 \n",
" r\"^AF[0]?1$\", # AF01 \n",
" r\"^AF[0]?2$\", # AF02 \n",
" r\"^AF[0]?3$\", # AF03 \n",
" r\"^AF[0]?4$\", # AF04\n",
" r\"^AS[0]?1$\", # AS01\n",
" r\"^AS[0]?2$\", # AS02\n",
" r\"^AS[0]?3$\", # AS03\n",
" r\"^AS[0]?4$\", # AS04\n",
" r\"^T[0]?0$\", # T00\n",
" r\"^T[0]?1$\", # T01\n",
" r\"^T[0]?2$\", # T02\n",
"]\n",
"\n",
"for evaluacion in match_evaluaciones:\n",
" coincidencias = df_commits[\"message\"][df_commits[\"message\"].str.count(evaluacion)==1]\n",
" print(f\"Hay {len(coincidencias)} commits con que coinciden con {evaluacion} como mensaje\")"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Hay 362 commits con emojis provenientes de 28 repositorios\n",
"Los 10 emojis más usados son:\n",
":star:, 70 veces\n",
":bug:, 33 veces\n",
":tada:, 28 veces\n",
":hammer:, 20 veces\n",
":star2:, 16 veces\n",
":smile:, 15 veces\n",
":sparkles:, 15 veces\n",
":bookmark:, 15 veces\n",
":heart:, 15 veces\n",
":pencil:, 11 veces\n"
]
}
],
"source": [
"commits_con_emojis = df_commits[df_commits[\"message\"].str.count(r\":[\\w]*:\") > 0]\n",
"repos_con_emojis = len(commits_con_emojis.groupby(\"repo_name\"))\n",
"print(f\"Hay {len(commits_con_emojis)} commits con emojis provenientes de {repos_con_emojis} repositorios\")\n",
"\n",
"emojis_usados = Counter()\n",
"for c in commits_con_emojis[\"message\"]:\n",
" emojis_usados.update(re.findall(r\":[\\w]*:\", c))\n",
"\n",
"print(\"Los 10 emojis más usados son:\")\n",
"for emoji, apariciones in emojis_usados.most_common(10):\n",
" print(f\"{emoji}, {apariciones} veces\")"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.8.1"
}
},
"nbformat": 4,
"nbformat_minor": 4
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment