bnagy/pos.ipynb Secret

## pos.ipynb
{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "sulps = \"\"\"Gratum est, securus multum quod iam tibi de me\n",
    " permittis, subito ne male inepta cadam.\n",
    "Sit tibi cura togae potior pressumque quasillo\n",
    " scortum quam Servi filia Sulpicia:\n",
    "Solliciti sunt pro nobis, quibus illa dolori est,\n",
    " ne cedam ignoto, maxima causa, toro.\"\"\""
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'gratum est securus multum quod iam tibi de me\\n permittis subito ne male inepta cadam\\nsit tibi cura togae potior pressumque quasillo\\n scortum quam servi filia sulpicia\\nsolliciti sunt pro nobis quibus illa dolori est\\n ne cedam ignoto maxima causa toro'"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import string\n",
    "tr = sulps.maketrans('','',string.punctuation)\n",
    "sulps = sulps.translate(tr).lower()\n",
    "sulps"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['gratum est securus multum quod iam tibi de me',\n",
       " ' permittis subito ne male inepta cadam',\n",
       " 'sit tibi cura togae potior pressumque quasillo',\n",
       " ' scortum quam serui filia sulpicia',\n",
       " 'solliciti sunt pro nobis quibus illa dolori est',\n",
       " ' ne cedam ignoto maxima causa toro']"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from cltk.stem.latin.j_v import JVReplacer\n",
    "j = JVReplacer()\n",
    "clean_lines = j.replace(sulps).splitlines()\n",
    "clean_lines"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['gratum est securus multum quod iam tibi de me',\n",
       " 'permittis subito ne male inepta cadam',\n",
       " 'sit tibi cura togae potior pressumque quasillo',\n",
       " 'scortum quam serui filia sulpicia',\n",
       " 'solliciti sunt pro nobis quibus illa dolori est',\n",
       " 'ne cedam ignoto maxima causa toro']"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import re\n",
    "clean_lines = [re.sub('^ ','',l) for l in clean_lines] # remove leading spaces\n",
    "clean_lines"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['permitto', 'subeo', 'neo1', 'malus', 'ineptus', 'cado']"
      ]
     },
     "execution_count": 30,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# The Lemmatizer is able to correctly identify cadam as an inflected form of cado\n",
    "\n",
    "from cltk.stem.lemma import LemmaReplacer\n",
    "lemmatizer = LemmaReplacer('latin')\n",
    "l = lemmatizer.lemmatize(clean_lines[1])\n",
    "l"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "# But the POS taggers have no idea how to handle it\n",
    "\n",
    "from cltk.tag.pos import POSTag"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "tagger = POSTag('latin')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[('permittis', 'N-S---FG-'),\n",
       " ('subito', 'D--------'),\n",
       " ('ne', 'D--------'),\n",
       " ('male', 'D--------'),\n",
       " ('inepta', 'T-SRPPFN-'),\n",
       " ('cadam', 'A-S---FA-')]"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tagger.tag_crf(clean_lines[1])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[('permittis', 'V2SPIA---'),\n",
       " ('subito', 'D--------'),\n",
       " ('ne', 'D--------'),\n",
       " ('male', 'D--------'),\n",
       " ('inepta', 'Unk'),\n",
       " ('cadam', 'Unk')]"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tagger.tag_tnt(clean_lines[1])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[('permittis', 'V2SPIA---'),\n",
       " ('subito', 'D--------'),\n",
       " ('ne', 'D--------'),\n",
       " ('male', 'D--------'),\n",
       " ('inepta', None),\n",
       " ('cadam', None)]"
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tagger.tag_ngram_123_backoff(clean_lines[1])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "gratum/n-s---nb- est/v1si-a--- securus/a-s---fb- multum/d-------- quod/p-s---na- iam/d-------- tibi/a-s---fb- de/n-s---nb- me/d-------- permittis/p-s---ma- subito/d-------- ne/t-srppmn- male/d-------- inepta/v--pna--- cadam/v2spia---\n",
      "\n"
     ]
    }
   ],
   "source": [
    "# The new LAPOS tagger at least tags it as a verb, but v2spia is weird\n",
    "# since a final 'm' is always 1st person\n",
    "\n",
    "import subprocess\n",
    "p = subprocess.run(\n",
    "    [\"lapos/lapos\", \"-t\", \"-m\", \"lapos_model\"], \n",
    "    input='gratum est securus multum quod iam tibi de me permittis subito ne male inepta cadam', \n",
    "    encoding='ascii',\n",
    "    stdout=subprocess.PIPE\n",
    ")\n",
    "print(p.stdout)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
	{
	"cells": [
	{
	"cell_type": "code",
	"execution_count": 1,
	"metadata": {},
	"outputs": [],
	"source": [
	"sulps = \"\"\"Gratum est, securus multum quod iam tibi de me\n",
	" permittis, subito ne male inepta cadam.\n",
	"Sit tibi cura togae potior pressumque quasillo\n",
	" scortum quam Servi filia Sulpicia:\n",
	"Solliciti sunt pro nobis, quibus illa dolori est,\n",
	" ne cedam ignoto, maxima causa, toro.\"\"\""
	]
	},
	{
	"cell_type": "code",
	"execution_count": 2,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"'gratum est securus multum quod iam tibi de me\\n permittis subito ne male inepta cadam\\nsit tibi cura togae potior pressumque quasillo\\n scortum quam servi filia sulpicia\\nsolliciti sunt pro nobis quibus illa dolori est\\n ne cedam ignoto maxima causa toro'"
	]
	},
	"execution_count": 2,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"import string\n",
	"tr = sulps.maketrans('','',string.punctuation)\n",
	"sulps = sulps.translate(tr).lower()\n",
	"sulps"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 4,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"['gratum est securus multum quod iam tibi de me',\n",
	" ' permittis subito ne male inepta cadam',\n",
	" 'sit tibi cura togae potior pressumque quasillo',\n",
	" ' scortum quam serui filia sulpicia',\n",
	" 'solliciti sunt pro nobis quibus illa dolori est',\n",
	" ' ne cedam ignoto maxima causa toro']"
	]
	},
	"execution_count": 4,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"from cltk.stem.latin.j_v import JVReplacer\n",
	"j = JVReplacer()\n",
	"clean_lines = j.replace(sulps).splitlines()\n",
	"clean_lines"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 9,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"['gratum est securus multum quod iam tibi de me',\n",
	" 'permittis subito ne male inepta cadam',\n",
	" 'sit tibi cura togae potior pressumque quasillo',\n",
	" 'scortum quam serui filia sulpicia',\n",
	" 'solliciti sunt pro nobis quibus illa dolori est',\n",
	" 'ne cedam ignoto maxima causa toro']"
	]
	},
	"execution_count": 9,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"import re\n",
	"clean_lines = [re.sub('^ ','',l) for l in clean_lines] # remove leading spaces\n",
	"clean_lines"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 30,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"['permitto', 'subeo', 'neo1', 'malus', 'ineptus', 'cado']"
	]
	},
	"execution_count": 30,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"# The Lemmatizer is able to correctly identify cadam as an inflected form of cado\n",
	"\n",
	"from cltk.stem.lemma import LemmaReplacer\n",
	"lemmatizer = LemmaReplacer('latin')\n",
	"l = lemmatizer.lemmatize(clean_lines[1])\n",
	"l"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 10,
	"metadata": {},
	"outputs": [],
	"source": [
	"# But the POS taggers have no idea how to handle it\n",
	"\n",
	"from cltk.tag.pos import POSTag"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 11,
	"metadata": {},
	"outputs": [],
	"source": [
	"tagger = POSTag('latin')"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 14,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"[('permittis', 'N-S---FG-'),\n",
	" ('subito', 'D--------'),\n",
	" ('ne', 'D--------'),\n",
	" ('male', 'D--------'),\n",
	" ('inepta', 'T-SRPPFN-'),\n",
	" ('cadam', 'A-S---FA-')]"
	]
	},
	"execution_count": 14,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"tagger.tag_crf(clean_lines[1])"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 16,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"[('permittis', 'V2SPIA---'),\n",
	" ('subito', 'D--------'),\n",
	" ('ne', 'D--------'),\n",
	" ('male', 'D--------'),\n",
	" ('inepta', 'Unk'),\n",
	" ('cadam', 'Unk')]"
	]
	},
	"execution_count": 16,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"tagger.tag_tnt(clean_lines[1])"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 17,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"[('permittis', 'V2SPIA---'),\n",
	" ('subito', 'D--------'),\n",
	" ('ne', 'D--------'),\n",
	" ('male', 'D--------'),\n",
	" ('inepta', None),\n",
	" ('cadam', None)]"
	]
	},
	"execution_count": 17,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"tagger.tag_ngram_123_backoff(clean_lines[1])"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 51,
	"metadata": {},
	"outputs": [
	{
	"name": "stdout",
	"output_type": "stream",
	"text": [
	"gratum/n-s---nb- est/v1si-a--- securus/a-s---fb- multum/d-------- quod/p-s---na- iam/d-------- tibi/a-s---fb- de/n-s---nb- me/d-------- permittis/p-s---ma- subito/d-------- ne/t-srppmn- male/d-------- inepta/v--pna--- cadam/v2spia---\n",
	"\n"
	]
	}
	],
	"source": [
	"# The new LAPOS tagger at least tags it as a verb, but v2spia is weird\n",
	"# since a final 'm' is always 1st person\n",
	"\n",
	"import subprocess\n",
	"p = subprocess.run(\n",
	" [\"lapos/lapos\", \"-t\", \"-m\", \"lapos_model\"], \n",
	" input='gratum est securus multum quod iam tibi de me permittis subito ne male inepta cadam', \n",
	" encoding='ascii',\n",
	" stdout=subprocess.PIPE\n",
	")\n",
	"print(p.stdout)\n"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": []
	}
	],
	"metadata": {
	"kernelspec": {
	"display_name": "Python 3",
	"language": "python",
	"name": "python3"
	},
	"language_info": {
	"codemirror_mode": {
	"name": "ipython",
	"version": 3
	},
	"file_extension": ".py",
	"mimetype": "text/x-python",
	"name": "python",
	"nbconvert_exporter": "python",
	"pygments_lexer": "ipython3",
	"version": "3.6.5"
	}
	},
	"nbformat": 4,
	"nbformat_minor": 2
	}