mknz/kafka_gpt2.ipynb

## kafka_gpt2.ipynb
{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "name": "kafka_gpt2.ipynb",
      "provenance": [],
      "collapsed_sections": [],
      "mount_file_id": "1jq0PsIPHegnLiR_PDp7SB-erxAJ0M-HF",
      "authorship_tag": "ABX9TyMnRksQOM542+B3s45Gl+ra",
      "include_colab_link": true
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "language_info": {
      "name": "python"
    },
    "accelerator": "GPU",
    "gpuClass": "standard"
  },
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "view-in-github",
        "colab_type": "text"
      },
      "source": [
        "<a href=\"https://colab.research.google.com/gist/mknz/aca5c88d6805965b25ae7e3ed50205e7/kafka_gpt2.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!pip install git+https://github.com/huggingface/transformers"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Pe-TX_qYlgQf",
        "outputId": "67ceb4d0-0cab-472c-c404-58df0df4f0bb"
      },
      "execution_count": 30,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
            "Collecting git+https://github.com/huggingface/transformers\n",
            "  Cloning https://github.com/huggingface/transformers to /tmp/pip-req-build-ojng6na7\n",
            "  Running command git clone -q https://github.com/huggingface/transformers /tmp/pip-req-build-ojng6na7\n",
            "  Installing build dependencies ... \u001b[?25l\u001b[?25hdone\n",
            "  Getting requirements to build wheel ... \u001b[?25l\u001b[?25hdone\n",
            "    Preparing wheel metadata ... \u001b[?25l\u001b[?25hdone\n",
            "Requirement already satisfied: requests in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (2.23.0)\n",
            "Requirement already satisfied: huggingface-hub<1.0,>=0.1.0 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (0.8.1)\n",
            "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (21.3)\n",
            "Requirement already satisfied: regex!=2019.12.17 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (2022.6.2)\n",
            "Requirement already satisfied: tokenizers!=0.11.3,<0.13,>=0.11.1 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (0.12.1)\n",
            "Requirement already satisfied: importlib-metadata in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (4.12.0)\n",
            "Requirement already satisfied: tqdm>=4.27 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (4.64.0)\n",
            "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (1.21.6)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (3.7.1)\n",
            "Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.7/dist-packages (from transformers==4.22.0.dev0) (6.0)\n",
            "Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.7/dist-packages (from huggingface-hub<1.0,>=0.1.0->transformers==4.22.0.dev0) (4.1.1)\n",
            "Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /usr/local/lib/python3.7/dist-packages (from packaging>=20.0->transformers==4.22.0.dev0) (3.0.9)\n",
            "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.7/dist-packages (from importlib-metadata->transformers==4.22.0.dev0) (3.8.1)\n",
            "Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.22.0.dev0) (1.25.11)\n",
            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.22.0.dev0) (2022.6.15)\n",
            "Requirement already satisfied: idna<3,>=2.5 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.22.0.dev0) (2.10)\n",
            "Requirement already satisfied: chardet<4,>=3.0.2 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.22.0.dev0) (3.0.4)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!wget https://github.com/huggingface/transformers/raw/main/examples/pytorch/language-modeling/requirements.txt\n",
        "!wget https://github.com/huggingface/transformers/raw/main/examples/pytorch/language-modeling/run_clm.py"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "dkurlax-fhtA",
        "outputId": "016ec37d-2cc2-4dbf-a370-aa76c82894c8"
      },
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "--2022-07-27 16:55:15--  https://github.com/huggingface/transformers/raw/main/examples/pytorch/language-modeling/requirements.txt\n",
            "Resolving github.com (github.com)... 20.205.243.166\n",
            "Connecting to github.com (github.com)|20.205.243.166|:443... connected.\n",
            "HTTP request sent, awaiting response... 302 Found\n",
            "Location: https://raw.githubusercontent.com/huggingface/transformers/main/examples/pytorch/language-modeling/requirements.txt [following]\n",
            "--2022-07-27 16:55:15--  https://raw.githubusercontent.com/huggingface/transformers/main/examples/pytorch/language-modeling/requirements.txt\n",
            "Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...\n",
            "Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.\n",
            "HTTP request sent, awaiting response... 200 OK\n",
            "Length: 75 [text/plain]\n",
            "Saving to: ‘requirements.txt’\n",
            "\n",
            "requirements.txt    100%[===================>]      75  --.-KB/s    in 0s      \n",
            "\n",
            "2022-07-27 16:55:15 (2.52 MB/s) - ‘requirements.txt’ saved [75/75]\n",
            "\n",
            "--2022-07-27 16:55:15--  https://github.com/huggingface/transformers/raw/main/examples/pytorch/language-modeling/run_clm.py\n",
            "Resolving github.com (github.com)... 20.205.243.166\n",
            "Connecting to github.com (github.com)|20.205.243.166|:443... connected.\n",
            "HTTP request sent, awaiting response... 302 Found\n",
            "Location: https://raw.githubusercontent.com/huggingface/transformers/main/examples/pytorch/language-modeling/run_clm.py [following]\n",
            "--2022-07-27 16:55:16--  https://raw.githubusercontent.com/huggingface/transformers/main/examples/pytorch/language-modeling/run_clm.py\n",
            "Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.111.133, ...\n",
            "Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.\n",
            "HTTP request sent, awaiting response... 200 OK\n",
            "Length: 25025 (24K) [text/plain]\n",
            "Saving to: ‘run_clm.py’\n",
            "\n",
            "run_clm.py          100%[===================>]  24.44K  --.-KB/s    in 0s      \n",
            "\n",
            "2022-07-27 16:55:16 (98.5 MB/s) - ‘run_clm.py’ saved [25025/25025]\n",
            "\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!pip3 install -r requirements.txt"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "J9xqaZUAnu5y",
        "outputId": "0dd6c50d-8d5b-48c8-b4c3-5f4c598ac9d0"
      },
      "execution_count": 3,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
            "Collecting accelerate\n",
            "  Downloading accelerate-0.11.0-py3-none-any.whl (123 kB)\n",
            "\u001b[K     |████████████████████████████████| 123 kB 31.1 MB/s \n",
            "\u001b[?25hRequirement already satisfied: torch>=1.3 in /usr/local/lib/python3.7/dist-packages (from -r requirements.txt (line 2)) (1.12.0+cu113)\n",
            "Collecting datasets>=1.8.0\n",
            "  Downloading datasets-2.4.0-py3-none-any.whl (365 kB)\n",
            "\u001b[K     |████████████████████████████████| 365 kB 60.3 MB/s \n",
            "\u001b[?25hCollecting sentencepiece!=0.1.92\n",
            "  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)\n",
            "\u001b[K     |████████████████████████████████| 1.2 MB 62.7 MB/s \n",
            "\u001b[?25hRequirement already satisfied: protobuf in /usr/local/lib/python3.7/dist-packages (from -r requirements.txt (line 5)) (3.17.3)\n",
            "Requirement already satisfied: typing-extensions in /usr/local/lib/python3.7/dist-packages (from torch>=1.3->-r requirements.txt (line 2)) (4.1.1)\n",
            "Requirement already satisfied: requests>=2.19.0 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (2.23.0)\n",
            "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (1.21.6)\n",
            "Requirement already satisfied: pandas in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (1.3.5)\n",
            "Collecting xxhash\n",
            "  Downloading xxhash-3.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)\n",
            "\u001b[K     |████████████████████████████████| 212 kB 59.3 MB/s \n",
            "\u001b[?25hRequirement already satisfied: packaging in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (21.3)\n",
            "Requirement already satisfied: multiprocess in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (0.70.13)\n",
            "Requirement already satisfied: importlib-metadata in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (4.12.0)\n",
            "Collecting responses<0.19\n",
            "  Downloading responses-0.18.0-py3-none-any.whl (38 kB)\n",
            "Requirement already satisfied: tqdm>=4.62.1 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (4.64.0)\n",
            "Requirement already satisfied: aiohttp in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (3.8.1)\n",
            "Requirement already satisfied: huggingface-hub<1.0.0,>=0.1.0 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (0.8.1)\n",
            "Requirement already satisfied: pyarrow>=6.0.0 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (6.0.1)\n",
            "Requirement already satisfied: dill<0.3.6 in /usr/local/lib/python3.7/dist-packages (from datasets>=1.8.0->-r requirements.txt (line 3)) (0.3.5.1)\n",
            "Collecting fsspec[http]>=2021.11.1\n",
            "  Downloading fsspec-2022.5.0-py3-none-any.whl (140 kB)\n",
            "\u001b[K     |████████████████████████████████| 140 kB 72.3 MB/s \n",
            "\u001b[?25hRequirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.7/dist-packages (from huggingface-hub<1.0.0,>=0.1.0->datasets>=1.8.0->-r requirements.txt (line 3)) (6.0)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.7/dist-packages (from huggingface-hub<1.0.0,>=0.1.0->datasets>=1.8.0->-r requirements.txt (line 3)) (3.7.1)\n",
            "Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /usr/local/lib/python3.7/dist-packages (from packaging->datasets>=1.8.0->-r requirements.txt (line 3)) (3.0.9)\n",
            "Requirement already satisfied: chardet<4,>=3.0.2 in /usr/local/lib/python3.7/dist-packages (from requests>=2.19.0->datasets>=1.8.0->-r requirements.txt (line 3)) (3.0.4)\n",
            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.7/dist-packages (from requests>=2.19.0->datasets>=1.8.0->-r requirements.txt (line 3)) (2022.6.15)\n",
            "Requirement already satisfied: idna<3,>=2.5 in /usr/local/lib/python3.7/dist-packages (from requests>=2.19.0->datasets>=1.8.0->-r requirements.txt (line 3)) (2.10)\n",
            "Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in /usr/local/lib/python3.7/dist-packages (from requests>=2.19.0->datasets>=1.8.0->-r requirements.txt (line 3)) (1.24.3)\n",
            "Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1\n",
            "  Downloading urllib3-1.25.11-py2.py3-none-any.whl (127 kB)\n",
            "\u001b[K     |████████████████████████████████| 127 kB 69.7 MB/s \n",
            "\u001b[?25hRequirement already satisfied: psutil in /usr/local/lib/python3.7/dist-packages (from accelerate->-r requirements.txt (line 1)) (5.4.8)\n",
            "Requirement already satisfied: six>=1.9 in /usr/local/lib/python3.7/dist-packages (from protobuf->-r requirements.txt (line 5)) (1.15.0)\n",
            "Requirement already satisfied: async-timeout<5.0,>=4.0.0a3 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (4.0.2)\n",
            "Requirement already satisfied: yarl<2.0,>=1.0 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (1.7.2)\n",
            "Requirement already satisfied: attrs>=17.3.0 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (21.4.0)\n",
            "Requirement already satisfied: multidict<7.0,>=4.5 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (6.0.2)\n",
            "Requirement already satisfied: aiosignal>=1.1.2 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (1.2.0)\n",
            "Requirement already satisfied: asynctest==0.13.0 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (0.13.0)\n",
            "Requirement already satisfied: charset-normalizer<3.0,>=2.0 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (2.1.0)\n",
            "Requirement already satisfied: frozenlist>=1.1.1 in /usr/local/lib/python3.7/dist-packages (from aiohttp->datasets>=1.8.0->-r requirements.txt (line 3)) (1.3.0)\n",
            "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.7/dist-packages (from importlib-metadata->datasets>=1.8.0->-r requirements.txt (line 3)) (3.8.1)\n",
            "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.7/dist-packages (from pandas->datasets>=1.8.0->-r requirements.txt (line 3)) (2022.1)\n",
            "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.7/dist-packages (from pandas->datasets>=1.8.0->-r requirements.txt (line 3)) (2.8.2)\n",
            "Installing collected packages: urllib3, fsspec, xxhash, responses, sentencepiece, datasets, accelerate\n",
            "  Attempting uninstall: urllib3\n",
            "    Found existing installation: urllib3 1.24.3\n",
            "    Uninstalling urllib3-1.24.3:\n",
            "      Successfully uninstalled urllib3-1.24.3\n",
            "\u001b[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.\n",
            "datascience 0.10.6 requires folium==0.2.1, but you have folium 0.8.3 which is incompatible.\u001b[0m\n",
            "Successfully installed accelerate-0.11.0 datasets-2.4.0 fsspec-2022.5.0 responses-0.18.0 sentencepiece-0.1.96 urllib3-1.25.11 xxhash-3.0.0\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!head /content/drive/MyDrive/data/language/de/alltexts.txt"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "dYYLzzR1p9Yu",
        "outputId": "82632174-f3ee-4e13-d929-b1cbaed0eaa1"
      },
      "execution_count": 4,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Der Heizer\n",
            "Als der sechzehnjährige Karl Roßmann, der von seinen armen Eltern nach\n",
            "Amerika geschickt worden war, weil ihn ein Dienstmädchen verführt und ein Kind\n",
            "von ihm bekommen hatte, in dem schon langsam gewordenen Schiff in den Hafen\n",
            "von New York einfuhr, erblickte er die schon längst beobachtete Statue der\n",
            "Freiheitsgöttin wie in einem plötzlich stärker gewordenen Sonnenlicht. Ihr Arm mit\n",
            "dem Schwert ragte wie neuerdings empor, und um ihre Gestalt wehten die freien\n",
            "Lüfte.\n",
            ">So hoch!< sagte er sich und wurde, wie er so gar nicht an das Weggehen\n",
            "dachte, von der immer mehr anschwellenden Menge der Gepäckträger, die an ihm\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!python run_clm.py \\\n",
        "    --model_name_or_path stefan-it/german-gpt2-larger \\\n",
        "    --train_file /content/drive/MyDrive/data/language/de/alltexts.txt \\\n",
        "    --per_device_train_batch_size 1 \\\n",
        "    --per_device_eval_batch_size 1 \\\n",
        "    --do_train \\\n",
        "    --do_eval \\\n",
        "    --output_dir /tmp/ggl-kafka \\\n",
        "    --overwrite_output_dir"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Yo8yT-6OnyTj",
        "outputId": "4c671cbb-c4f0-498c-f23b-092baf9ea0de"
      },
      "execution_count": 6,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "07/27/2022 16:56:46 - WARNING - __main__ - Process rank: -1, device: cuda:0, n_gpu: 1distributed training: False, 16-bits training: False\n",
            "07/27/2022 16:56:46 - INFO - __main__ - Training/evaluation parameters TrainingArguments(\n",
            "_n_gpu=1,\n",
            "adafactor=False,\n",
            "adam_beta1=0.9,\n",
            "adam_beta2=0.999,\n",
            "adam_epsilon=1e-08,\n",
            "auto_find_batch_size=False,\n",
            "bf16=False,\n",
            "bf16_full_eval=False,\n",
            "data_seed=None,\n",
            "dataloader_drop_last=False,\n",
            "dataloader_num_workers=0,\n",
            "dataloader_pin_memory=True,\n",
            "ddp_bucket_cap_mb=None,\n",
            "ddp_find_unused_parameters=None,\n",
            "debug=[],\n",
            "deepspeed=None,\n",
            "disable_tqdm=False,\n",
            "do_eval=True,\n",
            "do_predict=False,\n",
            "do_train=True,\n",
            "eval_accumulation_steps=None,\n",
            "eval_delay=0,\n",
            "eval_steps=None,\n",
            "evaluation_strategy=no,\n",
            "fp16=False,\n",
            "fp16_backend=auto,\n",
            "fp16_full_eval=False,\n",
            "fp16_opt_level=O1,\n",
            "fsdp=[],\n",
            "fsdp_min_num_params=0,\n",
            "fsdp_transformer_layer_cls_to_wrap=None,\n",
            "full_determinism=False,\n",
            "gradient_accumulation_steps=1,\n",
            "gradient_checkpointing=False,\n",
            "greater_is_better=None,\n",
            "group_by_length=False,\n",
            "half_precision_backend=auto,\n",
            "hub_model_id=None,\n",
            "hub_private_repo=False,\n",
            "hub_strategy=every_save,\n",
            "hub_token=<HUB_TOKEN>,\n",
            "ignore_data_skip=False,\n",
            "include_inputs_for_metrics=False,\n",
            "jit_mode_eval=False,\n",
            "label_names=None,\n",
            "label_smoothing_factor=0.0,\n",
            "learning_rate=5e-05,\n",
            "length_column_name=length,\n",
            "load_best_model_at_end=False,\n",
            "local_rank=-1,\n",
            "log_level=-1,\n",
            "log_level_replica=-1,\n",
            "log_on_each_node=True,\n",
            "logging_dir=/tmp/ggl-kafka/runs/Jul27_16-56-45_3b2204fca754,\n",
            "logging_first_step=False,\n",
            "logging_nan_inf_filter=True,\n",
            "logging_steps=500,\n",
            "logging_strategy=steps,\n",
            "lr_scheduler_type=linear,\n",
            "max_grad_norm=1.0,\n",
            "max_steps=-1,\n",
            "metric_for_best_model=None,\n",
            "mp_parameters=,\n",
            "no_cuda=False,\n",
            "num_train_epochs=3.0,\n",
            "optim=adamw_hf,\n",
            "output_dir=/tmp/ggl-kafka,\n",
            "overwrite_output_dir=True,\n",
            "past_index=-1,\n",
            "per_device_eval_batch_size=1,\n",
            "per_device_train_batch_size=1,\n",
            "prediction_loss_only=False,\n",
            "push_to_hub=False,\n",
            "push_to_hub_model_id=None,\n",
            "push_to_hub_organization=None,\n",
            "push_to_hub_token=<PUSH_TO_HUB_TOKEN>,\n",
            "ray_scope=last,\n",
            "remove_unused_columns=True,\n",
            "report_to=['tensorboard'],\n",
            "resume_from_checkpoint=None,\n",
            "run_name=/tmp/ggl-kafka,\n",
            "save_on_each_node=False,\n",
            "save_steps=500,\n",
            "save_strategy=steps,\n",
            "save_total_limit=None,\n",
            "seed=42,\n",
            "sharded_ddp=[],\n",
            "skip_memory_metrics=True,\n",
            "tf32=None,\n",
            "torchdynamo=None,\n",
            "tpu_metrics_debug=False,\n",
            "tpu_num_cores=None,\n",
            "use_ipex=False,\n",
            "use_legacy_prediction_loop=False,\n",
            "warmup_ratio=0.0,\n",
            "warmup_steps=0,\n",
            "weight_decay=0.0,\n",
            "xpu_backend=None,\n",
            ")\n",
            "07/27/2022 16:56:47 - WARNING - datasets.builder - Using custom data configuration default-b002bd3c3b55e21a\n",
            "07/27/2022 16:56:47 - INFO - datasets.builder - Generating dataset text (/root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad)\n",
            "Downloading and preparing dataset text/default to /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad...\n",
            "Downloading data files: 100% 1/1 [00:00<00:00, 2538.92it/s]\n",
            "07/27/2022 16:56:47 - INFO - datasets.download.download_manager - Downloading took 0.0 min\n",
            "07/27/2022 16:56:47 - INFO - datasets.download.download_manager - Checksum Computation took 0.0 min\n",
            "Extracting data files: 100% 1/1 [00:00<00:00, 129.31it/s]\n",
            "07/27/2022 16:56:47 - INFO - datasets.utils.info_utils - Unable to verify checksums.\n",
            "07/27/2022 16:56:47 - INFO - datasets.builder - Generating train split\n",
            "07/27/2022 16:56:47 - INFO - datasets.utils.info_utils - Unable to verify splits sizes.\n",
            "Dataset text downloaded and prepared to /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad. Subsequent calls will reuse this data.\n",
            "100% 1/1 [00:00<00:00, 137.32it/s]\n",
            "07/27/2022 16:56:48 - WARNING - datasets.builder - Using custom data configuration default-b002bd3c3b55e21a\n",
            "07/27/2022 16:56:48 - INFO - datasets.builder - Overwrite dataset info from restored data version.\n",
            "07/27/2022 16:56:48 - INFO - datasets.info - Loading Dataset info from /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad\n",
            "07/27/2022 16:56:48 - WARNING - datasets.builder - Reusing dataset text (/root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad)\n",
            "07/27/2022 16:56:48 - INFO - datasets.info - Loading Dataset info from /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad\n",
            "07/27/2022 16:56:49 - WARNING - datasets.builder - Using custom data configuration default-b002bd3c3b55e21a\n",
            "07/27/2022 16:56:49 - INFO - datasets.builder - Overwrite dataset info from restored data version.\n",
            "07/27/2022 16:56:49 - INFO - datasets.info - Loading Dataset info from /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad\n",
            "07/27/2022 16:56:49 - WARNING - datasets.builder - Reusing dataset text (/root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad)\n",
            "07/27/2022 16:56:49 - INFO - datasets.info - Loading Dataset info from /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad\n",
            "[INFO|hub.py:600] 2022-07-27 16:56:50,569 >> https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/config.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmp6t9h_5qo\n",
            "Downloading config.json: 100% 865/865 [00:00<00:00, 723kB/s]\n",
            "[INFO|hub.py:613] 2022-07-27 16:56:51,445 >> storing https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/config.json in cache at /root/.cache/huggingface/transformers/d7d7ce74e1b0028aa6adbe19fcf16a4b8652aee38d01479c2ffe1fee554f5a02.c2691875546ef74b9ac40ff4710b07238e2fa06e621d293102e3208e16737ba0\n",
            "[INFO|hub.py:621] 2022-07-27 16:56:51,445 >> creating metadata file for /root/.cache/huggingface/transformers/d7d7ce74e1b0028aa6adbe19fcf16a4b8652aee38d01479c2ffe1fee554f5a02.c2691875546ef74b9ac40ff4710b07238e2fa06e621d293102e3208e16737ba0\n",
            "[INFO|configuration_utils.py:674] 2022-07-27 16:56:51,445 >> loading configuration file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/d7d7ce74e1b0028aa6adbe19fcf16a4b8652aee38d01479c2ffe1fee554f5a02.c2691875546ef74b9ac40ff4710b07238e2fa06e621d293102e3208e16737ba0\n",
            "[INFO|configuration_utils.py:723] 2022-07-27 16:56:51,446 >> Model config GPT2Config {\n",
            "  \"_name_or_path\": \"stefan-it/german-gpt2-larger\",\n",
            "  \"activation_function\": \"gelu_new\",\n",
            "  \"architectures\": [\n",
            "    \"GPT2LMHeadModel\"\n",
            "  ],\n",
            "  \"attn_pdrop\": 0.0,\n",
            "  \"bos_token_id\": 50256,\n",
            "  \"embd_pdrop\": 0.0,\n",
            "  \"eos_token_id\": 50256,\n",
            "  \"gradient_checkpointing\": false,\n",
            "  \"initializer_range\": 0.02,\n",
            "  \"layer_norm_epsilon\": 1e-05,\n",
            "  \"model_type\": \"gpt2\",\n",
            "  \"n_ctx\": 1024,\n",
            "  \"n_embd\": 768,\n",
            "  \"n_head\": 12,\n",
            "  \"n_inner\": null,\n",
            "  \"n_layer\": 12,\n",
            "  \"n_positions\": 1024,\n",
            "  \"reorder_and_upcast_attn\": false,\n",
            "  \"resid_pdrop\": 0.0,\n",
            "  \"scale_attn_by_inverse_layer_idx\": false,\n",
            "  \"scale_attn_weights\": true,\n",
            "  \"summary_activation\": null,\n",
            "  \"summary_first_dropout\": 0.1,\n",
            "  \"summary_proj_to_labels\": true,\n",
            "  \"summary_type\": \"cls_index\",\n",
            "  \"summary_use_proj\": true,\n",
            "  \"task_specific_params\": {\n",
            "    \"text-generation\": {\n",
            "      \"do_sample\": true,\n",
            "      \"max_length\": 50\n",
            "    }\n",
            "  },\n",
            "  \"torch_dtype\": \"float32\",\n",
            "  \"transformers_version\": \"4.22.0.dev0\",\n",
            "  \"use_cache\": true,\n",
            "  \"vocab_size\": 50265\n",
            "}\n",
            "\n",
            "[INFO|tokenization_auto.py:404] 2022-07-27 16:56:52,341 >> Could not locate the tokenizer configuration file, will try to use the model config instead.\n",
            "[INFO|configuration_utils.py:674] 2022-07-27 16:56:53,228 >> loading configuration file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/d7d7ce74e1b0028aa6adbe19fcf16a4b8652aee38d01479c2ffe1fee554f5a02.c2691875546ef74b9ac40ff4710b07238e2fa06e621d293102e3208e16737ba0\n",
            "[INFO|configuration_utils.py:723] 2022-07-27 16:56:53,229 >> Model config GPT2Config {\n",
            "  \"_name_or_path\": \"stefan-it/german-gpt2-larger\",\n",
            "  \"activation_function\": \"gelu_new\",\n",
            "  \"architectures\": [\n",
            "    \"GPT2LMHeadModel\"\n",
            "  ],\n",
            "  \"attn_pdrop\": 0.0,\n",
            "  \"bos_token_id\": 50256,\n",
            "  \"embd_pdrop\": 0.0,\n",
            "  \"eos_token_id\": 50256,\n",
            "  \"gradient_checkpointing\": false,\n",
            "  \"initializer_range\": 0.02,\n",
            "  \"layer_norm_epsilon\": 1e-05,\n",
            "  \"model_type\": \"gpt2\",\n",
            "  \"n_ctx\": 1024,\n",
            "  \"n_embd\": 768,\n",
            "  \"n_head\": 12,\n",
            "  \"n_inner\": null,\n",
            "  \"n_layer\": 12,\n",
            "  \"n_positions\": 1024,\n",
            "  \"reorder_and_upcast_attn\": false,\n",
            "  \"resid_pdrop\": 0.0,\n",
            "  \"scale_attn_by_inverse_layer_idx\": false,\n",
            "  \"scale_attn_weights\": true,\n",
            "  \"summary_activation\": null,\n",
            "  \"summary_first_dropout\": 0.1,\n",
            "  \"summary_proj_to_labels\": true,\n",
            "  \"summary_type\": \"cls_index\",\n",
            "  \"summary_use_proj\": true,\n",
            "  \"task_specific_params\": {\n",
            "    \"text-generation\": {\n",
            "      \"do_sample\": true,\n",
            "      \"max_length\": 50\n",
            "    }\n",
            "  },\n",
            "  \"torch_dtype\": \"float32\",\n",
            "  \"transformers_version\": \"4.22.0.dev0\",\n",
            "  \"use_cache\": true,\n",
            "  \"vocab_size\": 50265\n",
            "}\n",
            "\n",
            "[INFO|hub.py:600] 2022-07-27 16:56:56,776 >> https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/tokenizer.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmprz23mma3\n",
            "Downloading tokenizer.json: 100% 1.37M/1.37M [00:01<00:00, 1.11MB/s]\n",
            "[INFO|hub.py:613] 2022-07-27 16:56:58,987 >> storing https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/tokenizer.json in cache at /root/.cache/huggingface/transformers/a5d0b9461f1446ff18fa842468f9a3db22037e20554dff605c3fd9c2a0317ffa.03b760d91008b0f7d63401bfa9ac1fd13665b501ee7109d41a109591c760a9b8\n",
            "[INFO|hub.py:621] 2022-07-27 16:56:58,987 >> creating metadata file for /root/.cache/huggingface/transformers/a5d0b9461f1446ff18fa842468f9a3db22037e20554dff605c3fd9c2a0317ffa.03b760d91008b0f7d63401bfa9ac1fd13665b501ee7109d41a109591c760a9b8\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/vocab.json from cache at None\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/merges.txt from cache at None\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/tokenizer.json from cache at /root/.cache/huggingface/transformers/a5d0b9461f1446ff18fa842468f9a3db22037e20554dff605c3fd9c2a0317ffa.03b760d91008b0f7d63401bfa9ac1fd13665b501ee7109d41a109591c760a9b8\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/added_tokens.json from cache at None\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/special_tokens_map.json from cache at None\n",
            "[INFO|tokenization_utils_base.py:1803] 2022-07-27 16:57:01,647 >> loading file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/tokenizer_config.json from cache at None\n",
            "[INFO|configuration_utils.py:674] 2022-07-27 16:57:02,532 >> loading configuration file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/d7d7ce74e1b0028aa6adbe19fcf16a4b8652aee38d01479c2ffe1fee554f5a02.c2691875546ef74b9ac40ff4710b07238e2fa06e621d293102e3208e16737ba0\n",
            "[INFO|configuration_utils.py:723] 2022-07-27 16:57:02,533 >> Model config GPT2Config {\n",
            "  \"_name_or_path\": \"stefan-it/german-gpt2-larger\",\n",
            "  \"activation_function\": \"gelu_new\",\n",
            "  \"architectures\": [\n",
            "    \"GPT2LMHeadModel\"\n",
            "  ],\n",
            "  \"attn_pdrop\": 0.0,\n",
            "  \"bos_token_id\": 50256,\n",
            "  \"embd_pdrop\": 0.0,\n",
            "  \"eos_token_id\": 50256,\n",
            "  \"gradient_checkpointing\": false,\n",
            "  \"initializer_range\": 0.02,\n",
            "  \"layer_norm_epsilon\": 1e-05,\n",
            "  \"model_type\": \"gpt2\",\n",
            "  \"n_ctx\": 1024,\n",
            "  \"n_embd\": 768,\n",
            "  \"n_head\": 12,\n",
            "  \"n_inner\": null,\n",
            "  \"n_layer\": 12,\n",
            "  \"n_positions\": 1024,\n",
            "  \"reorder_and_upcast_attn\": false,\n",
            "  \"resid_pdrop\": 0.0,\n",
            "  \"scale_attn_by_inverse_layer_idx\": false,\n",
            "  \"scale_attn_weights\": true,\n",
            "  \"summary_activation\": null,\n",
            "  \"summary_first_dropout\": 0.1,\n",
            "  \"summary_proj_to_labels\": true,\n",
            "  \"summary_type\": \"cls_index\",\n",
            "  \"summary_use_proj\": true,\n",
            "  \"task_specific_params\": {\n",
            "    \"text-generation\": {\n",
            "      \"do_sample\": true,\n",
            "      \"max_length\": 50\n",
            "    }\n",
            "  },\n",
            "  \"torch_dtype\": \"float32\",\n",
            "  \"transformers_version\": \"4.22.0.dev0\",\n",
            "  \"use_cache\": true,\n",
            "  \"vocab_size\": 50265\n",
            "}\n",
            "\n",
            "[WARNING|logging.py:279] 2022-07-27 16:57:02,592 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.\n",
            "[INFO|hub.py:600] 2022-07-27 16:57:03,496 >> https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/pytorch_model.bin not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmphb5362rt\n",
            "Downloading pytorch_model.bin: 100% 487M/487M [00:07<00:00, 70.2MB/s]\n",
            "[INFO|hub.py:613] 2022-07-27 16:57:11,817 >> storing https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/pytorch_model.bin in cache at /root/.cache/huggingface/transformers/320d000ce293e67d802d4fa5f30ffb83aff6e875192337202c8274d7716426c6.931a971379d840bae5d89bdc48254275935df2fd121da80ccd42ea5c89706a21\n",
            "[INFO|hub.py:621] 2022-07-27 16:57:11,817 >> creating metadata file for /root/.cache/huggingface/transformers/320d000ce293e67d802d4fa5f30ffb83aff6e875192337202c8274d7716426c6.931a971379d840bae5d89bdc48254275935df2fd121da80ccd42ea5c89706a21\n",
            "[INFO|modeling_utils.py:2034] 2022-07-27 16:57:11,818 >> loading weights file https://huggingface.co/stefan-it/german-gpt2-larger/resolve/main/pytorch_model.bin from cache at /root/.cache/huggingface/transformers/320d000ce293e67d802d4fa5f30ffb83aff6e875192337202c8274d7716426c6.931a971379d840bae5d89bdc48254275935df2fd121da80ccd42ea5c89706a21\n",
            "[INFO|modeling_utils.py:2428] 2022-07-27 16:57:13,588 >> All model checkpoint weights were used when initializing GPT2LMHeadModel.\n",
            "\n",
            "[INFO|modeling_utils.py:2437] 2022-07-27 16:57:13,588 >> All the weights of GPT2LMHeadModel were initialized from the model checkpoint at stefan-it/german-gpt2-larger.\n",
            "If your task is similar to the task the model of the checkpoint was trained on, you can already use GPT2LMHeadModel for predictions without further training.\n",
            "Running tokenizer on dataset:   0% 0/27 [00:00<?, ?ba/s]07/27/2022 16:57:14 - INFO - datasets.arrow_dataset - Caching processed dataset at /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad/cache-0431c6cf53d7bfc5.arrow\n",
            "Running tokenizer on dataset: 100% 27/27 [00:01<00:00, 22.63ba/s]\n",
            "Running tokenizer on dataset:   0% 0/2 [00:00<?, ?ba/s]07/27/2022 16:57:15 - INFO - datasets.arrow_dataset - Caching processed dataset at /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad/cache-a4619c6e0e3171ae.arrow\n",
            "Running tokenizer on dataset: 100% 2/2 [00:00<00:00, 37.52ba/s]\n",
            "07/27/2022 16:57:15 - WARNING - __main__ - The tokenizer picked seems to have a very large `model_max_length` (1000000000000000019884624838656). Picking 1024 instead. You can change that default value by passing --block_size xxx.\n",
            "Grouping texts in chunks of 1024:   0% 0/27 [00:00<?, ?ba/s]07/27/2022 16:57:15 - INFO - datasets.arrow_dataset - Caching processed dataset at /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad/cache-66a33e603b5bf3c8.arrow\n",
            "Grouping texts in chunks of 1024: 100% 27/27 [00:00<00:00, 40.75ba/s]\n",
            "Grouping texts in chunks of 1024:   0% 0/2 [00:00<?, ?ba/s]07/27/2022 16:57:16 - INFO - datasets.arrow_dataset - Caching processed dataset at /root/.cache/huggingface/datasets/text/default-b002bd3c3b55e21a/0.0.0/21a506d1b2b34316b1e82d0bd79066905d846e5d7e619823c0dd338d6f1fa6ad/cache-69a7857df9454728.arrow\n",
            "Grouping texts in chunks of 1024: 100% 2/2 [00:00<00:00, 52.97ba/s]\n",
            "07/27/2022 16:57:17 - INFO - datasets.utils.file_utils - https://raw.githubusercontent.com/huggingface/datasets/2.4.0/metrics/accuracy/accuracy.py not found in cache or force_download set to True, downloading to /root/.cache/huggingface/datasets/downloads/tmp6a6sm622\n",
            "Downloading builder script: 4.21kB [00:00, 4.06MB/s]       \n",
            "07/27/2022 16:57:17 - INFO - datasets.utils.file_utils - storing https://raw.githubusercontent.com/huggingface/datasets/2.4.0/metrics/accuracy/accuracy.py in cache at /root/.cache/huggingface/datasets/downloads/7d5afacc2f0ddac3c52fcc7ab3d5537069e8ee349ad261467426c0ad809c4eaa.32b3507481ea2e26fd6a2b34c9976e9da377302faaf35089eb1cd971d41bb0ff.py\n",
            "07/27/2022 16:57:17 - INFO - datasets.utils.file_utils - creating metadata file for /root/.cache/huggingface/datasets/downloads/7d5afacc2f0ddac3c52fcc7ab3d5537069e8ee349ad261467426c0ad809c4eaa.32b3507481ea2e26fd6a2b34c9976e9da377302faaf35089eb1cd971d41bb0ff.py\n",
            "/usr/local/lib/python3.7/dist-packages/transformers/optimization.py:310: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning\n",
            "  FutureWarning,\n",
            "[INFO|trainer.py:1605] 2022-07-27 16:57:23,772 >> ***** Running training *****\n",
            "[INFO|trainer.py:1606] 2022-07-27 16:57:23,772 >>   Num examples = 439\n",
            "[INFO|trainer.py:1607] 2022-07-27 16:57:23,772 >>   Num Epochs = 3\n",
            "[INFO|trainer.py:1608] 2022-07-27 16:57:23,772 >>   Instantaneous batch size per device = 1\n",
            "[INFO|trainer.py:1609] 2022-07-27 16:57:23,772 >>   Total train batch size (w. parallel, distributed & accumulation) = 1\n",
            "[INFO|trainer.py:1610] 2022-07-27 16:57:23,772 >>   Gradient Accumulation steps = 1\n",
            "[INFO|trainer.py:1611] 2022-07-27 16:57:23,772 >>   Total optimization steps = 1317\n",
            "{'loss': 4.6198, 'learning_rate': 3.1017463933181475e-05, 'epoch': 1.14}\n",
            " 38% 500/1317 [03:23<05:41,  2.39it/s][INFO|trainer.py:2640] 2022-07-27 17:00:47,387 >> Saving model checkpoint to /tmp/ggl-kafka/checkpoint-500\n",
            "[INFO|configuration_utils.py:451] 2022-07-27 17:00:47,388 >> Configuration saved in /tmp/ggl-kafka/checkpoint-500/config.json\n",
            "[INFO|modeling_utils.py:1566] 2022-07-27 17:00:48,953 >> Model weights saved in /tmp/ggl-kafka/checkpoint-500/pytorch_model.bin\n",
            "[INFO|tokenization_utils_base.py:2145] 2022-07-27 17:00:48,954 >> tokenizer config file saved in /tmp/ggl-kafka/checkpoint-500/tokenizer_config.json\n",
            "[INFO|tokenization_utils_base.py:2152] 2022-07-27 17:00:48,954 >> Special tokens file saved in /tmp/ggl-kafka/checkpoint-500/special_tokens_map.json\n",
            "{'loss': 3.3966, 'learning_rate': 1.2034927866362947e-05, 'epoch': 2.28}\n",
            " 76% 1000/1317 [06:57<02:11,  2.41it/s][INFO|trainer.py:2640] 2022-07-27 17:04:21,500 >> Saving model checkpoint to /tmp/ggl-kafka/checkpoint-1000\n",
            "[INFO|configuration_utils.py:451] 2022-07-27 17:04:21,501 >> Configuration saved in /tmp/ggl-kafka/checkpoint-1000/config.json\n",
            "[INFO|modeling_utils.py:1566] 2022-07-27 17:04:22,694 >> Model weights saved in /tmp/ggl-kafka/checkpoint-1000/pytorch_model.bin\n",
            "[INFO|tokenization_utils_base.py:2145] 2022-07-27 17:04:22,695 >> tokenizer config file saved in /tmp/ggl-kafka/checkpoint-1000/tokenizer_config.json\n",
            "[INFO|tokenization_utils_base.py:2152] 2022-07-27 17:04:22,695 >> Special tokens file saved in /tmp/ggl-kafka/checkpoint-1000/special_tokens_map.json\n",
            "100% 1317/1317 [09:15<00:00,  2.39it/s][INFO|trainer.py:1850] 2022-07-27 17:06:38,791 >> \n",
            "\n",
            "Training completed. Do not forget to share your model on huggingface.co/models =)\n",
            "\n",
            "\n",
            "{'train_runtime': 555.0372, 'train_samples_per_second': 2.373, 'train_steps_per_second': 2.373, 'train_loss': 3.817401720885535, 'epoch': 3.0}\n",
            "100% 1317/1317 [09:15<00:00,  2.37it/s]\n",
            "[INFO|trainer.py:2640] 2022-07-27 17:06:38,811 >> Saving model checkpoint to /tmp/ggl-kafka\n",
            "[INFO|configuration_utils.py:451] 2022-07-27 17:06:38,812 >> Configuration saved in /tmp/ggl-kafka/config.json\n",
            "[INFO|modeling_utils.py:1566] 2022-07-27 17:06:40,143 >> Model weights saved in /tmp/ggl-kafka/pytorch_model.bin\n",
            "[INFO|tokenization_utils_base.py:2145] 2022-07-27 17:06:40,143 >> tokenizer config file saved in /tmp/ggl-kafka/tokenizer_config.json\n",
            "[INFO|tokenization_utils_base.py:2152] 2022-07-27 17:06:40,143 >> Special tokens file saved in /tmp/ggl-kafka/special_tokens_map.json\n",
            "***** train metrics *****\n",
            "  epoch                    =        3.0\n",
            "  train_loss               =     3.8174\n",
            "  train_runtime            = 0:09:15.03\n",
            "  train_samples            =        439\n",
            "  train_samples_per_second =      2.373\n",
            "  train_steps_per_second   =      2.373\n",
            "07/27/2022 17:06:40 - INFO - __main__ - *** Evaluate ***\n",
            "[INFO|trainer.py:2891] 2022-07-27 17:06:40,242 >> ***** Running Evaluation *****\n",
            "[INFO|trainer.py:2893] 2022-07-27 17:06:40,242 >>   Num examples = 21\n",
            "[INFO|trainer.py:2896] 2022-07-27 17:06:40,242 >>   Batch size = 1\n",
            "100% 21/21 [00:02<00:00,  7.86it/s]07/27/2022 17:06:43 - INFO - datasets.metric - Removing /root/.cache/huggingface/metrics/accuracy/default/default_experiment-1-0.arrow\n",
            "100% 21/21 [00:02<00:00,  7.83it/s]\n",
            "***** eval metrics *****\n",
            "  epoch                   =        3.0\n",
            "  eval_accuracy           =     0.3245\n",
            "  eval_loss               =     3.6166\n",
            "  eval_runtime            = 0:00:03.45\n",
            "  eval_samples            =         21\n",
            "  eval_samples_per_second =      6.071\n",
            "  eval_steps_per_second   =      6.071\n",
            "  perplexity              =    37.2121\n",
            "[INFO|modelcard.py:468] 2022-07-27 17:06:44,620 >> Dropping the following result as it does not have all the necessary fields:\n",
            "{'task': {'name': 'Causal Language Modeling', 'type': 'text-generation'}, 'metrics': [{'name': 'Accuracy', 'type': 'accuracy', 'value': 0.32448913094074383}]}\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!du -hs /tmp/ggl-kafka"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Jx_5azOcqPj4",
        "outputId": "62da5566-8fc3-48b9-fc74-e1d8506856ef"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "491M\t/tmp/ggl-kafka\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "from transformers import pipeline\n",
        "\n",
        "pipe = pipeline('text-generation', model='/tmp/ggl-kafka', tokenizer='/tmp/ggl-kafka')"
      ],
      "metadata": {
        "id": "xLSY3Y33yPyl"
      },
      "execution_count": 36,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = '''Wenn es nötig sein\n",
        "sollte, wollte er auch die Nacht fürs Büro verwenden, was man ja im Beginn bei\n",
        "seiner geringen kaufmännischen Vorbildung sowieso von ihm verlangen würde. Er\n",
        "wollte nur an das Interesse des Geschäftes denken, dem er zu dienen hätte und\n",
        "allen Arbeiten sich unterziehen, selbst solchen, die andere Bürobeamte als ihrer\n",
        "nicht würdig zurückweisen würden. Die guten Vorsätze drängten sich in seinem Kopf,\n",
        "als stehe sein künftiger Chef vor dem Kanapee und lese sie von seinem Gesicht\n",
        "ab. In solchen Gedanken schlief Karl ein und nur im ersten Halbschlaf störte ihn\n",
        "noch ein gewaltiges Seufzen Bruneldas, die, scheinbar von schweren Träumen\n",
        "geplagt, sich auf ihrem Lager wälzte.'''\n",
        "text = pipe(prompt, max_length=500)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "yi6lko6E6HVI",
        "outputId": "9a167402-3e5a-45a7-e031-3b62b5163808"
      },
      "execution_count": 39,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Wenn es nötig sein\n",
            "sollte, wollte er auch die Nacht fürs Büro verwenden, was man ja im Beginn bei\n",
            "seiner geringen kaufmännischen Vorbildung sowieso von ihm verlangen würde. Er\n",
            "wollte nur an das Interesse des Geschäftes denken, dem er zu dienen hätte und\n",
            "allen Arbeiten sich unterziehen, selbst solchen, die andere Bürobeamte als ihrer\n",
            "nicht würdig zurückweisen würden. Die guten Vorsätze drängten sich in seinem Kopf,\n",
            "als stehe sein künftiger Chef vor dem Kanapee und lese sie von seinem Gesicht\n",
            "ab. In solchen Gedanken schlief Karl ein und nur im ersten Halbschlaf störte ihn\n",
            "noch ein gewaltiges Seufzen Bruneldas, die, scheinbar von schweren Träumen\n",
            "geplagt, sich auf ihrem Lager wälzte. Aber sie ließ sich nicht beirren. Aber\n",
            "Karl war immer um ihn fürchtete sich. Kaum hatte er wieder etwas zu sagen\n",
            "nichts.\n",
            "Also wandte er sich Brunelda entgegen und sah in der Ferne auf Bruneldas\n",
            "Arbeitsplatz. Erst als er auf Karl herabschaute, tastete er sie nach ihr ab,\n",
            "konnte diese aber nicht finden. Er wagte es nicht, sie zu finden, ging ein paar Schritte\n",
            "bis zu ihr; sie schwang sich nun, wie sie wollte, über sie bis in den\n",
            "Hinterhof hinunter, wo sie wieder vor Brunelda saß, die sie um die\n",
            "Haustüre bat, ein wenig den Schmutz zu beseitigen und sich mit ihm\n",
            "abzuwechseln, wenn ihm das auch nötig schien. Sie hatte es aber\n",
            "weinen müssen, da sie, da sie, nachdem sie zu Brunelda abgewandert war,\n",
            "sich nicht mehr rührte, noch immer den gleichen Schmutz von ihr\n",
            "sammelte. »Ach, Brunelda!«, sagte er und setzte sich. »Sie ist ein\n",
            "Geschenk der Braut.« Karl schüttelte die Beine und blickte, nicht um mehr\n",
            "Brunelda zu sehen, sondern um seinen Willen weiter. Um ihr mehr Zeit\n",
            "zu lassen, ging er dann weiter. Kaum war Karl die Frau zu\n",
            "gesehen, die sie gewesen war, lief sie zur Tür eines Nachbarhauses in der Nähe auf\n",
            "einen kleinen Stufenabsatz hinunter. In der Tür stand schon Brunelda\n",
            "auf dem Boden und hielt sich dort, von Brunelda überrascht, unter einer\n",
            "leichten, schweißnen Sonne nieder. »Warum hast du das hier nicht gemacht?«\n",
            "\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = 'Warum ist unser Leben immer so unglücklich und verwirrend? Karl schaute in den Himmel und fragte den Schriftsteller Franz Kafka. Kafka antwortete vom Himmel herab, leise zu Karl: '\n",
        "text = pipe(prompt, max_length=500)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Xsj0A1Ft7nVE",
        "outputId": "82e24373-42d2-430d-ba26-1178d63527cc"
      },
      "execution_count": 44,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Warum ist unser Leben immer so unglücklich und verwirrend? Karl schaute in den Himmel und fragte den Schriftsteller Franz Kafka. Kafka antwortete vom Himmel herab, leise zu Karl: Ἀν, ich muß dich schon beichten, denn sonst ist ein Mensch ganz untüchtig. Aber auch das ist eine glückliche Fügung. Ein Menschenglück ist das für dich. Sie wird ein Mensch, der\n",
            "Du wirst dich nicht nur damit beschäftigen. Die meisten Menschen haben ein langes Leben; sie werden schon viele Jahre oder gar\n",
            "viel zu lange darin wohnen. Warum hast du also dich damit begnügt? Daß du für immer ein Sklave unter vielen bist, das\n",
            "liegt einzig undenkbar. Ich habe dich auf diesem Platz einmal gesehen und wollte es mir holen; aber bei\n",
            "meiner Ankunft, als ich in deine Heimat fahre und dir begegne, wirst du dort nicht den Platz haben,\n",
            "den es wirklich gibt.« »Natürlich«, sagte der alte Mann, »es ist kein Platz für Leute. Unten, oben, es ist einfach nicht\n",
            "einmal dort. Auch dort fehlt natürlich jeder Platz.« »O, wie dir übel ist?« »Ich habe mich noch nicht daran\n",
            "gewöhnt«, sagte Karl, »obwohl es dein Platz ist« »Ich bin zu weit weggekommen«, sagte der\n",
            "Angestellte.\n",
            "»Ich sah ihn zuerst gar nicht«, fuhr der Herr fort.\n",
            "»Dort haben wir ja keinen Platz für Leute«, sagte der alte Mann und wiederholte\n",
            "während er antwortete: »Und vor meinen eigenen Fenstern und gegenüber?« »Ja« sagte der\n",
            "neue. »Vor den Fenstern aber war die Straße«, und dieser Mann schüttelte Karl den Kopf, »gerade\n",
            "in der zweiten Reihe ist man so und nicht in der ersten Reihe. Seine Blicke waren\n",
            "nicht etwa etwa lauter als die von allen Seiten auf beiden Seiten.« Aber es schien so, als\n",
            "könne man sie an den richtigen Stellen beobachten. Wenn man sich nicht daran gewöhnen\n",
            "wollte, konnte man sie im Vorübergehen sehen. »Du warst schon immer dort, kommst aber\n",
            "irgendwie zur Besinnung zurück und kommst mir zu langsam«, sagte der Beamte. K., ein Fremder in\n",
            "der Tür, hatte vor sich hingestarrt und war vor ihm auf die Knie gefallen; er hatte\n",
            "eine Stelle als Gehilfe auf einem Haufen verloren, er hatte keine Ahnung, warum er so\n",
            "hatte laufen müssen, wie jetzt, er hatte gar nicht auf\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = 'Karl schlug auf Delamarche und Robinson ein, die sofort zu Boden sanken. Und schließlich verließ er das Haus. Die Sonne strahlte und Karl war glücklich und'\n",
        "text = pipe(prompt, max_length=300)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "6LYnMKbbuqNs",
        "outputId": "a5a6e5ed-3e1f-425d-b766-d74319dd80a2"
      },
      "execution_count": 19,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Karl schlug auf Delamarche und Robinson ein, die sofort zu Boden sanken. Und schließlich verließ er das Haus. Die Sonne strahlte und Karl war glücklich und\n",
            "bemerkte die vielen Veränderungen auf den Bildern, vor denen sich das Haus am Anfang\n",
            "erschreckte. Karl war, wenn auch unwohl, sich mit dem Anblick der Veränderungen kaum\n",
            "und der Ungeschicklichkeit seiner Familie nicht gewachsen.\n",
            "Die Mutter hatte es eilig, und so sagte Karl: »Nun, ich\n",
            "werde mich sofort losreißen, mir das Haus ansehen, der Hausherr sich\n",
            "anschauen. Das ist wohl eine großartige Gelegenheit.«\n",
            "»Soll er sich noch eine Mühe geben?« fragte der Hausherr.\n",
            "»Nein«, sagte Karl, »ich möchte noch eine oder gar zwei\n",
            "Aufregungen, wenn ich an ihn denke!« - der Soldat lachte, als mache er sich Vorwürfe, daß er\n",
            "die letzten Dinge sehr eilig erledigt habe. Schon hatte er einen\n",
            "Dingknopf auf den Schreibtisch gestellt, den er nur ein Weilchen warten lassen mußte. »Mein\n",
            "Dingknopf«, sagte Karl und schüttelte dabei den Kopf, mit einem Blick, den\n",
            "nicht jeder Soldat sehen konnte. »Nein«, sagte der Soldat und wandte sich zum Essen,\n",
            "»nicht nur von der Familie, sondern von der ganzen Welt. Sie ist schwer zu ertragen, ihr\n",
            "liebster Teil.« Sie kam ins Gespräch, in der Hoffnung, eine Gemeinsamkeit, in\n",
            "der sie\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = 'Als Karl aus dem 100 Jahre dauernden Kälteschlaf erwacht, hat sich alles verändert. Er schaute sich in seiner Umgebung um und sagte '\n",
        "text = pipe(prompt, max_length=300)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "DhfxKj1cvoTx",
        "outputId": "0b2b1f7a-00a3-4a69-8744-4f9ba6674666"
      },
      "execution_count": 24,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Als Karl aus dem 100 Jahre dauernden Kälteschlaf erwacht, hat sich alles verändert. Er schaute sich in seiner Umgebung um und sagte eigtlich: »In den nächsten Tagen werde ich wieder in dieser Gemeinde mein Glück versuchen.«\n",
            "Da Karl in seiner früheren, fast zu Ende gestellzten Kindheit und auch heute noch, als fast ein Vierteljahrhundert vergangen sind, hatte es auf seiner früheren Wirtin nicht nur eine gewisse Mißdeutung, sondern auch eine gewisse Unklarheit, und auch die Schuld, die sie ihm anhaftete, ist im ganzen nicht ganz ganz unschuldig.\n",
            "Diese Schuld hat ihn in seinen Träumen und in der Nacht schon vor ihm an seine frühere Wirtin und an das Mädchen erinnert, das er um ihn gewickelt hatte. Selbst seine jetzige Wirtin und Mutter hat ihn wegen seiner früheren Wirtin und sogar wegen aller\n",
            "letzten Erfahrungen auf eine böse, allzu dumme und unsinnige Weise angesehen, ja sie hat seine\n",
            "Hoffung ganz auf das Mädchen geschoben und ihn in seinen Träumen gar nicht auf diese Weise gesehen. Nun ist sie von der bösen Seite angewidert, und auch\n",
            "jetzt hat man manchmal den Eindruck, als sei sie die Ursache, durch welche sie zu dem Irrtum gekommen ist,\n",
            "und selbst wenn es tatsächlich nur ein Irrtum gewesen wäre, dann hätte vielleicht auch\n",
            "dies ohne K. die Wirtin wirklich krank gemacht, doch K. hätte wahrscheinlich bei einer solchen unglücklichen\n",
            "Vorstellung durch sie eine gute Freundin gehabt. Dieser Mann, selbst schon K\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = '''Karl floh schließlich aus Delamarches Haus und reiste nach Kalifornien. Dann kaufte er ein Ticket und reiste nach Japan. Als das Schiff im Hafen von Yokohama ankam, \n",
        "'''\n",
        "text = pipe(prompt, max_length=500)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "n2gl23Ub2dLM",
        "outputId": "4bd1e865-db8e-48d2-e46b-270c339e38ae"
      },
      "execution_count": 17,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Karl floh schließlich aus Delamarches Haus und reiste nach Kalifornien. Dann kaufte er ein Ticket und reiste nach Japan. Als das Schiff im Hafen von Yokohama ankam, \n",
            "stand fast niemand auf, es war die alte Handelsstadt Kanagawa. Was wollte denn das Schiff, fragte K. und sah es an. Sie\n",
            "hörten, was ihn erwartete, ein wenig auf, wenn er auch alles noch immer unvorbereitet war, er\n",
            "schlummerte, weil es an der Türe seines Zimmers hing in tiefster Finsternis und klammerte sich an das Bett\n",
            "überdem, was im Bett blieb. »Verzeihen Sie« rief einer, während sein Koffer auf den Tisch trat. Sie baten ihn, ihm zu helfen. »Ich weiss nicht, was es ist. Es ist ein\n",
            "großer Koffer, und nur einer kann ihn tragen. Sie haben ihn mir geschenkt.« Er rief: »Verzeihen Sie dies. Aber jetzt müssen Sie sich leider\n",
            "müssen. Der Koffer ist ein Gepäckstück, und nun müssen Sie mich im Hotel melden. Nun ja, er ist\n",
            "ein Gepäckstück, aber es ist nur dort, wo sich Leute versammeln und zu essen haben. Sie nehmen eine\n",
            "Plagge und tragen den Koffer dort hin. Bei allen Umständen muß ich, wie es die Gesetze\n",
            "hervorgegeben haben, alles hinnehmen. Ich kann mich nicht rühren, meine Sachen sind auch nicht gestohlen worden. Aber das\n",
            "Gepäck ist so, wie es aussieht, ich lasse es dort. Sie können es wegwerfen und mir das Retten erleichtern. Wenn Sie\n",
            "da sind und sich verirren, ist es aber meine Verantwortung, daß Sie das nicht tun, und für die Sache,\n",
            "die so schwer ist, ist nicht einmal mein Mitleid nötig. Sie haben keine Hoffnung, aber Ihre\n",
            "Einsicht reicht schon aus. Ich gebe das, damit Sie mir helfen können.« »Wie!«, sagte K., um zu zeigen, daß er eine\n",
            "besondere Treue zu mir hat. »Ich werde es vor allem nicht\n",
            "tun«, rief der Offizier. »Entschuldigen Sie, was ist geschehen, nun ja, im übrigen habe ich noch das\n",
            "Leben des Kapitäns und meiner Familie im Unglück.« K., so schnell wie es sich verlangte, wollte den Posten\n",
            "besetzen und nicht etwa Delamarche, obwohl er den Koffer nicht tragen konnte und\n",
            "der doch von nun an die Vertretung vor dem Kapitän, welcher sein Geld\n",
            "eingesteckt hatte, übernommen hätte\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = '''Karl gelangte schließlich mit dem Schiff nach Europa und wurde mit seinen Eltern wiedervereint. Die Eltern sagten '''\n",
        "text = pipe(prompt, max_length=300)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "W-GN4lBs4jkT",
        "outputId": "b917b210-294e-4b3f-b834-2da1abf14845"
      },
      "execution_count": 15,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Karl gelangte schließlich mit dem Schiff nach Europa und wurde mit seinen Eltern wiedervereint. Die Eltern sagten    als sie von dem neuen Schiff erfahren hatten, daß man\n",
            "damals in Europa gewesen sei und daß die Reise\n",
            "heute die Rettung von Europa sei. Die Ankunft fand in einer spanischen\n",
            "Festung in der Nähe von Burgos statt.\n",
            "\n",
            "Die Eltern waren, um etwas zu erfahren, durch die große\n",
            "Öffentlichkeit, welche die Ankunft begleitete, mit den Worten:\n",
            "»Das ist eine Ehre!« empfangen worden.\n",
            "Kaum war sie gekommen, da waren alle mit der\n",
            "Verpflegung fertig, und selbst einige wurden, die ihre Koffer in den Taschen\n",
            "abgerissen hatten, kamen jetzt zum Essen.\n",
            "Als Karl an dem Tag, an dem das Schiff abhob, das Boot von dem\n",
            "Landgang des Kutschers hörte, war er etwas überrascht, daß nun mit\n",
            "mancherlei Verwendungen im Schiff zu rechnen war. Aber er\n",
            "sah zu, wie die Familie Robinson, welche die letzte Nacht im\n",
            "Boot auf dem Meer verbracht hatten, zu Mittag essen sollte, denn so\n",
            "brauchten sie nichts, denn Karl saß nicht im Speisewagen, wie\n",
            "ihm der Vater, sondern im Haus des Zimmermädchens, in dem sie zu Mittag\n",
            "süßes und kaltes Essen bekommen hatten. Außerdem sahen sie, wie\n",
            "Robinson ein neues Kleid angezogen hatte, das sie nicht einmal den\n",
            "Advokaten, deren Kleid sie tragen wollten, zu erklären\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = 'Und Karl bekam endlich eine feste Anstellung als Ingenieur, heiratete Therese, wurde bescheiden reich und ging schließlich zurück nach Europa. Er führte seine Eltern wieder zusammen und lebte glücklich bis an sein Lebensende.'\n",
        "text = pipe(prompt, max_length=300)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "N_f04DQRxucX",
        "outputId": "59c5cc40-ec44-4454-fa08-d3385c0150f3"
      },
      "execution_count": 28,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Und Karl bekam endlich eine feste Anstellung als Ingenieur, heiratete Therese, wurde bescheiden reich und ging schließlich zurück nach Europa. Er führte seine Eltern wieder zusammen und lebte glücklich bis an sein Lebensende. Hier konnte Karl sein Glück nicht finden.Karl war zu die Arbeit dieses Berufes entwürdigt.\n",
            "Er wollte sich, obwohl er fast schon zum Maler geworden wäre, nicht mehr im Atelier und auf der Landstraße versuchen und so wieder ein freier Mensch werden.Karl suchte jetzt mit aller Kraft den Unterricht für seine künstlerische Laufbahn zu suchen. Karl fand ihn, wie er sagte, in diesem Kunststudium.Karl trat ihm zwar sehr entgegen, auch wenn er nur einen kleinen Vorgeschmack seiner Gedanken hatte, er ging an der Tür vorüber, öffnete das Zimmer für sich.Karl wußte allerdings nichts von seinen Plänen, er ging fort an der Tür, blieb dort stehen, hatte ein wenig Zeit, sich einzurichten, klopfte ihm wieder ins Ohr, wollte jetzt aber auch etwas nicht verstehen. Er versuchte immerfort, sich nach Karl zu erkundigen, aber meistens fand er nur mit der Antwort, nach der er schon lange gesucht hatte, doch einen Ausweg. Karl wollte jetzt nicht mehr nur weiter gehen, das sei eben seine Lehre, diese Frage müsse er mit diesem Mann besprechen.Karl fand bei diesem Mann kein rechtes Ohr.Karl war schon durch die Augen von Therese gesehen worden, er sah Therese gar nicht an, aber er wollte es doch wissen, vielleicht wollte er von dieser Frau etwas, und dann schwie\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "prompt = 'Und Karl bekam endlich eine feste Anstellung als Ingenieur, heiratete Therese, wurde bescheiden reich und ging schließlich zurück nach Europa. Er führte seine Eltern wieder zusammen und lebte glücklich bis an sein Lebensende.'\n",
        "text = pipe(prompt, max_length=300)[0][\"generated_text\"]\n",
        "print(text)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "qntxqAZIyFZK",
        "outputId": "686630a2-3adb-44e5-fe3e-a90f1f45e188"
      },
      "execution_count": 29,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Und Karl bekam endlich eine feste Anstellung als Ingenieur, heiratete Therese, wurde bescheiden reich und ging schließlich zurück nach Europa. Er führte seine Eltern wieder zusammen und lebte glücklich bis an sein Lebensende. Das Glück, das Karl mit seiner Heirat und den vielen Unterhaltungen in seinem Geschäft gefunden hatte, wurde durch die Verkühlung Karls wieder zunichtegemacht und dadurch, daß Therese im Wirtshaus bei Karl auf der Treppe vor der Tür stand, daß auch er nicht mehr mit ansehen konnte, wie es ihm verging.\n",
            "\n",
            "»Was willst du denn, ein Gatte?« fragte Karl, »mein Haus, mein ganzes Dorf und alles, was dort an Arbeit auf meinem Fußboden liegt. Und er wußte, daß ich es schon lange nicht mehr ertragen würde, daß ich dort zu arbeiten hätte. Sie sind krank, Sie sind krank und wollen mich nicht mehr sehen.« »Ich habe nur ein Haustier.« rief Therese zu ihm, »es ist das Haustier des Oberkellners.« »Warum so peinlich?« fragte Karl.\n",
            "»Es wäre ein sehr kleines Haustier. Undenkbar, daß Sie es bei uns sehen könnten, daß der Oberkellner sich uns gegenüber so klein nimmt und uns, wenn wir an einen Tisch kommen, alle mit den Füßen tritt und mit den Augen die Tür öffnet. »Du kannst nicht so viel mit mir reden, ich rede nur viel zu Hause und wer?« fragte Therese. Der Oberkellner antwortete, mit der Faust auf den Tisch geschlagen,\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!tar czf ggl_amerika.tgz /tmp/ggl-kafka"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Ry50c69X2jJ_",
        "outputId": "c9030a99-ecc5-405d-f188-3cff544b0a46"
      },
      "execution_count": 25,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "tar: Removing leading `/' from member names\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!mv ggl_amerika.tgz /content/drive/MyDrive/"
      ],
      "metadata": {
        "id": "LLFJpcdB6LlO"
      },
      "execution_count": 26,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        ""
      ],
      "metadata": {
        "id": "a-jaPb8l6F2H"
      },
      "execution_count": null,
      "outputs": []
    }
  ]
}