Skip to content

Instantly share code, notes, and snippets.

View kanekomasahiro's full-sized avatar

Masahiro Kaneko kanekomasahiro

View GitHub Profile
@kanekomasahiro
kanekomasahiro / preprocess_nli.py
Created August 23, 2022 20:42
SNLIやMNLIデータのjsonl形式のラベルを取り出す
import json
import argparse
from collections import defaultdict, Counter
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument("--input", type=str, required=True,
help="jsonl形式のデータ")
args = parser.parse_args()
@kanekomasahiro
kanekomasahiro / json_loads.py
Created December 13, 2021 08:19
文字列になっているdictやlistをjson使ってdictやlistにする
import json
s = '[1, 2, 3]'
l = json.loads(s)
@kanekomasahiro
kanekomasahiro / tokenize_with_mecab.py
Last active August 27, 2021 10:32
mecabを使おうとした時にmecabrcがないとエラー吐いた時の対策
# pip install unidic-lite
# /home/ユーザー名/.pyenv/versions/3.9.0/envs/evaluate_mlm/lib/python3.9/site-packages/unidic_lite/dicdir/ みたいな
# 箇所に辞書が作られるのでそこにパス通す.
import MeCab
tagger = MeCab.Tagger('-r /dev/null -d /home/ユーザ名/.pyenv/versions/3.9.0/envs/evaluate_mlm/lib/python3.9/site-packages/unidic_lite/dicdir -Owakati')
tagger.parse('これはペンです.')
@kanekomasahiro
kanekomasahiro / pip_install_numpy_for_m1_mac.sh
Last active May 21, 2023 15:49
M1 Macでpip install numpyが失敗した時やる. `ERROR: Command errored out with exit status 1:` みたいなエラー吐いた時に使う.
brew install openblas
OPENBLAS="$(brew --prefix openblas)" pip install numpy
@kanekomasahiro
kanekomasahiro / download_from_google_drive.sh
Last active January 1, 2022 04:43
google driveから大きいファイルをダウンロードする.
# 共有可能なリンクを取得からFILE_IDを取得する
FILE_ID=1uoAReQK3f5g9CEy8rV4haSzXll8NqVHW
FILE_NAME=gfm-models.zip
curl -sc /tmp/cookie "https://drive.google.com/uc?export=download&id=${FILE_ID}" > /dev/null
CODE="$(awk '/_warning_/ {print $NF}' /tmp/cookie)"
curl -Lb /tmp/cookie "https://drive.google.com/uc?export=download&confirm=${CODE}&id=${FILE_ID}" -o ${FILE_NAME}
@kanekomasahiro
kanekomasahiro / get_file_name.py
Created April 22, 2021 04:18
pythonで名前の一部が一致するディレクトリ内のファイルを取得する.
from glob import glob
for file_name in glob('../../*.txt'):
print(file_name)
@kanekomasahiro
kanekomasahiro / extract_name_from_path.sh
Created April 21, 2021 04:00
shellスクリプトでpathからデータとファイル形式を除去してfile名だけを抽出する.
# file_path=../data/hoge.bin
# file_name=hoge
file_name=$( echo $file_path | cut -d/ -f4 | sed -r 's/(.[^.]+){1}$//g')
@kanekomasahiro
kanekomasahiro / convert_string_to_list_or_dict.py
Created April 7, 2021 23:36
stringタイプで記述されたリストや辞書をリストや辞書タイプに変換する.
from ast import literal_eval
s = '[1, 2, 3, 4]'
l = literal_eval(s)
@kanekomasahiro
kanekomasahiro / extract_hidden_states_by_word_index.py
Created April 5, 2021 14:10
自然言語処理でよくあるテンソル(バッチ×文長×隠れ層の次元サイズ)からバッチごとに異なるindexの単語の隠れ層を抽出する方法.
import torch
def extract_hidden_states_by_word_index(input, index):
'''
Extract hidden states from a tensor (batch * sentence length * hidden size) by word index.
Parameters
----------
input : torch.Tensor
@kanekomasahiro
kanekomasahiro / vimrc
Last active June 12, 2021 12:48
python用のvimrc.
" This is Gary Bernhardt's .vimrc file
" vim:set ts=2 sts=2 sw=2 expandtab:
" remove all existing autocmds
autocmd!
" initialize plugins
call plug#begin('~/.vim/plugged')
Plug 'vim-ruby/vim-ruby'
Plug 'slim-template/vim-slim'