Skip to content

Instantly share code, notes, and snippets.

View minhlab's full-sized avatar

Minh Le minhlab

  • FPT Software
  • Vietanm
View GitHub Profile
### Keybase proof
I hereby claim:
* I am minhlab on github.
* I am minhle (https://keybase.io/minhle) on keybase.
* I have a public key ASDkrTOdVOxzxDqKY6k57OTLK86TSb0x_ai8VHZWt8mQ6go
To claim this, I am signing this object:
import os
from datetime import date
# git diff --staged is faster than git diff (of everything) so let's do it first
changed = os.popen('git diff').read().strip() != ''
if changed:
version = date.today().strftime('%Y-%m-%d')
else:
version = (os.popen('git show -s --format=%ci').read()[:10] +
os.popen('git show -s --format=-%h').read().strip())
@minhlab
minhlab / debug.conll
Created November 26, 2017 23:14
A document that causes error in cort
#begin document (mz/sinorama/10/ectb_1005); part 002
mz/sinorama/10/ectb_1005 2 0 Old JJ (TOP(NP(NP* - - - - * (ARG0* * -
mz/sinorama/10/ectb_1005 2 1 people NNS *) people - 1 - * *) * -
mz/sinorama/10/ectb_1005 2 2 " `` (VP* - - - - * * * -
mz/sinorama/10/ectb_1005 2 3 let VBN * let 01 1 - * (V*) * -
mz/sinorama/10/ectb_1005 2 4 go VB (S(VP*)) go 01 - - * (ARG1*) (V*) -
mz/sinorama/10/ectb_1005 2 5 " '' * - - - - * * * -
mz/sinorama/10/ectb_1005 2 6 by IN (PP* - - - - * (ARGM-TMP* * -
mz/sinorama/10/ectb_1005 2 7 the DT (NP* - - - - * * * -
mz/sinorama/10/ectb_1005 2 8 modern JJ * - -
Tuanminh01 (thảo luận · đóng góp): 1191 điểm, Điểm thi tháng 9 năm 2017
DanGong (thảo luận · đóng góp): 1030 điểm, Điểm thi tháng 9 2017
Buileducanh (thảo luận · đóng góp): 1023 điểm, Điểm thi tháng 9/2017
Nguyenphanuyennhi (thảo luận · đóng góp): 1018 điểm, Điểm thi tháng 9 2017
Phương Huy (thảo luận · đóng góp): 945 điểm, Điểm thi tháng 9 năm 2017
P.T.Đ (thảo luận · đóng góp): 843 điểm, Điểm thi tháng 9 năm 2017
Bluetpp (thảo luận · đóng góp): 746 điểm, Điểm thi tháng 9/2017
Mintu Martin (thảo luận · đóng góp): 455 điểm, Điểm thi tháng 9 năm 2017
Anhkhang234 (thảo luận · đóng góp): 223 điểm, Điểm thi tháng 9 năm 2017
A.Einstein05 (thảo luận · đóng góp): 156 điểm, Điểm thi tháng 9 năm 2017
import os
import re
num_sg = 0
num_files = 0
for root, _, fnames in os.walk('.'):
for fname in fnames:
if '.parse' in fname:
with open(os.path.join(root, fname)) as f:
s = f.read()
import os
num_npb = 0
num_files = 0
for root, _, fnames in os.walk('.'):
for fname in fnames:
if '.parse' in fname:
with open(os.path.join(root, fname)) as f:
s = f.read()
num_npb += s.count('NPB')
Tuanminh01 (thảo luận · đóng góp): 439 điểm, Điểm thi tháng 9 năm 2017
Phương Huy (thảo luận · đóng góp): 324 điểm, Điểm thi tháng 9 năm 2017
Bluetpp (thảo luận · đóng góp): 287 điểm, Điểm thi tháng 9/2017
Buileducanh (thảo luận · đóng góp): 265 điểm, Điểm thi tháng 9/2017
Anhkhang234 (thảo luận · đóng góp): 223 điểm, Điểm thi tháng 9 năm 2017
Nguyenphanuyennhi (thảo luận · đóng góp): 194 điểm, Điểm thi tháng 9 2017
Mintu Martin (thảo luận · đóng góp): 128 điểm
Atnastr (thảo luận · đóng góp): 127 điểm, Điểm thi viết bài khoa học tháng 9/2017
Hoanglongmit (thảo luận · đóng góp): 104 điểm, Điểm thi tháng 9 năm 2017
A.Einstein05 (thảo luận · đóng góp): 78 điểm, Điểm thi tháng 9 năm 2017
from collections import defaultdict
import re
s=open('/Users/cumeo/Downloads/dup-docs.txt').read()
pairs = [re.sub(' +', ' ', line).strip().split(' ') for line in s.strip().split('\n')]
clusters = defaultdict(set)
for doc1, doc2 in pairs:
c = clusters[doc1]
c.update(clusters[doc2])
c.update({doc1, doc2})
@minhlab
minhlab / count-ontonotes-event.py
Created July 15, 2017 07:41
Use this code to count events in OntoNotes 5.0
import os
import re
from collections import defaultdict
import sys
import ptb
ontonotes_root = '/Users/cumeo/corpora/ontonotes-release-5.0'
ontonotes_en = os.path.join(ontonotes_root, 'data/files/data/english/annotations')
assert os.path.exists(ontonotes_root), 'please link/put ontonotes into data directory'
@minhlab
minhlab / sanity-check.py
Last active July 17, 2017 07:48
Testing the validity of sanity check proposed in Batchkarov et al. (2016)
import numpy as np
from scipy.stats import spearmanr, pearsonr
from matplotlib import pyplot as pl
import sys
if __name__ == '__main__':
repeats = int(sys.argv[1]) if len(sys.argv) >= 2 else 5 # change this and see what happens
dim = 50
#sizes = {'simlex': 999, 'men': 3000, 'mc': 30, 'rg': 65, 'ws353': 353}
sizes = {'men': (3000, '#0066ff', '#4d94ff'), 'mc': (30, '#ff3300', '#ffd6cc80'), 'rg': (65, '#00ff00', '#ccffcc80')}