Skip to content

Instantly share code, notes, and snippets.

View woodongk's full-sized avatar

woodong woodongk

  • Samsung Electronics, Samsung Research
  • Seoul, Korea
View GitHub Profile
woodongk /
Last active July 10, 2022 07:35
Korean-Text-Preprocessing in Python
import re
from konlpy.tag import Mecab
from khaiii import KhaiiiApi
def remove_brackets(string, left_paren_type,right_paren_type):
'''Remove brackets (parentheses) and their contents within a string
Args :
left_paren_type = '[','(' etc
right_paren_type = ']', ')' etc
woodongk /
Last active April 4, 2020 13:47
데이터프레임에서 이상치 검출하기 - IQR 사용
#출처 - 파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문
import np
def get_outlier(df=None,column=None,weight=1.5):
'''인자로 Dataframe과 이상치를 검출할 칼럼을 입력받는다.
iqr에 1.5 곱해서 이에 기반하여 이상치를 구해 해당 이상치가 있는 index 반환
column_x = df[column]
woodongk /
Last active April 6, 2020 23:28
네이버 뉴스에서 댓글 긁어오기
# 출처 -
from selenium import webdriver
import time
def get_comments(URL,imp_time=5,delay_time=0.1):
#웹 드라이버
driver = webdriver.Chrome('/usr/local/bin/chromedriver') #chromedriver
woodongk /
Last active May 26, 2020 04:46
word cloud 만들기
def generate_circular_wordcloud(strings):
"""Returns circle shape Word Cloud
strings (str): "기억 니은 디귿 기억 기억"
strings (dict) {"기억":30, "니은":10, "디귿":1}
# mask circle
x, y = np.ogrid[:1000, :1000]
woodongk /
Last active May 14, 2020 08:10 — forked from ihoneymon/
마크다운 사용법

[공통] 마크다운 markdown 작성법

1. 마크다운에 관하여

1.1. 마크다운이란?

Markdown은 텍스트 기반의 마크업언어로 2004년 존그루버에 의해 만들어졌으며 쉽게 쓰고 읽을 수 있으며 HTML로 변환이 가능하다. 특수기호와 문자를 이용한 매우 간단한 구조의 문법을 사용하여 웹에서도 보다 빠르게 컨텐츠를 작성하고 보다 직관적으로 인식할 수 있다. 마크다운이 최근 각광받기 시작한 이유는 깃헙( 덕분이다. 깃헙의 저장소Repository에 관한 정보를 기록하는 README.md는 깃헙을 사용하는 사람이라면 누구나 가장 먼저 접하게 되는 마크다운 문서였다. 마크다운을 통해서 설치방법, 소스코드 설명, 이슈 등을 간단하게 기록하고 가독성을 높일 수 있다는 강점이 부각되면서 점점 여러 곳으로 퍼져가게 된다.

1.2. 마크다운의 장-단점

1.2.1. 장점

woodongk /
Created May 26, 2020 04:48
말뭉치 ngram counter
from collections import Counter
from itertools import chain
def ngram_count(docs_tokenized, n, n_display=50):
docs : 토큰 뭉치 2d list
예시 :[['문재인', '원전', '국민', '혈세', '물어내', '문재인', '대통령', '물어내'],
['전쟁', '제일', '먼저', '아가리', '대통령', '특수', '부대', '실미'],
n : n-gram 선택. e.g., unigram : 1, bigram : 2
woodongk / I'm a night 🦉
Last active October 29, 2020 00:07
I'm a night 🦉
🌞 Morning 33 commits █▎░░░░░░░░░░░░░░░░░░░ 6.4%
🌆 Daytime 165 commits ██████▋░░░░░░░░░░░░░░ 32.1%
🌃 Evening 180 commits ███████▎░░░░░░░░░░░░░ 35.0%
🌙 Night 136 commits █████▌░░░░░░░░░░░░░░░ 26.5%