Skip to content

Instantly share code, notes, and snippets.

View woodongk's full-sized avatar
🎯
Focusing

woodong woodongk

🎯
Focusing
  • Samsung Electronics, Samsung Research
  • Seoul, Korea
View GitHub Profile
@woodongk
woodongk / I'm a night 🦉
Last active October 29, 2020 00:07
I'm a night 🦉
🌞 Morning 33 commits █▎░░░░░░░░░░░░░░░░░░░ 6.4%
🌆 Daytime 165 commits ██████▋░░░░░░░░░░░░░░ 32.1%
🌃 Evening 180 commits ███████▎░░░░░░░░░░░░░ 35.0%
🌙 Night 136 commits █████▌░░░░░░░░░░░░░░░ 26.5%
@woodongk
woodongk / count_ngram.py
Created May 26, 2020 04:48
말뭉치 ngram counter
from collections import Counter
from itertools import chain
def ngram_count(docs_tokenized, n, n_display=50):
'''
Args:
docs : 토큰 뭉치 2d list
예시 :[['문재인', '원전', '국민', '혈세', '물어내', '문재인', '대통령', '물어내'],
['전쟁', '제일', '먼저', '아가리', '대통령', '특수', '부대', '실미'],
n : n-gram 선택. e.g., unigram : 1, bigram : 2
@woodongk
woodongk / markdown.md
Last active May 14, 2020 08:10 — forked from ihoneymon/how-to-write-by-markdown.md
마크다운 사용법

[공통] 마크다운 markdown 작성법

1. 마크다운에 관하여

1.1. 마크다운이란?

Markdown은 텍스트 기반의 마크업언어로 2004년 존그루버에 의해 만들어졌으며 쉽게 쓰고 읽을 수 있으며 HTML로 변환이 가능하다. 특수기호와 문자를 이용한 매우 간단한 구조의 문법을 사용하여 웹에서도 보다 빠르게 컨텐츠를 작성하고 보다 직관적으로 인식할 수 있다. 마크다운이 최근 각광받기 시작한 이유는 깃헙(https://github.com) 덕분이다. 깃헙의 저장소Repository에 관한 정보를 기록하는 README.md는 깃헙을 사용하는 사람이라면 누구나 가장 먼저 접하게 되는 마크다운 문서였다. 마크다운을 통해서 설치방법, 소스코드 설명, 이슈 등을 간단하게 기록하고 가독성을 높일 수 있다는 강점이 부각되면서 점점 여러 곳으로 퍼져가게 된다.

1.2. 마크다운의 장-단점

1.2.1. 장점

@woodongk
woodongk / word_cloud.py
Last active May 26, 2020 04:46
word cloud 만들기
def generate_circular_wordcloud(strings):
"""Returns circle shape Word Cloud
Example:
strings (str): "기억 니은 디귿 기억 기억"
strings (dict) {"기억":30, "니은":10, "디귿":1}
"""
# mask circle
x, y = np.ogrid[:1000, :1000]
@woodongk
woodongk / crawling_naver_news_comments.py
Last active April 6, 2020 23:28
네이버 뉴스에서 댓글 긁어오기
# 출처 - https://wikidocs.net/61221
from selenium import webdriver
import time
def get_comments(URL,imp_time=5,delay_time=0.1):
#웹 드라이버
driver = webdriver.Chrome('/usr/local/bin/chromedriver') #chromedriver
driver.implicitly_wait(imp_time)
driver.get(URL)
@woodongk
woodongk / get_outlier.py
Last active April 4, 2020 13:47
데이터프레임에서 이상치 검출하기 - IQR 사용
#출처 - 파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문
import np
def get_outlier(df=None,column=None,weight=1.5):
'''인자로 Dataframe과 이상치를 검출할 칼럼을 입력받는다.
iqr에 1.5 곱해서 이에 기반하여 이상치를 구해 해당 이상치가 있는 index 반환
'''
column_x = df[column]
@woodongk
woodongk / text_preprocessing.py
Last active July 10, 2022 07:35
Korean-Text-Preprocessing in Python
import re
from konlpy.tag import Mecab
from khaiii import KhaiiiApi
def remove_brackets(string, left_paren_type,right_paren_type):
'''Remove brackets (parentheses) and their contents within a string
Args :
left_paren_type = '[','(' etc
right_paren_type = ']', ')' etc