Skip to content

Instantly share code, notes, and snippets.

버트 모형 소개

버트 모형은 2018년 11월 구글이 공개한 인공지능(AI) 언어 모델로써 기존 자연어 모델의 성능을 가볍게 뛰어넘었으며, 일부 성능 평가에서는 인간보다 더 높은 성능을 기록한 모델입니다. BERT는 Bidirectional Encoder Representations from Transformers의 약자로 18년 10월 구글에 의해 논문이 공개되었습니다. 버트 모형의 특징은 사전학습, 문맥학습, 파인튜닝을 들 수 있습니다.

사전학습

위키피디아 같은 아주 큰 데이터들을 사용하여 '언어 이해' 모델을 사전학습(Pre-training)한다.

@dharma6872
dharma6872 / wget을 활용해서 bert 모델 다운로드 가능.py
Created January 13, 2021 02:37
wget을 활용해서 bert 모델 다운로드 가능
# wget을 활용해서 bert 모델 다운로드 가능
!wget https://storage.googleapis.com/bert_models/2018_11_23/multi_cased_L-12_H-768_A-12.zip
@dharma6872
dharma6872 / 압축파일해제.py
Created January 13, 2021 02:42
압축파일해제
import zipfile
bert_zip = zipfile.ZipFile('multi_cased_L-12_H-768_A-12.zip')
bert_zip.extractall('bert')
bert_zip.close()
@dharma6872
dharma6872 / 폴더복사.py
Created January 13, 2021 02:47
폴더복사
"""
copyfile과 copy는 메타정보는 복사되지 않습니다.
copy2는 메타정보도 복사합니다.
copy2를 사용하면 파일을 작성한 날짜도 복사되지만
copyfile과 copy는 파일을 작성한 날짜가 복사한 날짜로 변경됩니다.
"""
import os
import shutil # 셸 유틸리티
# 디렉터리 복사하기
@dharma6872
dharma6872 / 폴더생성.py
Created January 13, 2021 02:47
폴더생성
import os
if "bert" not in os.listdir():
os.makedirs("bert")
else:
pass
@dharma6872
dharma6872 / part_5_flatMap_transformation_pyspark101_demo.py
Last active January 13, 2021 08:49
[flatMap()]flatMap 함수 사용법 예시 #pyspark #pyspark101
from pyspark.sql import SparkSession
if __name__ == "__main__":
print("Pyspark 101 Tutorial")
print("Parkt 5 - How to use flatMap RDD transformation in PySpark | PySpark 101 using Pycharm IDE")
# appName() 에 | 연산자를 사용하면 오류가 발생합니다.
# appName("Parkt 5 - How to use flatMap RDD transformation in PySpark | PySpark 101")
spark = SparkSession \
.builder \
@dharma6872
dharma6872 / part_1_pyspark101_demo.py
Last active January 13, 2021 05:48
[Create SparkSession]스파크 세션 생성 예시 #pyspark #pyspark101
# Importing Spark Related Packages
from pyspark.sql import SparkSession
if __name__ == "__main__":
print("PySpark 101 Tutorial")
print("Part 1. How to create SparkSession object in PySpark using PyCharm IDE")
spark = SparkSession \
.builder \
@dharma6872
dharma6872 / part_2_create_rdd_pyspark101_demo.py
Created January 13, 2021 05:51
[Create First RDD] RDD 생성 #pyspark #pyspark101
# Importing Spark Related Packages
from pyspark.sql import SparkSession
if __name__ == "__main__":
print("PySpark 101 Tutorial")
print("Part 2. Create First RDD(Resilient Distributed Dataset) in PySpark using PyCharm IDE")
spark = SparkSession \
.builder \
@dharma6872
dharma6872 / part_4_filter_transformation_pyspark101_demo.py
Last active January 13, 2021 08:50
[filter RDD transformation] filter RDD 변환 예시 #pyspark #pyspark101
# Importing Spark Related Packages
from pyspark.sql import SparkSession
if __name__ == "__main__":
print("PySpark 101 Tutorial")
print("Part 4. How to use filter RDD transformation in PySpark using PyCharm IDE")
spark = SparkSession \
.builder \
.appName("Part 4. How to use filter RDD transformation in PySpark using PyCharm IDE") \
@dharma6872
dharma6872 / part_6_mapPartitions_transformation_pyspark101_demp.py
Last active January 13, 2021 08:50
[mapPartitions RDD transformation] mapPartitions RDD transformation #pyspark #pyspark101
from pyspark.sql import SparkSession
# mapPartition 을 사용할 경우 generator 를 생성해서 처리해야 되는 것으로 보임
def process_partition(partition):
yield sum(partition)
def process_partition_y_sum(partition):
number_sum = 0
for element in partition: