dharma6872

## BERT-introduction.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                dharma6872
                / BERT-introduction.md
            
            
              Created
              January 13, 2021 02:36
            
              
                BERT 소개
              
          
    버트 모형 소개

버트 모형은 2018년 11월 구글이 공개한 인공지능(AI) 언어 모델로써
기존 자연어 모델의 성능을 가볍게 뛰어넘었으며,
일부 성능 평가에서는 인간보다 더 높은 성능을 기록한 모델입니다.
BERT는 Bidirectional Encoder Representations from Transformers의 약자로
18년 10월 구글에 의해 논문이 공개되었습니다.
버트 모형의 특징은 사전학습, 문맥학습, 파인튜닝을 들 수 있습니다.
사전학습

위키피디아 같은 아주 큰 데이터들을 사용하여 '언어 이해' 모델을 사전학습(Pre-training)한다.

  
## wget을 활용해서 bert 모델 다운로드 가능.py
# wget을 활용해서 bert 모델 다운로드 가능
!wget https://storage.googleapis.com/bert_models/2018_11_23/multi_cased_L-12_H-768_A-12.zip

## 압축파일해제.py
import zipfile

bert_zip = zipfile.ZipFile('multi_cased_L-12_H-768_A-12.zip')
bert_zip.extractall('bert')
bert_zip.close()

## 폴더복사.py
"""
copyfile과 copy는 메타정보는 복사되지 않습니다.
copy2는 메타정보도 복사합니다.
copy2를 사용하면 파일을 작성한 날짜도 복사되지만
copyfile과 copy는 파일을 작성한 날짜가 복사한 날짜로 변경됩니다.
"""
import os
import shutil # 셸 유틸리티

# 디렉터리 복사하기

## 폴더생성.py
import os

if "bert" not in os.listdir():
	os.makedirs("bert")
else:
	pass

## part_5_flatMap_transformation_pyspark101_demo.py
from pyspark.sql import SparkSession

if __name__ == "__main__":
	print("Pyspark 101 Tutorial")
	print("Parkt 5 - How to use flatMap RDD transformation in PySpark | PySpark 101 using Pycharm IDE")

	# appName() 에 | 연산자를 사용하면 오류가 발생합니다.
	# appName("Parkt 5 - How to use flatMap RDD transformation in PySpark | PySpark 101")
	spark = SparkSession \
			.builder \

## part_1_pyspark101_demo.py
# Importing Spark Related Packages

from pyspark.sql import SparkSession

if __name__ == "__main__":
    print("PySpark 101 Tutorial")
    print("Part 1. How to create SparkSession object in PySpark using PyCharm IDE")

    spark = SparkSession \
            .builder \

## part_2_create_rdd_pyspark101_demo.py
# Importing Spark Related Packages

from pyspark.sql import SparkSession

if __name__ == "__main__":
    print("PySpark 101 Tutorial")
    print("Part 2. Create First RDD(Resilient Distributed Dataset) in PySpark using PyCharm IDE")

    spark = SparkSession \
            .builder \

## part_4_filter_transformation_pyspark101_demo.py
# Importing Spark Related Packages
from pyspark.sql import SparkSession

if __name__ == "__main__":
    print("PySpark 101 Tutorial")
    print("Part 4. How to use filter RDD transformation in PySpark using PyCharm IDE")

    spark = SparkSession \
            .builder \
            .appName("Part 4. How to use filter RDD transformation in PySpark using PyCharm IDE") \

## part_6_mapPartitions_transformation_pyspark101_demp.py
from pyspark.sql import SparkSession

# mapPartition 을 사용할 경우 generator 를 생성해서 처리해야 되는 것으로 보임
def process_partition(partition):
	yield sum(partition)

def process_partition_y_sum(partition):
	number_sum = 0

	for element in partition:
	# wget을 활용해서 bert 모델 다운로드 가능
	!wget https://storage.googleapis.com/bert_models/2018_11_23/multi_cased_L-12_H-768_A-12.zip
	import zipfile

	bert_zip = zipfile.ZipFile('multi_cased_L-12_H-768_A-12.zip')
	bert_zip.extractall('bert')
	bert_zip.close()
	"""
	copyfile과 copy는 메타정보는 복사되지 않습니다.
	copy2는 메타정보도 복사합니다.
	copy2를 사용하면 파일을 작성한 날짜도 복사되지만
	copyfile과 copy는 파일을 작성한 날짜가 복사한 날짜로 변경됩니다.
	"""
	import os
	import shutil # 셸 유틸리티

	# 디렉터리 복사하기
	import os

	if "bert" not in os.listdir():
	os.makedirs("bert")
	else:
	pass
	from pyspark.sql import SparkSession

	if __name__ == "__main__":
	print("Pyspark 101 Tutorial")
	print("Parkt 5 - How to use flatMap RDD transformation in PySpark \| PySpark 101 using Pycharm IDE")

	# appName() 에 \| 연산자를 사용하면 오류가 발생합니다.
	# appName("Parkt 5 - How to use flatMap RDD transformation in PySpark \| PySpark 101")
	spark = SparkSession \
	.builder \
	# Importing Spark Related Packages

	from pyspark.sql import SparkSession

	if __name__ == "__main__":
	print("PySpark 101 Tutorial")
	print("Part 1. How to create SparkSession object in PySpark using PyCharm IDE")

	spark = SparkSession \
	.builder \
	from pyspark.sql import SparkSession

	# mapPartition 을 사용할 경우 generator 를 생성해서 처리해야 되는 것으로 보임
	def process_partition(partition):
	yield sum(partition)

	def process_partition_y_sum(partition):
	number_sum = 0

	for element in partition: