Skip to content

Instantly share code, notes, and snippets.

@therne
Last active March 23, 2018 08:17
Show Gist options
  • Save therne/0bf53e5420a8c34aacf1805f0e8bfefd to your computer and use it in GitHub Desktop.
Save therne/0bf53e5420a8c34aacf1805f0e8bfefd to your computer and use it in GitHub Desktop.
기술백서 초안

Airbloc Technical Whitepaper

Candidate 1 First published on March 23, 2018.

요약 : 에어블록은 탈중앙화된 광고 데이터 거래 네트워크입니다. 에어블록을 통해 수집자가 개인 사용자에게서 DAuth를 통해 동의한 간접 데이터를 수집하거나, 데이터 캠페인을 통해 사용자의 관심사를 직접 질문하는 방식으로 직접 데이터를 수집합니다. 이렇게 수집된 데이터는 가공자를 통해 관심 데이터의 형태로 가공되어 광고주에게 판매되게 되며, 개인 사용자에게 보상이 지급됩니다. 개인 사용자는 데이터에 대한 정당한 보상 뿐만이 아니라 통제권까지 얻게 되어 데이터에 대한 주권을 가질 수 있고, 앱사는 정당하게 수집한 데이터를 수익화해 사용자와 보상을 나눠가질 수 있고, 광고주는 개인에 대한 정확한 관심 데이터를 통해 고품질의 타겟팅 광고를 집행할 수 있습니다.

Copyright © 2018 Airbloc Foundation. All rights are reserved.

Without permission, anyone may use, reproduce or distribute any material in this paper for non-commercial and educational use (i.e., other than for a fee or for commercial purposes) provided that the original source and the applicable copyright notice are cited.

목차

문제의식

개인의 데이터 권리의 위기

이제 광고기술 시장에서 ‘데이터’는 하나의 전략적 무기입니다. 광고를 보다 효율적으로 집행하기 위해 데이터를 활용하여 ‘내 제품을 살 만한 사람들에게만 광고하는’ 타겟팅 광고 상품은 구글과 페이스북, 그리고 각국의 대표 검색엔진 등 거대 IT 기업들의 주요 수익화 방법이 되었습니다. 이 기업들은 ‘개인의 관심데이터’를 활용하여 광고를 노출하고 개인들이 이 광고를 선택하면, 심지어 보기만 하더라도 매출을 얻게 됩니다.

하지만 정작 ‘개인 관심데이터’를 제공하는 주체인 ‘개인’에게는 타겟팅 광고 매출의 1원도 돌아가지 않습니다. 자신들에게서 어떠한 데이터가 수집되어 어떠한 가치로 매겨지는지, 누구에게 판매되는지 전혀 알 수 없습니다. 심지어 데이터는 기업의 약관 변경등을 통해 원하지 않은 방식으로 수집되어 원하지 않는 주체에 판매되기도 합니다.

정확도 높은 관심 데이터의 부족

그럼에도 불구하고, 기업 (광고주)은 생각보다 개인에 대해 정확히 알고 있진 않습니다.

관심데이터를 사용해 과거에 비해 더욱 효율적으로 타겟팅 광고를 할 수 있게 되었지만 이 관심데이터가 개인이 직접 제공한 정보가 아닌 간접 제공한 데이터를 기반으로 통계적으로 ‘추측’된 데이터에 불과합니다. 따라서 개인의 관심사를 더 잘 추측하려면 더 많고 더 다양한 종류의 데이터가 필요합니다.

하지만 일개 기업이 수집할 수 있는 데이터는 한계가 있습니다. 플랫폼 사업자가 아닌 이상 일개 기업이 수집할 수 있는 데이터의 모집단은 해당 기업의 서비스로만 한정되기 때문입니다. 따라서 개인의 입장에서는 데이터 권리의 침해가 빈번히 일어나지만, 기업의 입장에서도 결국 소수의 플랫폼이 다수의 데이터를 독과점하는 구조이기 때문에 개인에 대한 데이터 확보가 힘듭니다. Google 및 Facebook과 같은 광고 플랫폼을 사용하더라도, 플랫폼에 많은 광고주들이 몰리면서 시작된 광고 비용 상승으로 인해 광고주들에게 여전히 문제가 존재합니다.

따라서 정확한 개인 데이터와, 그를 통한 세밀한 광고 타겟팅은 광고주들에게 어느 때보다 더 절실해진 상태입니다.

광고의 노이즈화

앞서 설명한 것처럼 개인의 데이터는 무단으로 도용되는 데 반해, 정작 개별 기업은 개인에 대한 정확도 높은 데이터가 부족한 딜레마가 존재합니다. 이는 결국 타겟팅 광고의 질 저하로 이어졌고, 개인에게 광고는 노이즈로서 전락했습니다. 광고를 서비스를 사용하기 위해 지불해야 할 시간적 비용, 즉 필요악으로서 인식하는 것입니다.

에어블록이란

에어블록은 탈중앙화된 광고 데이터 거래 네트워크입니다. 에어블록을 통해 수집자가 개인 사용자에게서 DAuth를 통해 동의한 간접 데이터를 수집하거나, 데이터 캠페인을 통해 사용자의 관심사를 직접 질문하는 방식으로 직접 데이터를 수집합니다. 이렇게 수집된 데이터는 가공자를 통해 관심 데이터의 형태로 가공되어 광고주에게 판매되게 됩니다.

에어블록은 개인에게 데이터 권리를 되찾아 줍니다. 데이터에 대한 보상을 개인에게 지급하고, 데이터 판매 수익을 분배합니다. 또한 사용자가 제공한 데이터가 어떻게 판매되고 사용되는지는 블록체인을 통해 투명하게 추적이 가능하며, 사용자는 데이터의 사용 권한이나 주체를 직접 제한할 수 있습니다. 이처럼 에어블록을 통해 개인은 데이터의 주권을 되찾을 수 있습니다.

에어블록은 앱사들에게 새로운 형태의 수익 모델이 됩니다. 앱사들은 사용자들을 통해 모은 데이터를 판매함으로서 수익을 창출할 수 있습니다. 데이터 판매 수익은 사용자에게 배분되고, 수집할 수 있는 데이터의 종류는 사용자가 DAuth (Data Auth) 과정을 통해 직접 선택할 수 있기 때문에 데이터는 앱사와 개인 사용자 모두가 만족할 수 있는 정당한 방식으로 수집되고 판매됩니다. 이처럼 에어블록은 앱사들에게 새로운 "데이터 비즈니스" 모델"이 될 수 있습니다.

에어블록은 광고주들에게 고품질의 타겟팅 광고를 집행할 수 있게 해주는 DMP (Data Management Platform)가 됩니다. 에어블록에는 다양한 앱에서 수집된 많은 종류의 간접 데이터가 있기 때문에 데이터의 모집단을 크게 늘릴 수 있고, 데이터 캠페인을 집행해 사용자에게 직접 질문함으로서 원하는 데이터를 수집할 수도 있습니다. 이로 인해 광고주는 개인에 대해 더 정확하게 알 수 있고, 개인의 관심사를 더 잘 반영한 타겟팅 광고를 집행할 수 있습니다.

TBD: 더 나아가서, 에어블록은 개인에게 원하는 광고를 보여주는 플랫폼이 될 수 있습니다.

참여 주체

에어블록은 데이터에 대한 프로바이더, 컨슈머, 수집자, 가공자검증자의 참여를 통해 이루어집니다.

  • 프로바이더 (Provider) 는 데이터를 제공하는 개인 사용자입니다. 데이터를 제공하고 소비자에게 보상을 받아가며, 데이터 사용 및 유통에 대한 통제권을 지닙니다.
  • 컨슈머 (Consumer) 는 데이터를 구매하는 광고주입니다. 데이터를 구매하고 그에 대한 보상을 지불합니다.
  • 수집자 (Collector) 는 데이터를 수집해 대리 판매하는 주체입니다. 간접 데이터에선 앱사들이, 직접 데이터에선 컨슈머 등의 캠페인 집행자가 수집자가 됩니다.
  • 가공자 (Refiner) 는 사용자의 직 · 간접 데이터를 분석해 관심 데이터로 가공해서 컨슈머에게 판매합니다.
  • 검증자 (Verifier) 는 데이터가 잘 저장되는지를 검증하고 프로바이더의 신용도를 평가하여 보상을 받습니다.

ABL 토큰

ABL 토큰은 에어블록 내에서 사용되는 토큰입니다. ABL 토큰은 기본적으로 데이터의 거래 수단으로 사용되며, 검증자 및 모범시민 프로바이더에게 보상으로 주어질 수 있습니다. 자세한 내용은 ABL 토큰 문단을 참조해 주세요.

아키텍쳐

에어블록은 다음과 같은 4가지의 레이어로 구성되어 있습니다.

  • Application Layer : 에어블록을 사용하는 Dapp들을 가리킵니다. 에어블록 메인 클라이언트, 에어블록 메인 거래소 등이 포함됩니다.
  • API Layer : 에어블록 컨트랙트와 통신할 수 있는 API 레이어를 가리킵니다.
  • Service Layer : 에어블록 컨트랙트를 가리킵니다. 탈중앙화된 에어블록 네트워크를 구성합니다.
  • Core Layer : 에어블록 컨트랙트를 돌릴 블록체인 플랫폼을 가리킵니다.

에어블록은 Ethereum을 사용합니다. 따라서 에어블록에서 사용되는 ABL 토큰은 ERC20 표준을 따르며, 에어블록 컨트랙트는 EVM 위에서 스마트 컨트랙트로서 구동됩니다. 블록체인 플랫폼은 추후 에어블록의 기술적 요구사항에 의해 다른 플랫폼으로 변경될 수 있습니다.

왜 블록체인을 사용하는가?

탈중앙화 애플리케이션 (Dapp)은 얼마든지 중앙화된 형태로도 구현될 수 있습니다. 에어블록 네트워크도 이러한 가능성과 함께, "왜 에어블록이 굳이 블록체인을 사용해야 하나요?"라는 질문을 제기할 수 있습니다. 하지만 에어블록 네트워크는 블록체인 위에 구현됨으로서 다음과 같은 특징을 가지게 됩니다.

데이터의 추적성 (Data Traceability)

에어블록 네트워크 안에서 유통되는 모든 데이터의 활용 과정은 블록체인에 의해 투명하게 추적됩니다.

중앙화된 시스템에선 사용자의 데이터가 어떻게 수집되고 활용되거나 판매되는지 알 수 없습니다. 하지만 탈중앙화된 에어블록 네트워크에서는 데이터 수집을 DAuth나 데이터 캠페인을 통해 사용자가 컨트롤할 수 있으며, 수집된 개별 데이터의 유통 과정은 블록체인을 통해 투명하게 기록되기 때문에 사용자와 광고주는 해당 데이터의 계보 (Data Lineage)를 언제든지 확인할 수 있습니다.

데이터 유통 제한 (Data Distribution Limitation)

에어블록의 가장 큰 특징은 데이터의 생산자인 개인 사용자가 직접 데이터의 유통 과정을 제한할 수 있다는 것입니다. 예를 들어 데이터가 특정 분야의 광고에는 사용될 수 없게 제한하거나, 데이터가 몇번 이상 재판매되지 않도록 횟수를 제한할 수 있습니다. 이를 통해 사용자는 자신의 데이터에 대한 주권을 행사할 수 있습니다.

이러한 데이터 유통 제한은, 탈중앙화된 블록체인 위에서 구현된 Ð3X 프로토콜 위에서 데이터 특성으로서 구현됩니다. 한번 데이터에 부여된 특성은 변경할 수 없기 때문에, 개인 사용자들에게 자신의 데이터가 자신의 통제권 안에서 다뤄지는 것을 보장할 수 있습니다. 자세한 내용은 데이터 문단과 Ð3X 프로토콜 문단을 참조해 주세요.

데이터의 무단 탈취 방지

전통적인 데이터 거래 네트워크에선, 중간 과정에서 값을 지불하지 않은 채로 데이터를 복사할 수 있는 위험이 있습니다. 데이터는 무형의 디지털 자산이기 때문에, 단순히 내용을 열람할 수 있는 것만으로도 가치를 탈취할 수 있기 떄문입니다. 이로 인해 기존 시스템에선 데이터의 유통을 제대로 제어할 수 없습니다. 예를 들어 데이터 사용 통제 및 추적을 피하기 위해 데이터를 복사했다가 다시 시스템에 임포트하는 방식으로 데이터 계보를 끊어버리는 데이터 이스케이핑 (Data Escaping) 등의 행위가 가능합니다.

에어블록 네트워크에선 데이터의 무단 복제를 광고 데이터의 익명화를 통해 사전에 차단합니다. 광고 데이터는 개인을 위한 데이터기 때문에, 트래킹 가능한 개인 식별자 없이는 가치를 지니지 않는데, 임포트될 때 개인 식별자를 익명화시키고 개인 식별자는 사용자가 보관합니다. 비익명화

탈중앙화를 통한 데이터 권력의 민주화

이러한 모든 기능이 가능한 이유는 바로 에어블록이 탈중앙화된 형태로 구현되기 때문입니다.

중앙화된 시스템에선 아무리 법적인 효력을 가진 약관과 규칙이 있다고 해도 다른 주체들은 중앙 주체를 견제할 수단이 없으며 해당 규칙을 따르는지 감시할 방법 또한 없습니다. 그저 중앙화된 주체의 이해관계에 의해서만 규칙이 유지됩니다. 즉 앞서 설명한 데이터의 추적용이성이나 데이터 특성 부여 등은 중앙화된 시스템에선 사실상 무용지물인 시스템이 되는 것입니다.

하지만 탈중앙화 시스템 위에서는 스마트 컨트랙트로 짜여진 투명한 규칙 하에 각 참여 주체가 상호견제하며 참여할 수 있습니다. 시스템은 규칙을 따르도록 설계되어 있고, 해당 규칙에 따른 모든 행동은 투명하게 공개되어 감시가 가능합니다. 규칙을 어기고 어뷰징하는 주체는 경제적 패널티를 얻게 됩니다.

에어블록은 탈중앙화 시스템이기 때문에, 정해진 규칙에 따른 공정한 데이터 유통을 보장할 수 있습니다. 심지어 에어블록을 운영하는 주체인 에어블록 파운데이션조차도 에어블록에선 참여 주체의 일부이기 때문에 데이터를 다룰 수 있는 권력은 집중되지 않고 사용자와 기업 모두에게 공평하게 분배될 수 있습니다.

에어블록 사용 시나리오

TBD.

데이터

에어블록에서 거래되는 모든 데이터는 광고 데이터입니다. 광고 데이터는 어떤 개인에 관한 트래킹 가능한 데이터로서, 주로 개인의 관심사를 표현하기 때문에 관심 데이터라고도 불립니다. 여기서 주목해야 할 점은 광고 데이터는 트래킹 가능해야한다는 점입니다.

트래킹 가능하지 않은 광고 데이터는 가치가 없습니다. 이는 데이터는 활용되는 순간에 가치를 지니기 때문입니다. 어떤 개인의 광고 데이터를 활용하는 방법은 그 사람에게 트래킹 광고를 집행하는 것인데, 해당 개인이 누군지 모른다면 활용을 할 수 없습니다. 에어블록의 모든 데이터 시스템 설계는 트래킹 가능하지 않은 광고 데이터는 가치가 0이라는 전제에서 출발합니다.

종류

에어블록에서의 광고 데이터는 수집 방식의 측면에서 간접 데이터, 직접 데이터 2가지로 나뉩니다.

간접 데이터 (Indirect Data) 는 사용자의 디바이스 등에서 자동으로 수집될 수 있는 데이터로 예를 들어 설치된 앱 리스트, 앱 사용 행태, Google Play 결제 내역, WIFI 데이터, GPS 데이터, 비콘 데이터 등이 있습니다. 이런 데이터는 사용자의 권한(permission) 부여만으로도 자동으로 수집될 수 있다는 특징을 가지며, 또한 이러한 데이터를 사용하여 간접적으로 해당 사용자의 정적인 속성을 추측할 수 있다는 점에서 간접데이터라고 불립니다. 예를 들어 그 사용자가 “고양이를 키우는지 아닌지”를 직접적으로 물어보는 것이 아니라 그 사용자가 고양이와 관련된 앱을 설치하고 있는지의 여부로 간접적으로 추측하기 때문에 간접 데이터인 것입니다.

반면에 직접 데이터 (Direct Data) 는 말 그대로 그 사용자에게 직접 특정 사실에 대해서 물어본 것이라고 할 수 있습니다. 위의 예시로 돌아가면, 직접 데이터를 수집하려면 “고양이를 키우는지 아닌지”를 직접 그 사용자에게 물어보면 됩니다. 나아가서 그 사용자가 실제로 고양이를 현재 키우고 있는지, 아니면 키우고 있지 않는데도 단지 관심만 가지는 것인지를 질문해서 답을 받으면 됩니다. 직접 물어본 것이기에 이는 직접 데이터에 속합니다.

구성 요소

에어블록에서의 광고 데이터는 고유 식별자 (UUID), 데이터 특성, 페이로드 (내용), 계보로 구성됩니다.

고유 식별자 (UUID)

고유 식별자는 해당 데이터 소유자에 대한 트래킹 가능한 고유 ID입니다. 에어블록에서 데이터를 소비하는 목적은 개인의 관심사를 알아내어 알맞은 타겟팅 광고를 제공하기 위함이기 때문에, 에어블록 네트워크에서 거래되는 데이터엔 반드시 데이터 소유자의 고유 식별자가 포함되어야 합니다. 해당 고유 식별자는 일반적으로 타 플랫폼에서 트래킹이 가능한 광고 ID이며, Google Advertising ID나 Apple IDFA 혹은 Web Cookie ID등이 될 수 있습니다.

특성 (Trait)

에어블록의 모든 데이터엔 유통 제한 특성이 부여됩니다. 에어블록에서는 프로바이더의 데이터 유통 제한을 위해 다음과 같은 특성을 사용합니다.

  • 데이터의 사용 제한 범위
  • 데이터의 최대 재판매 횟수 (도달 수명)

데이터는 특정 주체에 재판매될 수 없으며, 남은 재판매 횟수가 감소해 0이 되면 더이상의 재판매가 불가능해집니다. 또한 한번 부여된 특성은 절대 변경할 수 없습니다. 예를 들어, 도달 수명은 한번 부여된 이상 절대 임의로 연장할 수 없습니다. 이를 통해 사용자는 개인 데이터의 통제권을 완전히 보장받을 수 있습니다.

페이로드 (Payload)

페이로드는 데이터의 내용입니다. 페이로드 형식은 수집자가 결정합니다. 일반적으로 데이터의 페이로드는 블록체인 위에 저장하기엔 너무 크기 때문에, 페이로드는 IPFS 및 S3와 같은 외부 스토리지에 암호화되어 저장되며 블록체인 상에는 접근 해시 키만을 저장합니다. 데이터 저장에 대한 자세한 내용은 데이터 저장 문단을 참조하세요.

계보 (Lineage)

계보는 한 데이터가 에어블록 상에서 유통된 이력을 나타냅니다. 이는 데이터가 거래되면서 자동으로 생성됩니다. 에어블록은 데이터의 계보를 무조건 투명하게 유지하기 때문에, 개인 사용자는 자신의 데이터가 어떻게 사용되는지 투명하게 알 수 있으며 컨슈머는 구매한 데이터가 어떤 과정을 통해 자신에 손에 오게 되었는지 알 수 있습니다.

데이터 계보는 데이터에 대한 소유권 없이는 열람할 수 없습니다. 즉 데이터 유통에서 중간 과정에 있는 가공자, 검증자들은 데이터 계보를 조회할 수 없습니다. 왜냐하면 익명화된 데이터여도 데이터 계보의 열람이 가능하다면 데이터 프로바이더의 신원을 추적할 수 있어 무단 복제나 데이터 이스케이핑이 가능하기 때문입니다. 이는 데이터에 대한 권리 파트에서 다룹니다.

데이터 경제

데이터 특성 부여는 단순히 개인의 데이터에 대한 권리 회복을 의미하는 것 뿐만이 아니라, 에어블록 내 거래되는 데이터에 특수한 경제적 효과를 불러 일으킬 수 있습니다.

데이터의 도달 수명을 제한하는 것은 실물 세계에서의 감가상각과 비슷한 원리를 만들어냅니다. 시간이 지날수록 실물의 가치가 감소하는 것 처럼, 에어블록에서의 데이터 가치 또한 재판매를 거칠수록 수명이 감소함으로서 가치가 하락합니다. 이는 데이터의 공급을 제한하는 효과를 불러 일으킵니다.

만약 각 주체간에 데이터의 무한한 재판매가 가능해진다면 공급 과잉으로 인해 데이터의 인플레이션이 발생하고, 데이터의 가치는 하락하게 됩니다. 하지만 도달 수명을 제한하는 것은 재판매에 한계를 둠으로서 에어블록 네트워크 내 공급을 조절하는 효과를 발생시킵니다.

또한 사용자가 직접 데이터의 사용 범위를 제한할 수 있다는 점은 특정 종류 데이터의 희소성을 만들어냅니다. 사용자가 과도한 노출을 꺼리는 민감한 데이터일수록, 사용자는 데이터의 도달 범위와 재판매 횟수를 제한하게 됩니다. 이는 해당 데이터의 공급을 감소시키므로, 해당 종류의 데이터에 희소성을 만들어냄과 동시에 가격을 상승시키는 효과를 불러 일으킬 수 있습니다.

데이터에 대한 권리

에어블록은 데이터에 대한 권리를 소유권, 사용권으로 구분합니다. 권리를 나누는 가장 큰 기준은 고유 식별자에 대한 접근 가능 여부입니다. 그 이유는 앞서 설명된 것처럼 광고 데이터는 소유자에 대한 고유 식별자 정보 없이는 무가치하기 때문입니다.

사용권은 데이터 페이로드에 접근할 수 있는 권리입니다. 이 권리는 데이터 파이프라인의 중간에 위치한 가공자와 검증자가 가지고 있습니다. 예를 들어 가공자는 데이터를 구매하지 않고도 데이터의 페이로드에 접근해 해당 사용자의 직접 데이터와 간접 데이터를 가공해 관심 데이터를 만들 수 있지만, 해당 사용자의 실제 고유 식별자는 알지 못합니다.

소유권은 데이터의 전체 내용을 접근할 수 있는 권리입니다. 이 권리는 데이터 파이프라인의 양극단에 위치한 프로바이더나, 컨슈머만이 가지고 있습니다. 데이터의 소유권을 가진다는 것은 데이터의 소유자 정보 (고유 식별자, 계보)에 접근할 수 있게 된다는 의미를 지니며, 데이터의 거래는 데이터의 소유권을 거래하는 것으로 볼 수 있습니다.

해당 내용을 표로 정리하면 다음과 같습니다.

사용권 소유권
페이로드 접근
고유 식별자 접근
계보 접근

데이터 수집 프로세스

에어블록 네트워크에서 데이터를 수집하는 방식은 데이터 종류에 따라 두 가지로 나뉩니다.

간접 데이터 수집

앱사들은 사용자들에게 수집한 간접 데이터를 에어블록에서 판매해 수익화할 수 있습니다. 하지만 이것이 앱사들의 데이터 독점이나 개인 데이터 권리 침해를 의미하진 않습니다. 판매 수익은 사용자에게 일정 비율로 배분되며, 판매할 수 있는 데이터의 종류와 권한은 사용자가 직접 선택할 수 있기 때문에 앱사들은 데이터 판매 대리인으로서의 역할로서 수익을 나누게 되는 것입니다.

데이터 수집은 에어블록 SDK를 통해 일반 앱으로부터 이루어지게 됩니다. 따라서 앱사들은 자신의 앱에 반드시 에어블록 SDK를 탑재해야 합니다. 또한 사용자에게서 데이터를 수집하기 전에, 먼저 DAuth 과정을 통해 개별 사용자로 하여금 데이터 수집에 동의하고, 수집할 데이터의 종류를 결정하는 과정을 거쳐야 비로소 그 사용자에게서 간접 데이터를 수집할 수 있습니다.

구체적인 예시를 들기 위해 Alice가 Bob의 간접 데이터를 수집하는 상황을 가정합시다. Alice는 컬렉터이며, Alpha라는 앱을 소유하고 있고 앱 사용자들로부터 간접 데이터를 수집해 수익화하길 원하는 앱사입니다. Bob은 Alice의 앱을 사용하는 개인 사용자입니다.

Alice는 데이터를 수집하기 전에, 에어블록 네트워크에 Alpha 앱을 등록해야 합니다.

  • Alice는 에어블록 네트워크에 Alpha 앱을 등록합니다.
    • 에어블록 대시보드에서 먼저 수집할 데이터의 종류를 설정합니다. 예를 들어 설치된 앱 리스트, 인앱 결제 내역 등을 수집할 수 있습니다.
    • 데이터의 종류별로 보상을 설정하고, 사용자와 얼마의 비율로 분배할 것인지 설정합니다. 단, 수집자는 최소 30% 이상의 수익을 사용자에게 분배해야 합니다.
  • Alpha 앱에 에어블록 SDK를 설치합니다.

이제 Bob이 Alice의 앱을 막 처음 설치했다고 가정합니다. 이제 Bob은 다음과 같은 DAuth 과정을 통해 수집될 데이터의 종류를 결정해야 합니다.

  • Bob은 Alpha 앱에 회원가입하고, 온보딩 과정을 진행합니다.
  • 데이터 수집 동의 다이얼로그가 표시됩니다.
    • 수집되는 데이터의 종류와 함께 보상 비율이 명시되어 있으며, 사용자는 수집을 원하는 데이터만 체크하고 수집을 원하지 않는 데이터는 체크를 해제해 거부할 수 있습니다.
    • 보상이 들어올 자신의 에어블록 계정명을 입력해야 합니다.
  • Bob은 다이얼로그에 수집을 허가하는 데이터 종류를 체크하고, 보상에 동의합니다.
  • DAuth 과정이 끝나면, Alice는 오직 Bob이 수집을 수락한 데이터만 에어블록에 올릴 수 있습니다.

자세한 내용은 DAuth 문단과 간접 데이터 문단을 참조해 주세요.

직접 데이터 수집

에어블록에선 다른 데이터 거래소에서와는 다르게, 컨슈머가 프로바이더에게 원하는 관심 데이터를 질문하는 방식으로 데이터를 살 수 있습니다. 광고에서의 캠페인처럼, 에어브릿지 네트워크에서는 이를 데이터 캠페인이라고 합니다. 사용자는 에어블록 클라이언트를 통해 컨슈머의 질문에 답하며 보상을 얻을 수 있습니다.

데이터 캠페인을 통해 컨슈머는 자신이 원하는 데이터의 종류와 이를 제공했을 시의 보상을 제시합니다. 데이터 캠페인이 집행되면, 컨슈머의 제의 (Bid)는 네트워크를 통해 특정 다수의 개개인 프로바이더에게 전파됩니다. 프로바이더가 이를 수락해 데이터를 제공하면, 데이터는 컨슈머에게 전송되고 컨슈머는 프로바이더에게 보상을 지불하는 에스크로 거래가 성사됩니다. 이렇게 해서 컨슈머는 원하는 종류의 개인 데이터를 모을 수 있고, 프로바이더는 보상을 지급받을 수 있게 됩니다.

구체적인 예시를 들기 위해 Alice와 Bob이 데이터 캠페인을 통해 데이터를 거래하는 상황을 가정합시다. Alice는 데이터 컨슈머이며, 개개인의 결혼 여부에 대한 데이터를 수집하길 원하는 광고주입니다. Bob은 데이터 프로바이더이며, 해당 데이터를 가지고 있습니다.

먼저 Alice가 데이터를 수집하는 과정은 다음과 같습니다.

  1. Alice는 질문, 캠페인 도달 타겟, 지속 기간, 보상을 명시해 데이터 캠페인을 집행합니다.
  2. Alice가 지정한 도달 타겟에 해당하는 타겟군의 개개인 프로바이더에게, 정해진 기간동안 캠페인이 노출됩니다.
  3. 해당하는 타겟군중 한명인 Bob에겐 Alice의 캠페인이 노출됩니다.
  • 캠페인은 특정 질문에 응답할 시 얼만큼의 보상을 주겠다는, 제의의 형태로 개개인에게 노출됩니다.
  1. Bob은 해당 제의를 수락해 데이터를 거래할지, 혹은 거절할지 선택할 수 있습니다.

Bob의 제의를 수락하면 다음과 같은 과정으로 데이터 거래가 이루어집니다.

  1. 거래가 시작되면 Bob이 제공한 데이터는 에스크로 컨트랙트에 전송됩니다.
  2. 에스크로 컨트랙트는 먼저 데이터를 익명화시켜서 익명 데이터를 만듭니다. 데이터의 내용은 유지하되 고유 식별 정보만을 제거함으로서, 타인은 이 데이터가 Bob의 것이란 것을 식별할 수 없습니다.
  3. 에스크로 컨트랙트는 익명 데이터를 Alice에게 전송합니다.
  4. Alice는 익명 데이터의 내용을 직접 확인하고 이 데이터를 최종적으로 구매할 지 말지 결정합니다.
  5. 구매할 시, 에스크로 컨트랙트는 나머지 고유 식별 정보를 Alice에게 제공하는 대신 Alice의 잔고를 차감해 Bob의 잔고를 증가시키는 에스크로 거래를 체결합니다.
  • Alice는 이 시점에서 데이터가 Bob의 것이란 것을 알게 됩니다.
  • Bob은 이 시점에서 데이터 판매 보상을 지급받습니다.
  1. 구매를 거부할 시, Bob이 제공한 데이터는 네트워크에서 파기되며 보상은 제공되지 않습니다.

자세한 내용은 데이터 캠페인 파트를 참조해 주세요.

DAuth

DAuth (Data Auth)는 에어블록에서 수집자가 간접 데이터를 수집하기 위한 동의 절차입니다. DAuth 시스템에

데이터 캠페인

데이터 캠페인은 캠페인 집행자 (Campaigner) 가 데이터를 수집하기 위해, 원하는 데이터를 제공하면 그에 대한 보상을 주겠다는 제안을 네트워크 내 특정 프로바이더에게 정해진 기간동안 노출시키는 행동을 의미합니다. 일반적으로 데이터 캠페인의 대상이 되는 사용자들은 에어블록 메인 클라이언트를 설치한 사용자나, 에어블록 캠페인 SDK를 사용하는 앱의 사용자들이 됩니다. 이러한 사용자들은 제안을 수락하고 질문에 답변할 인터페이스를 통해 직접 데이터를 제공하게 됩니다.

캠페인은 질문, 보상, 타겟, 캠페인 기간, 도달 비용으로 이루어집니다.

**질문 (Query)**은 수집하길 원하는 데이터에 대한 설명입니다. 질문은 자연어 질문과 스키마로 이루어져 있습니다. 자연어 질문은 사용자에게 표시될 문장 형태의 질문이나 부가 정보이며, 스키마는 원하는 데이터의 페이로드 형식을 정의합니다. 예를 들어 isMarried: Boolean이라는 스키마는 데이터 프로바이더가 페이로드의 isMarried라는 필드에 Boolean 형식의 데이터를 전송해야 함을 의미합니다.

보상은 컨슈머가 데이터당 프로바이더에게 지불해야 할 ABL 토큰의 양입니다. 프로바이더가 캠페인에 응답해 데이터를 제공하면, 컨슈머는 프로바이더에게 보상을 제공합니다. 프로바이더는 한 캠페인당 최대 한번밖에 응답할 수 없기 때문에, 컨슈머가 지불해야 할 총 보상액은 (보상 가격) ✕ (응답한 프로바이더 수)가 됩니다.

타겟은 캠페인을 노출시킬 프로바이더 사용자군 설정입니다. 이는 프로바이더가 초기에 설정한 관심 정보에 따라서 이루어지며, 설정된 타겟군에 해당하는 관심을 가진 프로바이더에게만 캠페인이 노출되게 됩니다.

캠페인 기간은 캠페인을 노출시킬 기간 설정입니다. 캠페인 기간은 시간 단위로 설정이 가능하며, 연장이 불가능합니다. 연장하려면 새 캠페인을 생성해야 합니다.

이렇게 구성된 캠페인을 집행하려면 도달 비용을 ABL 토큰으로 지불해야 합니다. 도달 비용은 얼마나 많은 사용자에게 캠페인이 노출될지를 다음 공식에 따라 결정합니다.

\mbox{Cost} =\mbox {Period} \times  \exp \left( \frac{\mbox{Number of Target Provider Group}}{\mbox{Total Number of Provider}} \right) \times \mbox {Constant}

더 많은 사용자들에게, 더 오래 캠페인을 노출시키려면 더 많은 도달 비용을 지불해야 합니다. 이렇게 도달 비용을 둠으로서, 불필요한 정크 캠페인의 집행을 제한해 사용자 경험을 향상시킬 수 있습니다. 지불된 비용은 네트워크에서 소각됩니다.

캠페인을 집행하면, 해당 캠페인은 Push나 Poll 방식을 통해 네트워크에 전파되어 특정 프로바이더들에게 노출됩니다. 프로바이더들은 캠페인에 응답해 데이터를 제공하고 보상을 받을 수 있습니다.

데이터 마켓플레이스

데이터 마켓플레이스에서는 수집된 직접 · 간접 데이터의 거래가 이루어지는 곳입니다. 데이터 마켓플레이스는 Raw 데이터 마켓세그먼트 마켓 두 종류가 존재합니다.

Raw 데이터 마켓에서는 수집자와 컨슈머가 데이터를 거래합니다.

가공자 (Refiner)

TBD

신용 평가 시스템

데이터 거래의 문제점은 상호 거래 주체간의 신뢰성을 보장할 수 없다는 것입니다. 데이터를 구매하는 입장에서는 거래되는 데이터와 거래 대상을 신뢰할 수 없고, 데이터를 판매하는 입장에선 구매자를 신뢰할 수 없습니다. 이렇게 데이터 신뢰성에 대한 문제와 거래 주체에 대한 신뢰성 문제가 존재합니다. 에어블록 네트워크는 신용 평가 시스템을 통해 문제를 해결합니다.

신용 평가 시스템은 크게 두 부분으로 나누어집니다. 프로바이더의 신용도를 평가하는 부분과, 수집한 데이터에 대한 신뢰도를 평가하는 부분으로 나뉩니다.

신용도 (Credit Rating)

신용도는 프로바이더 개개인에게 부여되는 신뢰 점수이며, 0부터 100까지 매겨집니다.

시그모이드?

익명화된 사기 탐지 시스템 (Anonymized Fraud Detection)

모범시민 시스템 (Good Citizen System)

모범시민 시스템은 신용도가 높은 프로바이더가 다른 프로바이더의 답변의 신뢰성을 평가하는 시스템입니다.

신용도가

검증자

ABL 토큰

Ð3X 프로토콜

에어블록은 Ð3X라는 탈중앙화된 데이터 전달 프로토콜을 통해 구현됩니다. D3X는 추상화된 형태의 범용 데이터 전달 프로토콜으로서, 신뢰할 수 없는 주체간의 개인 데이터 거래 및 검증을 위한 다양한 기능을 제공합니다.

D3X 프로토콜은 에어블록 네트워크에서 데이터의 전처리, 검증, 거래에 관한 규약을 담당합니다. 따라서 에어블록 네트워크의 데이터 도달 제한 기능, 고유 식별자 기반 데이터 에스크로 및 신용 평가 시스템은 D3X 프로토콜 위에 올려집니다. 중요한 점은 D3X 프로토콜은 범용적이고, 가치중립적이란 것입니다. 도메인 특화된 기능 및 정책은 모두 에어블록 네트워크가 담당하고 D3X 프로토콜은 여기서 추상화된 규약만을 다루고 있기에, 에어블록과 분리되어 다른 도메인의 데이터 거래에도 사용될 수 있습니다.

익명화 레이어

데이터를 제3자에게 위탁해 검증하거나, 데이터 거래 주체가 신용 인증을 받거나, 혹은 고유 식별자 기반 데이터 에스크로와 같은 상황에선 데이터 검증 주체의 신원이 노출되선 안되는 문제가 있습니다. 신원의 노출 자체가 공정한 거래를 방해하거나, 거래자의 개인 정보가 원하지 않는 제3자에게 노출될 위험이 있기 때문입니다.

D3X 프로토콜은 이를 위해 익명으로 데이터를 전송할 수 있게 하는 부가적인 기능을 제공합니다. 익명 데이터 전송 기능은 zk-SNARKs라는 비간섭 영지식 증명 기술을 통해 이루어지므로, 데이터 거래를 상호간에 익명화시켜 처리할 수 있습니다. 해당 과정은 다음과 같습니다.

  1. 데이터 전송자는 중간 컨트랙트에게 데이터를 전송합니다.
  2. 중간 컨트랙트와 데이터 전송자는 각각 비간섭 영지식증명 를 생성합니다.
  3. TBD...

이 기능의 존재가 D3X 프로토콜에 기반한 데이터 거래의 불투명성을 야기하진 않습니다. 이 기능의 존재 목적은 오직 검증이나 에스크로와 같이 익명화가 필수적인 상황에 부분적으로 적용하기 위함이며, 데이터 거래 기록은 블록체인의 분산 원장에 투명하게 저장됩니다.

에어블록 네트워크의 고유 식별자 기반 데이터 에스크로나, 신용 평가 시스템은 이 기능을 사용하여 구현됩니다.

데이터 특성 (Trait)

D3X 프로토콜을 통해 데이터의 특성을 정의할 수 있습니다. 특성은 데이터가 제공될 때부터 부여되는 영속적인 규칙이며, 절대 변화시킬 수 없습니다. 특성은 유한 상태 기계 (Finite State Machine)으로서, 특성함수 (Trait Function)와 상태 (Status)로 구성되며 상태는 특성함수만이 변경시킬 수 있습니다.

특성을 통해 데이터의 사용 권한, 최대 사용 및 도달 횟수, 수명 등을 정의할 수 있습니다. 예를 들어, 데이터의 사용 횟수를 제한하려면 라는 특성함수를 만든 뒤 특성상태 를 체크해 데이터의 사용을 제한할 수 있습니다.

추후 확장 계획

추가적으로 다뤄질 내용 (TBD, To Be Described)

결론

부록 : 한계점

부록 : 고려사항 및 FAQ

검증자가 데이터의 신뢰도를 검증해서 악성 프로바이더들을 걸러낸다고 해도,

부록 : 다른 서비스와의 비교

@byeongsu-hong
Copy link

고려사항

가공자가 데이터의 신뢰도를 검증해서 악성 프로바이더들을 평가한다고 해도, sybil attack에 대해 캠페인 집행자들을 보호할 수 없게된다. 즉, 데이터가 가공자에게 넘어가기 전 단계에 있는 주체들은 네트워크에 공격이 가해지는 상황에서 큰 손해를 보게 될것이다. 또한, sybil attack이 가해지거나, 유입되는 데이터의 양이 커질수록 프로바이더 집단이 프로바이더의 정보 신뢰도를 평가하는 시스템에서 검증해야되는 데이터가 기하급수적으로 늘어날 것이다. 이에 대한 대책은 검증자가 들어오는 데이터를 걸러내주면 될 것이다. 문제는 이 방법을 시행했을 경우 검증자가 네트워크 상에서 차지하는 비중이 매우 커진다는 것이다.

@byeongsu-hong
Copy link

byeongsu-hong commented Mar 23, 2018

개소리 #1

데이터 권력의 중앙집중화

구글, 페이스북과 같은 거래 IT기업들은 자신들이 가진 데이터를 기반으로 더 많은 데이터를 흡수하고 있다. 에어블록은 이런 문제점을 타파할 수 있다. 소수가 독점하고 있던 데이터 권력을 분산함으로써, 데이터의 제공자는 자신이 제공하고 싶은 데이터를 제공하고, 데이터의 구매자도 만족할 수 있게 된다. 즉, 데이터 권력의 민주화가 이루어진다는 것이다. 최근 Facebook에서 일어난 해킹사례에 집중해보자. Facebook은 제 3자에게 사용자의 데이터를 제공하였으나, 그 제 3자가 어디에 데이터를 사용하였는지 추적하지 못했고. 그 결과 5천만건에 달하는 사용자의 데이터가 마케팅 기업에 팔리게 되었다. 문제는 Facebook과 같은 데이터 독점 기업이 자신의 시스템 문제를 파악하지 못하면, 그걸 악용해서 엄청난 양의 데이터가 사용자의 동의를 받지도 않고 유출될 수 있다는 것이다. 사용자의 데이터 주권이 침해당한 것이다. 에어블록은 다음과 같은 문제를 블록체인으로 해결한다. 데이터 거래과정을 블록체인에 올려 자신의 데이터가 어디로 수집되었고, 누구에게 판매되었는지 파악할 수 있게 된다. 또한, 시스템의 문제를 암호경제학적으로 해결함으로써 네트워크의 안정성을 크게 끌어올렸고, 악용의 소지또한 모범시민 시스템, 익명화 등과 같은 기술들로 해결할 것이다. 에어블록은 지금의 데이터 독점 구조에서 항상 침해되던 사용자의 데이터 주권을 다시 사용자에게 되찾아 줄 유일한 네트워크가 될 것이다.

@therne
Copy link
Author

therne commented Mar 23, 2018

@frostornge 별첨

이는 사용자의 데이터가 중앙화된 방식으로 수집되고 관리되기 때문입니다. 중앙화된 데이터 시스템은 지금까지 개인정보 유출과 무단 판매 등의 많은 폐단을 야기했습니다. 2000년대 이후 IT 산업은 대형 인터넷 기업을 필두로 효율성이라는 명목하에 중앙화된 데이터 시스템을 유지했습니다. 사용자의 데이터는 오히려 그 기업의 권력과 자산이 되었지만, 정작 사용자에겐 이를 관리하고 견제할 수단도 보상도 없었습니다. 이는 결국 오늘날의 수많은 대규모 개인정보 유출 사태, 감청, 데이터 무단 판매 사례 등을 초래했습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment