Skip to content

Instantly share code, notes, and snippets.

@upepo
Created September 2, 2013 01:37
Show Gist options
  • Save upepo/6408539 to your computer and use it in GitHub Desktop.
Save upepo/6408539 to your computer and use it in GitHub Desktop.

기사 List up

12/13

NIPS2013

Python

Data Science

  • New to Data Science
  • The key word in "Data Science" is not Data, it is Science
  • 14 predictions about analytics in 2014
    1. Analysts will matter more than data scientists
    2. R will replace legacy SAS solutions and go mainstream
    3. Big Data will bring its “A game” in sports marketing
    4. Hadoop moves from curiosity to critical
    5. Gartner’s prediction that the line-of-business will drive analytics spend will happen
    6. Visual analytics continues to grow but users need more
    7. Analysts lives get more complex, but also easier
    8. Predictive analytics will no longer be a specialist subject
    9. Customer analytics is the next big marketing role
    10. A new analytics stack will emerge
    11. Location meets big data analytics
    12. NoSQL meets analytics

ETC

12/5

12/4

애플

11/29

오랜만에. 겨울을 맞이하는 업데이트.

시각화

재밌는 기사

학습자료

언제나 느끼는 것. 자료는 많고 공부하기는 싫다.

11/15

  • Five Fundamental Concepts of Data Science

    1. Begin with the end in mind!
      • we should ask: What is the goal? What are we trying to achieve? How do we know if we are successful? If possible, we should quantify these end-goals with metrics – measurable outcomes, with some estimate of the “success threshold.”
    2. Know your data!
    3. Remember that this *is* science!
      • we must remember that we are experimenting with data selections, data combinations, algorithms, combinations (ensembles) of algorithms, success metrics, accuracy measures, and more. All of these items should, at some point, be tested for their validity and applicability to the problem that you are trying to solve. We may know from past experience that a certain combination of data, features, and algorithms will satisfy our needs, but even that past experience was learned (not guessed). Remember this aphorism: “Good judgment comes from experience, and experience comes from bad judgment.”
    4. Data are never perfect, but love your data anyway!
    5. Overfitting is a sin against data science!
  • 구글, 모든 책을 스캔할 수 있는 권리 획득

  • Deep Learning 101

    • 딥러닝 101
  • Scala documents

11/13

11/12

11/11

  • 헬로네이처, 국내 최초 직거래 농산물 ‘소포장 묶음 배송’ 실시
    • 농산물 소규모 직거래는 중간 유통을 줄이면서 좋은 물건을 합리적으로 구매 할수 있다는 장점이 있다.
      • 역설적으로 가능한 이유는 이른바 '택배' 서비스의 발달과 가격인하 인데, 유통을 대기업이 잠식했기 때문에 가능한..
      • 물론, 인터넷의 힘이 가장크다.
    • 이 추세를 조금 넓게 보면, 재화의 생산자가 기업뿐만 아니라 개인이 생산하는 시대가 이미 와버렸다.
      • 핸드매이드, 빈티지, 예술품 등을 사고파는 etsy
      • 남는 방이나 집을 빌려주는 airbnb
      • 제러미 리프킨이 '3차 산업혁명'에서 언급했듯이 에너지도 개인이 생산하고 매매하는 시대
      • 텃밭에서 농산물을 생산했어도 품질이 좋고, 특별하면 판매 할수도..
    • 이 경제에 편승하고 싶다면,
      • 개인 생산자가 되거나
      • 유통을 하거나 (인터넷 사이트)
      • 수많은 물건들 중에 원하는 재화를 쉽게 찾을수 있게 해주거나 추천을 해주거나

- 용어

  • Memoryless Property
    • P(X>t+s | X>t) = P(X>s)
    • 확률변수 X가 지수분포, 기하분포를 따를 때

11/6

  • 구글 직원이 말하는 '구글에서 일하면 나쁜점'

    • 구글은 강항 브랜드와 경쟁력있는 월급으로 똑똑한 인재들을 데려오지만, 막상 그런 인재들이 하찮은 일을 하게 되는 경우가 많다. 아이비리그등 최고의 대학교를 나온 인재가 유튜브에서 적절치 않은 내용이라고 신고 들어온 비디오 삭제하는 일을 하게 되는 경우도 있다.
    • 엔지니어들 상당수가 거만하다 — 대부분의 엔지니어가 자신이 다른 사람보다 우월하다고 생각하며 이러한 문화가 생산적인 토론에 큰 방해가 된다.
    • 구글은 이미 스타트업이 아니고 큰 회사가 되어 뭔가 개인적인 임팩트를 남기기가 어려워졌다.
    • 구글은 엔지니어링은 이해하고 있지만, 디자인은 못한다 — 구글이 실패한 많은 프로젝트들 (Wave, Google Video, Buzz등) 을 보면 엔지니어링적인 면에만 신경쓴 나머지 시각 디자인을 놓쳤다
    • 회사에서 오퍼한게 있으면 반드시 문서로 받아두어라 — 구글이 인재를 끌어오기 위해서 이런 저런 불투명한 약속을 하고 잘 지키지 않는 경우가 있다
  • R and My Divorce From Word

    • MS워드에서 R로 문서 작업을 옮기려 할때 유용한 링크들
  • Strata Conference + Hadoop World 2013 유튜브 채널

    • 스트라타 + 하둡월드 2013 유튜브 채널

학습자료

10/27

자료

재밌는 기사

10/22

10/10

- 용어 or Inspiration

  • Red Team
    • 최근 **'뉴스룸 시즌2'**를 보고 있는데, **'레드팀(Red team)'**이라는 용어가 나옵니다.
    • 뉴스 기사를 준비를 할 때, 뉴스룸의 일부 맴버들은 준비과정에서 제외됩니다. 이 제외된 사람들을 **'레드팀'**이라 부릅니다.
    • 기사 준비가 끝나면, 기사 내용은 ’레드팀’에 공개되고 공격을 받습니다. 해당 기사는 새로운 시선에 의해서 팩트, 논리, 적합성 등을 평가받습니다. 준비에 참여했던 맴버들은 그 안에 있기 때문에 놓치는 부분이 있을 수 있기 때문이죠.
    • 이른바 '미디어 엘리트'라고 불리는 이들이 자신의 의견을 끈임없이 의심하는 것과 중요한 문제일수록 '능력자'를 준비에 투입하기 보다는 끝까지 '레드팀'에 남겨두려고 하는 부분은 인상적입니다.
    • 일반적으로 준비를하는 쪽에서는 '우리가 더 많이 안다'라는 생각으로 경험이 없는 사람들의 의견을 무시하기 마련이죠.
      • '내가 해봐서 안다'도 있지만, '내가 해봐서 모른다'의 부분도 분명이 있다고 생각합니다.
      • 그래서 회사에서는 신입사원의 의견을 잘 들어야하죠. 회사에 오래된 맴버는 오래되었기 때문에 못보는 것들이 있습니다.
    • 데이터 분석에 있어서도 내용을 모르는 사람들에 의한 혹독한 공격이 필요합니다. 특히나 중요한 건에 대해서는.

- 읽을거리


10/8

- 소식

  • 추석연휴와 안식휴가로 1달정도 공백.
  • 재밌어 보이는 기사가 안 보이지만, 일단 다시 시작.

- 알아두면 유용한 것들

  • 블룸 필터 Bloom Filter

    • 원소가 집합에 속하는지 여부를 검사하는데 사용되는 확률적 자료 구조
    • 어떤 원소가 집합에 실제로 속하지 않아도 속한다고 판단하는 오류는 발생
    • 어떤 원소가 집합에 속했는데, 속하지 않았다고 판단하는 오류는 절대 발생하지 않음
    • O(k), k는 사용하는 해쉬함수 개수
    • 분석할 데이터의 크기를 빠르게 줄이려고 할때 유용.
  • simhash

    • 단어셋이 유사한지 비교
    • 단에셋의 단어들을 해쉬값으로 변형하고, 각 해쉬값을 가지고 고정된 자리수의 bit에 값을 가감을 하면서 simhash를 계산
    • 유사문서(near-duplicate document) 찾아내는 작업을 빠르게 할수 있음

- 읽을거리


9/13

- 소식

- 읽을거리

  • 폴 그레이엄의 해커와 화가 Hackers and Painters

    • 폴 그레이엄Paul Graham의 에세이 ‘해커와 화가’ 번역을 총 5회에 걸쳐 게재
    • Y combinator를 창업한 폴 그레이엄은 Dropbox, Reddit, Airbnb등의 스타트업을 키워낸 대가로, 투자자이면서도 뛰어난 프로그래머이며 수필가로도 명성
    • "해커와 화가의 공통점은 둘 다 maker(만들어내는 사람들)이라는 점이다."
  • 무신론자도 신의 용서를 받을 수 있다는 교황의 말

    • 후란치스코 교황은 무신론자라도 윤리적이고 양심에 따라 산다면 신은 무신론자를 용서할 것
    • 'La Repubblica'라는 신문에서 편집인들이 ‘기독교의 신은 신을 믿지 않고 신앙을 찾지 않는 사람을 용서할 것인가?’라는 의문을 제시했는데, 교황이 그것에 답변.

9/12

  • 영화에서처럼 ‘잘린 손가락’으로도 작동하는지 궁금해 하는 사람들이 있는데, 월스트리트 저널에 따르면, 최근 지문 스캐너는 vital sign (생명신호)를 감지하기 때문에 몸에서 분리된 손가락으로는 작동하지 않는다고 한다.

- 기타


9/11

  • 카메라가 좋아지고(조리개 f/2.2), 가격이 저렴 한듯.
  • 지문인식으로 연인의 핸드폰을 맘대로 열수 없게 되겠네요...
  • iOS 7 정식 버전은 9월 18일에 공개
  • iWork 및 iLife 시리즈 무료화
  • 모바일폰 중 최초로 아이폰 5s에 "64비트" A7 프로세서 탑재
  • 아이폰 5s에는 A7 프로세서와 함께 M7이라는 모션 처리를 전담하는 M7 프로세서 탑재
  • 월등히 개선된 아이폰 5s 카메라
  • 지문 인식 센서
  • '하우스 오브 카드'는 정말 재밌습니다.
    • 프리 과정부터 데이터분석을 통해서 가장 인기있을 만한 '주제', '배우', '감독'을 선택했다는 소문
    • 사내 데이터분석의 입지가 높아 졌다고..
  • 채널없는 방송과 이어지는 흐름. 느낌 알죠? ;
  • 명철님 블로그입니다.

ssh remote 'cat huge_file.txt' | hadoop fs -put - /hdfs_path/huge_file.txt

- 기타


9/10

  • 유창한 강의를 들은 참가자들은 미숙한 강의를 들은 참가자들에 비해 자기들이 더 많은 내용을 기억해내리라 예상했지만, 실제로는 그렇지 못했습니다.
    • 참가자들이 써낸 답을 면밀히 분석한 결과, 유창한 강의를 듣든 미숙한 강의를 듣든 기억해낸 정보는 차이가 나지 않았으니까요.
  • 왜 유창한 강의를 들을 때 더 많이 배우고 있다고 착각하는 걸까요?
    • 카펜터는 전문가적인 분위기가 뿜어져 나오는 사람을 볼 때 우리는 그가 전문성을 갖추기까지 얼마나 고된 과정을 거쳤는지 알아차리지 못하고 그런 전문성을 ‘쉽게 보는’ 경향이 있다고 지적합니다.
    • 강사가 유창하게 지식을 전달하면 그 지식을 얻기까지의 어려움을 인식하지 못하고 은연 중에 그 지식을 ‘쉽게만’ 본다는 것이죠.
    • 그래서 어떤 강의를 들은 후에 교육의 효과를 스스로 측정하고자 한다면 ‘얼마나 강사의 말을 잘 이해했는가?’가 아니라 ‘나는 강사가 말한 내용을 명확하게 설명할 수 있는가?’가 되어야 한다고 카펜터는 말합니다.
  • LINE 잘나가네요..
  • 스마트폰 사용자들 중 63%가 ‘이용하고 있음’이라고 응답
  • 10~20대 여성의 경우 80% 이상이 이용하고 있다고 응답
  • 전체 스마트폰 사용자들 중 98%가 LINE 앱을 인지

- Some Quotes

"In Data Science, 80% of time spent prepare data, 20% of time spent complain about need for prepare data."

- 강의추천

- 기타


9/9

  • 전세계 앱 시장 조사결과에서 라인이 게임을 제외한 구글플레이 월간기준 수익 1위 앱.
  • 지난 6월에 이어 두 달 연속 1위..
  • 희망연봉을 이야기한다면 3000만원 혹은 4500만원이라고 이렇게 말할 것이 아니라 3124만원 혹은 4497만원이라고 말해야 고용주로부터 연봉 조정(보통은 깎기 위한 조정)을 덜 당한다..
  • 왜 뭉뚱그린 숫자가 상대적으로 가격 조정을 크게 받을까요?
    • 이에 대해서는 추가적으로 연구가 필요하겠지만, 추측하건대 숫자가 구체적이지 않으면(예를 들어 3000만원), 금액을 제안 받은 사람은 제안자가 원래의 값(이를테면 2786만원)을 ‘대충’ 끌어 올렸거나 어떤 정보를 숨긴다고 느끼기 때문일지 모릅니다.
  • Mason, M. F., Lee, A., Wiley, E., & Ames, D. R. (2013). Precise offers are potent anchors: Conciliatory counteroffers and attributions of knowledge in negotiations. Journal of Experimental Social Psychology.
  • 구글 벤처스는 우리나라에도 고급 택시 서비스를 시작한 우버(Uber)에 수백 만 달러를 투자한 상태.
  • 커다란 소문. "구글이 직접 무인자동차를 설계 및 개발하는 작업에 들어갔다."
  • 두 가지 상황을 조합하면 구글이 앞으로 무인자동차를 출시해서 일반에게 판매하기 보다는 무인택시 사업을 진행할 것으로 예상된다. (글쓴이 추측)
  • Storm 기본개념
  • 자료는 넘처나지만 공부할 시간이 없다는게 함정..

9/6

  • 영국 정부의 디지털 서비스 설계 10대 원칙
    1. 사용자에게 필요한 것에서 시작하라.
    2. 정부만 할 수 있는 것에 집중하라.
    3. 데이터에 기반하여 설계하라.
    4. 사용하기 쉽게 하기 위해 수고를 마다하지 말라.
    5. 빨리 선보이고, 피드백 받고, 이 사이클을 여러 번 반복하라.
    6. 다양한 사용자를 감안하여 설계하라.
    7. 사용자가 서비스를 사용하는 상황을 고려하라.
    8. 디지털 서비스를 만들라. 웹사이트가 아니라.
    9. 일관성은 지키되 획일적이지는 말라.
    10. 공유하라. 사람들이 참여하고, 서비스는 개선될 것이다.
  • 영국 정부 사이트
  • 영국 정부 사이트 소프트웨어 스택
    • 대부분 오픈소스를 사용
  • 책도 구매가 아닌 서비스 이용의 방향으로..
  • 진격의 삼성.
  • 개인의 생활 패턴을 분석해주는 서비스를 하면 좋을것 같은 생각을 했었는데..
  • 허벅지를 찌르는게 죽을 확률도 높고, 재판과정에서 죽이려는 의도는 없었다고 변명할 여지가 있다고 하네요.. ;;

9/5

[Topsy, 2006년부터 존재하는 모든 트윗 검색] (http://techneedle.com/archives/12510)

  • Topsy <- 요기
  • 링크, 트윗 이미지, 동영상, 영향력있는사람(influencers) 별로 검색 가능.
  • 한글지원!!
  • Social search, Social analytics, Social trends..
  • 이효리 vs 아이유 vs 수지

[삼성, 스마트 시계 '갤럭시 기어' 공개] (http://techneedle.com/archives/12499)


9/4

  • 집안일, 심부름, 비용청구 같은 일들을 자동으로 처리해주는 스타트업.
  • B2B로 각 업체랑 계약을 맺고, 사용자가 등록한 시간에 자동으로 업무를 진행해 주는것 같습니다.
  • 기존 '일정등록 및 알람'만 해주던 서비스에 실제로 업무를 진행해 주는 부분이 추가.
  • 본문에 중요 부분을 바로 트윗을 날릴수 있는 UI가 추가 되었네요.
  • 테스트 링크
  • 팀의 포커스가 없다.
  • 상부의 지시가 불명확해 추측에 의존해야 한다.
  • 성과에 대한 피드백이 없다.
  • 가끔 인턴이 중요사항을 결정내리기도 한다.
  • 친구들이 페이스북을 쓰다가 불만이나 모르는 사랑이 있으면 날 붙들고 귀찮게 한다.

9/3

  • 한국에서도 드라마나 쇼프로를 본래 채널의 정규 방송으로 보는 시청자는 줄어 들고 있는것 같습니다.
  • 얼마전 '하우스 오브 카드'라는 미드는 방송없이 넷플릭스에서 한번에 릴리즈가 되었죠.
  • 전통적인 산업들이 인터넷을 기반으로 모습이 변해가는 것 같습니다.

9/2

  • 전통적 비즈니스 관점에서의 질문들:
    • 어떻게 1등을 (유지)할 것인가?
    • 고객을 어떻게 Lock-in 시킬 것인가?
    • 무엇을 얼마에 팔 것인가?
    • 회원수가 몇 명인가?
  • 네트워크 관점:
    • 지금 이순간 성장을 멈추지 않기 위해 무엇을 하고 있는가?
    • 고객(콘텐츠)이(가) 지금 고립되어 있지는 않은가?
    • 무엇을 어떻게 연결할 것인가? (아마존의 연결 비즈니스)
    • 얼마나 많은 고객들이 어떤 매개활동을 하고 있는가?

8/30

  • R > Python > SQL > SAS > Java > Matlab ...
  • Data Science for Business
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment