- 이번 NIPS가 성공적이었나 봅니다.
- 13 NIPS papers that caught our eye
- NIPS 2013: Interesting looking papers
- A good NIPS!
- New to Data Science
- The key word in "Data Science" is not Data, it is Science
- 14 predictions about analytics in 2014
- Analysts will matter more than data scientists
- R will replace legacy SAS solutions and go mainstream
- Big Data will bring its “A game” in sports marketing
- Hadoop moves from curiosity to critical
- Gartner’s prediction that the line-of-business will drive analytics spend will happen
- Visual analytics continues to grow but users need more
- Analysts lives get more complex, but also easier
- Predictive analytics will no longer be a specialist subject
- Customer analytics is the next big marketing role
- A new analytics stack will emerge
- Location meets big data analytics
- NoSQL meets analytics
-
- 내년에는 실력을 좀 늘려볼까해서 기억해낸 글
-
How to Start Thinking Like a Data Scientist
- Find a good question,
- collect the data,
- analyze,
- ask "so what?"
-
How Google's "Deep Learning" Is Outsmarting Its Human Employees
- If this doesn't terrify you... Google's computers OUTWIT their humans
- 'Deep learning' clusters crack coding problems their top engineers can't
- If this doesn't terrify you... Google's computers OUTWIT their humans
-
- 아, 요즘 같은 세상에서는 불교에서 말하는 해탈만 해도 그 첫 단계는 스마트폰없이 며칠이라도 살 수 있게끔 자아 독립 정신을 스스로 연마하는 게 아니겠는가? 팔정도 (八正道) 실천 이전에 “스마트폰으로부터의 해방”은 먼저의 순서가 아닐까?
-
Facebook Tweaks News Feed for More 'High Quality' Content
- 얼마나 나에게 맞는걸 추천해 주는가도 중요하지만, 좋은 컨텐츠 자체에 대한 추천이 더 중요해 보인다.
- 친구들에게 '책', '음악', '죽이는 무언가!' 를 추천할 때 상대방의 성향보다는 '죽이는 무언가!'가 중요하지 않은가?
-
Japan Wants to Ring the Moon With Solar Panels to Power the Earth
- 달을 애둘러서 태양열 패널을 설치하려는..
-
- Unraveling the story behind the stereotype of video games being for boys.
- 애플, 트윗 분석회사 Topsy 인수
- Topsy가 애플로 가네요..
- 애플, 데스크톱 무선 충전 시스템과 차세대 맥 프로 디자인 특허 획득
- 애플, 얼굴인식 잠금해제 특허 획득
- 애플의 유니버설 결제 플랫폼
오랜만에. 겨울을 맞이하는 업데이트.
-
Python Displacing R As The Programming Language For Data Science
- 데이터사이언스 분야에서 python이 R을 빠르게 대체하고 있다는..
-
- Hive, Impala, Apache Drill, Presto, Tajo 비교해서 깔금하게 정리!
-
Facebook testing new bookmarks/favorites feature to save great content
- 좋은 컨텐츠를 찾는데는, 역시나 북마크 된 문서인지를 보는게 역시나 중요.
- 북마킹 시스템을 제공하는 회사는 양질의 데이터를 얻을 수 있을 텐데..(서비스가 돈이 벌리는지 아닌지 문제를 떠나서)
-
온라인 광고, '허위노출' 피하려 페이스북, 구글 등으로 몰려
- 노출형광고(DA)의 15%가 허위 노출인 것으로 집계된다고..
- 스패머를 찾는 일과 스패머가 되는 일. 일자리 두 배.
-
- 분석한 데이터를 웹으로 비쥬얼라이즈 할때 유용할것 같은데. 유료.
-
The 50 Free Apps We're Most Thankful For
- 안써본게 있으면 한번씩 사용해 보세요.
-
The Surprisingly Complex Way That Scientists Measure Sea Level
- 해발고도 측정하는 방법인데 재밌네요.
- 바다의 높이가 일정한게 아니라서..
언제나 느끼는 것. 자료는 많고 공부하기는 싫다.
-
Five Fundamental Concepts of Data Science
- Begin with the end in mind!
- we should ask: What is the goal? What are we trying to achieve? How do we know if we are successful? If possible, we should quantify these end-goals with metrics – measurable outcomes, with some estimate of the “success threshold.”
- Know your data!
- Remember that this *is* science!
- we must remember that we are experimenting with data selections, data combinations, algorithms, combinations (ensembles) of algorithms, success metrics, accuracy measures, and more. All of these items should, at some point, be tested for their validity and applicability to the problem that you are trying to solve. We may know from past experience that a certain combination of data, features, and algorithms will satisfy our needs, but even that past experience was learned (not guessed). Remember this aphorism: “Good judgment comes from experience, and experience comes from bad judgment.”
- Data are never perfect, but love your data anyway!
- Overfitting is a sin against data science!
- Begin with the end in mind!
-
- 딥러닝 101
-
Scala documents
-
Apple Patent Supports Rumors of Pressure-Sensitive Touchscreens
- 루머: 터치스크린을 누르는 강도에 대한 특허
-
- 이제야...
-
- 동영상 서비스이니까..
-
The biggest challenge of data science is framing the problem
- “I thought the biggest thing we’d be dealing was data related, that we were going to bring all these data scientists in, but frankly the biggest aspect is actually the framing of the problem: really finding the question. As any good data scientist will tell you, it’s not so much about the data, it’s the question you start with.”
-
Messaging App Line Now Brings In Nearly $100M A Quarter, But No Official Word On An IPO
- 라인은 계속 잘나가네요.
-
Introduction to Machine Learning
- CMU 2013 머신러닝 강좌
- 동영상 포함
- 헬로네이처, 국내 최초 직거래 농산물 ‘소포장 묶음 배송’ 실시
- 농산물 소규모 직거래는 중간 유통을 줄이면서 좋은 물건을 합리적으로 구매 할수 있다는 장점이 있다.
- 역설적으로 가능한 이유는 이른바 '택배' 서비스의 발달과 가격인하 인데, 유통을 대기업이 잠식했기 때문에 가능한..
- 물론, 인터넷의 힘이 가장크다.
- 이 추세를 조금 넓게 보면, 재화의 생산자가 기업뿐만 아니라 개인이 생산하는 시대가 이미 와버렸다.
- 핸드매이드, 빈티지, 예술품 등을 사고파는 etsy
- 남는 방이나 집을 빌려주는 airbnb
- 제러미 리프킨이 '3차 산업혁명'에서 언급했듯이 에너지도 개인이 생산하고 매매하는 시대
- 텃밭에서 농산물을 생산했어도 품질이 좋고, 특별하면 판매 할수도..
- 이 경제에 편승하고 싶다면,
- 개인 생산자가 되거나
- 유통을 하거나 (인터넷 사이트)
- 수많은 물건들 중에 원하는 재화를 쉽게 찾을수 있게 해주거나 추천을 해주거나
- 농산물 소규모 직거래는 중간 유통을 줄이면서 좋은 물건을 합리적으로 구매 할수 있다는 장점이 있다.
- Memoryless Property
- P(X>t+s | X>t) = P(X>s)
- 확률변수 X가 지수분포, 기하분포를 따를 때
-
- 구글은 강항 브랜드와 경쟁력있는 월급으로 똑똑한 인재들을 데려오지만, 막상 그런 인재들이 하찮은 일을 하게 되는 경우가 많다. 아이비리그등 최고의 대학교를 나온 인재가 유튜브에서 적절치 않은 내용이라고 신고 들어온 비디오 삭제하는 일을 하게 되는 경우도 있다.
- 엔지니어들 상당수가 거만하다 — 대부분의 엔지니어가 자신이 다른 사람보다 우월하다고 생각하며 이러한 문화가 생산적인 토론에 큰 방해가 된다.
- 구글은 이미 스타트업이 아니고 큰 회사가 되어 뭔가 개인적인 임팩트를 남기기가 어려워졌다.
- 구글은 엔지니어링은 이해하고 있지만, 디자인은 못한다 — 구글이 실패한 많은 프로젝트들 (Wave, Google Video, Buzz등) 을 보면 엔지니어링적인 면에만 신경쓴 나머지 시각 디자인을 놓쳤다
- 회사에서 오퍼한게 있으면 반드시 문서로 받아두어라 — 구글이 인재를 끌어오기 위해서 이런 저런 불투명한 약속을 하고 잘 지키지 않는 경우가 있다
-
- MS워드에서 R로 문서 작업을 옮기려 할때 유용한 링크들
-
Strata Conference + Hadoop World 2013 유튜브 채널
- 스트라타 + 하둡월드 2013 유튜브 채널
- 머신러닝 시작하기
- Devon2013에서 사용했던 자료
- Simpson's Paradox 설명
- 인터랙티브
- 설명하는 형식만으로도 가치가 있을듯
- 연구실 페이지에도 볼만한 자료가 많아 보임
- Introduction to Data Processing with Python
- Conjugate prior relationships
-
Why being a thinker means pocketing your smartphone
- 따분함이 필요하다.
- http://intheline.tumblr.com/post/53359503388
-
오토 드라이빙이 사고율을 떨어트린다는 기사들
-
데이터 사이언스 관련 논문들
-
- DDoS 공격에 취약한 사이트들을 구글 서버에 올려서 보호해 줍니다.
- 디지털 공격 지도(Digital Attack Map)
- 전세계에서 일어나는 공격을 실시간으로 보여줍니다.
- DDoS에 대한 설명도 있고, gallery에는 6월 25일 한국에 있었던 공격도 있군요.
-
- 파일을 암호화 시켜놓고, 돈을 요구합니다.
-
- R의 ggplot2를 python에서.
- Red Team
- 최근 **'뉴스룸 시즌2'**를 보고 있는데, **'레드팀(Red team)'**이라는 용어가 나옵니다.
- 뉴스 기사를 준비를 할 때, 뉴스룸의 일부 맴버들은 준비과정에서 제외됩니다. 이 제외된 사람들을 **'레드팀'**이라 부릅니다.
- 기사 준비가 끝나면, 기사 내용은 ’레드팀’에 공개되고 공격을 받습니다. 해당 기사는 새로운 시선에 의해서 팩트, 논리, 적합성 등을 평가받습니다. 준비에 참여했던 맴버들은 그 안에 있기 때문에 놓치는 부분이 있을 수 있기 때문이죠.
- 이른바 '미디어 엘리트'라고 불리는 이들이 자신의 의견을 끈임없이 의심하는 것과 중요한 문제일수록 '능력자'를 준비에 투입하기 보다는 끝까지 '레드팀'에 남겨두려고 하는 부분은 인상적입니다.
- 일반적으로 준비를하는 쪽에서는 '우리가 더 많이 안다'라는 생각으로 경험이 없는 사람들의 의견을 무시하기 마련이죠.
- '내가 해봐서 안다'도 있지만, '내가 해봐서 모른다'의 부분도 분명이 있다고 생각합니다.
- 그래서 회사에서는 신입사원의 의견을 잘 들어야하죠. 회사에 오래된 맴버는 오래되었기 때문에 못보는 것들이 있습니다.
- 데이터 분석에 있어서도 내용을 모르는 사람들에 의한 혹독한 공격이 필요합니다. 특히나 중요한 건에 대해서는.
-
Your Graphs Look Like Crap: 9 Ways to Simplify and Sexify Data
- 꼭 필요한것만 남기면 됩니다.
-
More Complex in Asia: Mapping the Most Visited Website by Country
- 한국은 잘못 분석 된 것 같은데(Baidu가 가장 많이 방문산 사이트), 본문에 해당 내용을 이야기하고 있긴 하네요.
- 이전에 분석했을 때는 'Naver'가 가장 많이 방문된 사이트였는데 'Baidu'로 바뀐것에 대한 이상함.
-
Code Webs - Visualizing 40,000 student code submissions
- Coursera의 ML수업에서 제출된 과제를 시각화.
- 추석연휴와 안식휴가로 1달정도 공백.
- 재밌어 보이는 기사가 안 보이지만, 일단 다시 시작.
-
- 원소가 집합에 속하는지 여부를 검사하는데 사용되는 확률적 자료 구조
- 어떤 원소가 집합에 실제로 속하지 않아도 속한다고 판단하는 오류는 발생
- 어떤 원소가 집합에 속했는데, 속하지 않았다고 판단하는 오류는 절대 발생하지 않음
- O(k), k는 사용하는 해쉬함수 개수
- 분석할 데이터의 크기를 빠르게 줄이려고 할때 유용.
-
- 단어셋이 유사한지 비교
- 단에셋의 단어들을 해쉬값으로 변형하고, 각 해쉬값을 가지고 고정된 자리수의 bit에 값을 가감을 하면서 simhash를 계산
- 유사문서(near-duplicate document) 찾아내는 작업을 빠르게 할수 있음
-
- 트위터는 트윗으로 발표를 하는군요.
-
‘밴드’ 월간 앱 구동수 15억회 돌파: 일본, 대만, 미국.. 서비스 확산에 가속
- 밴드도 잘나가고 있는것 같네요.
-
완전히 새로워진 Chrome용 Evernote Web Clipper 6
- 좋아 졌네요.
-
오프라인 쇼핑과 온라인 쇼핑의 벽을 허물다.- Pickn’ tell
- 쇼핑과 패션에 대한 니즈는 끝이 없을것 같습니다.
-
- 전기가 몸을 통과 할것 같아서 왠지 찜찜합니다.
-
폴 그레이엄의 해커와 화가 Hackers and Painters
- 폴 그레이엄Paul Graham의 에세이 ‘해커와 화가’ 번역을 총 5회에 걸쳐 게재
- Y combinator를 창업한 폴 그레이엄은 Dropbox, Reddit, Airbnb등의 스타트업을 키워낸 대가로, 투자자이면서도 뛰어난 프로그래머이며 수필가로도 명성
- "해커와 화가의 공통점은 둘 다 maker(만들어내는 사람들)이라는 점이다."
-
- 후란치스코 교황은 무신론자라도 윤리적이고 양심에 따라 산다면 신은 무신론자를 용서할 것
- 'La Repubblica'라는 신문에서 편집인들이 ‘기독교의 신은 신을 믿지 않고 신앙을 찾지 않는 사람을 용서할 것인가?’라는 의문을 제시했는데, 교황이 그것에 답변.
- 영화에서처럼 ‘잘린 손가락’으로도 작동하는지 궁금해 하는 사람들이 있는데, 월스트리트 저널에 따르면, 최근 지문 스캐너는 vital sign (생명신호)를 감지하기 때문에 몸에서 분리된 손가락으로는 작동하지 않는다고 한다.
- 레이첼 보츠먼 : 협력적 소비에 대한 옹호
- Trustcloud
- 인터넷 사용이력을 분석해서 얼마나 신뢰할만한 사람인지를 측정하여 점수로 보여줌
- 공유서비스 기업들이 사용할수 있도록 API로 서비스
- Social Transparency in Networked Information Exchange: A Framework and Research Question
- 카메라가 좋아지고(조리개 f/2.2), 가격이 저렴 한듯.
- 지문인식으로 연인의 핸드폰을 맘대로 열수 없게 되겠네요...
- iOS 7 정식 버전은 9월 18일에 공개
- iWork 및 iLife 시리즈 무료화
- 모바일폰 중 최초로 아이폰 5s에 "64비트" A7 프로세서 탑재
- 아이폰 5s에는 A7 프로세서와 함께 M7이라는 모션 처리를 전담하는 M7 프로세서 탑재
- 월등히 개선된 아이폰 5s 카메라
- 지문 인식 센서
- '하우스 오브 카드'는 정말 재밌습니다.
- 프리 과정부터 데이터분석을 통해서 가장 인기있을 만한 '주제', '배우', '감독'을 선택했다는 소문
- 사내 데이터분석의 입지가 높아 졌다고..
- 채널없는 방송과 이어지는 흐름. 느낌 알죠? ;
- 명철님 블로그입니다.
ssh remote 'cat huge_file.txt' | hadoop fs -put - /hdfs_path/huge_file.txt
- 유창한 강의를 들은 참가자들은 미숙한 강의를 들은 참가자들에 비해 자기들이 더 많은 내용을 기억해내리라 예상했지만, 실제로는 그렇지 못했습니다.
- 참가자들이 써낸 답을 면밀히 분석한 결과, 유창한 강의를 듣든 미숙한 강의를 듣든 기억해낸 정보는 차이가 나지 않았으니까요.
- 왜 유창한 강의를 들을 때 더 많이 배우고 있다고 착각하는 걸까요?
- 카펜터는 전문가적인 분위기가 뿜어져 나오는 사람을 볼 때 우리는 그가 전문성을 갖추기까지 얼마나 고된 과정을 거쳤는지 알아차리지 못하고 그런 전문성을 ‘쉽게 보는’ 경향이 있다고 지적합니다.
- 강사가 유창하게 지식을 전달하면 그 지식을 얻기까지의 어려움을 인식하지 못하고 은연 중에 그 지식을 ‘쉽게만’ 본다는 것이죠.
- 그래서 어떤 강의를 들은 후에 교육의 효과를 스스로 측정하고자 한다면 ‘얼마나 강사의 말을 잘 이해했는가?’가 아니라 ‘나는 강사가 말한 내용을 명확하게 설명할 수 있는가?’가 되어야 한다고 카펜터는 말합니다.
- LINE 잘나가네요..
- 스마트폰 사용자들 중 63%가 ‘이용하고 있음’이라고 응답
- 10~20대 여성의 경우 80% 이상이 이용하고 있다고 응답
- 전체 스마트폰 사용자들 중 98%가 LINE 앱을 인지
- Harvard, CS109 Data Science
- 이번 학기 시작(2013 Fall), 강의자료, 동영상 모두 공개
- 커리큘럼이 괜찮아 보입니다. (A-Z)
- Probabilistic Programming and Bayesian Methods for Hackers
- Bayesian method 설명 및 코드 (python)
- 전세계 앱 시장 조사결과에서 라인이 게임을 제외한 구글플레이 월간기준 수익 1위 앱.
- 지난 6월에 이어 두 달 연속 1위..
- 희망연봉을 이야기한다면 3000만원 혹은 4500만원이라고 이렇게 말할 것이 아니라 3124만원 혹은 4497만원이라고 말해야 고용주로부터 연봉 조정(보통은 깎기 위한 조정)을 덜 당한다..
- 왜 뭉뚱그린 숫자가 상대적으로 가격 조정을 크게 받을까요?
- 이에 대해서는 추가적으로 연구가 필요하겠지만, 추측하건대 숫자가 구체적이지 않으면(예를 들어 3000만원), 금액을 제안 받은 사람은 제안자가 원래의 값(이를테면 2786만원)을 ‘대충’ 끌어 올렸거나 어떤 정보를 숨긴다고 느끼기 때문일지 모릅니다.
- Mason, M. F., Lee, A., Wiley, E., & Ames, D. R. (2013). Precise offers are potent anchors: Conciliatory counteroffers and attributions of knowledge in negotiations. Journal of Experimental Social Psychology.
- 구글 벤처스는 우리나라에도 고급 택시 서비스를 시작한 우버(Uber)에 수백 만 달러를 투자한 상태.
- 커다란 소문. "구글이 직접 무인자동차를 설계 및 개발하는 작업에 들어갔다."
- 두 가지 상황을 조합하면 구글이 앞으로 무인자동차를 출시해서 일반에게 판매하기 보다는 무인택시 사업을 진행할 것으로 예상된다. (글쓴이 추측)
- Storm 기본개념
- 자료는 넘처나지만 공부할 시간이 없다는게 함정..
- 영국 정부의 디지털 서비스 설계 10대 원칙
- 사용자에게 필요한 것에서 시작하라.
- 정부만 할 수 있는 것에 집중하라.
- 데이터에 기반하여 설계하라.
- 사용하기 쉽게 하기 위해 수고를 마다하지 말라.
- 빨리 선보이고, 피드백 받고, 이 사이클을 여러 번 반복하라.
- 다양한 사용자를 감안하여 설계하라.
- 사용자가 서비스를 사용하는 상황을 고려하라.
- 디지털 서비스를 만들라. 웹사이트가 아니라.
- 일관성은 지키되 획일적이지는 말라.
- 공유하라. 사람들이 참여하고, 서비스는 개선될 것이다.
- 영국 정부 사이트
- 영국 정부 사이트 소프트웨어 스택
- 대부분 오픈소스를 사용
- 책도 구매가 아닌 서비스 이용의 방향으로..
- 진격의 삼성.
- 개인의 생활 패턴을 분석해주는 서비스를 하면 좋을것 같은 생각을 했었는데..
- 전문가의 칼 솜씨 (번외)
- 허벅지를 찌르는게 죽을 확률도 높고, 재판과정에서 죽이려는 의도는 없었다고 변명할 여지가 있다고 하네요.. ;;
[Topsy, 2006년부터 존재하는 모든 트윗 검색] (http://techneedle.com/archives/12510)
- Topsy <- 요기
- 링크, 트윗 이미지, 동영상, 영향력있는사람(influencers) 별로 검색 가능.
- 한글지원!!
- Social search, Social analytics, Social trends..
- 이효리 vs 아이유 vs 수지
[삼성, 스마트 시계 '갤럭시 기어' 공개] (http://techneedle.com/archives/12499)
- 넥스트 머니 비트코인 이야기-#1 그들이 비트코인에 열광하는 이유
- 넥스트 머니 비트코인 이야기-#2 무엇이 새롭고 어떻게 운영되나
- 돈을 은닉할 수가 없어서 몇몇 국가에서는 공식적으로도 사용한다고 들었던 것 같습니다.
- 점점 사용이 확대대고 있네요.
- 집안일, 심부름, 비용청구 같은 일들을 자동으로 처리해주는 스타트업.
- B2B로 각 업체랑 계약을 맺고, 사용자가 등록한 시간에 자동으로 업무를 진행해 주는것 같습니다.
- 기존 '일정등록 및 알람'만 해주던 서비스에 실제로 업무를 진행해 주는 부분이 추가.
- 사이트가 좀 가짜스럽네요.
- 본문에 중요 부분을 바로 트윗을 날릴수 있는 UI가 추가 되었네요.
- 테스트 링크
- 팀의 포커스가 없다.
- 상부의 지시가 불명확해 추측에 의존해야 한다.
- 성과에 대한 피드백이 없다.
- 가끔 인턴이 중요사항을 결정내리기도 한다.
- 친구들이 페이스북을 쓰다가 불만이나 모르는 사랑이 있으면 날 붙들고 귀찮게 한다.
- 얼마전 이슈가 되었던 구글의 삼각관계랑도 이어지는 이야기.
- 한국에서도 드라마나 쇼프로를 본래 채널의 정규 방송으로 보는 시청자는 줄어 들고 있는것 같습니다.
- 얼마전 '하우스 오브 카드'라는 미드는 방송없이 넷플릭스에서 한번에 릴리즈가 되었죠.
- 전통적인 산업들이 인터넷을 기반으로 모습이 변해가는 것 같습니다.
- 전통적 비즈니스 관점에서의 질문들:
- 어떻게 1등을 (유지)할 것인가?
- 고객을 어떻게 Lock-in 시킬 것인가?
- 무엇을 얼마에 팔 것인가?
- 회원수가 몇 명인가?
- 네트워크 관점:
- 지금 이순간 성장을 멈추지 않기 위해 무엇을 하고 있는가?
- 고객(콘텐츠)이(가) 지금 고립되어 있지는 않은가?
- 무엇을 어떻게 연결할 것인가? (아마존의 연결 비즈니스)
- 얼마나 많은 고객들이 어떤 매개활동을 하고 있는가?
- R > Python > SQL > SAS > Java > Matlab ...
- Data Science for Business