Sixzero/Zygote simple local min problem

## Zygote simple local min problem


X, Y = (Float32[-0.31125240132442067; 0.8163067649323273;;;],
        Float32[5.7064323; 2.599511;;;])

# w = randn(1,1,1) .* ones(2,1,1)
b = Float32[25.510088, ]
# b = randn(1,1,1) .* ones(2,1,1)
w = Float32[0.15980364, ]
modl(X,w,b) = begin
  (X .+ b) .* w
end
loss(Y, y) = sum((y .- Y).^2)
using Zygote
using Flux.Optimise: update!, Descent, ADAM, Momentum
opt = ADAM(0.01, (0.8,0.99)) # Gradient descent with learning rate 0.1
opt = Momentum(0.0001, 0.8) # Gradient descent with learning rate 0.1
# opt = Descent(0.0001, ) # Gradient descent with learning rate 0.1
println("Start")
@time for i in 1:40000
  grad = gradient((w,b)->loss(modl(X,w,b), Y), w,b)
  @show loss(modl(X,w,b), Y)
  update!(opt, w, grad[1])
  update!(opt, b, grad[2])

end
@show loss(modl(X,w,b), Y)


	X, Y = (Float32[-0.31125240132442067; 0.8163067649323273;;;],
	Float32[5.7064323; 2.599511;;;])

	# w = randn(1,1,1) .* ones(2,1,1)
	b = Float32[25.510088, ]
	# b = randn(1,1,1) .* ones(2,1,1)
	w = Float32[0.15980364, ]
	modl(X,w,b) = begin
	(X .+ b) .* w
	end
	loss(Y, y) = sum((y .- Y).^2)
	using Zygote
	using Flux.Optimise: update!, Descent, ADAM, Momentum
	opt = ADAM(0.01, (0.8,0.99)) # Gradient descent with learning rate 0.1
	opt = Momentum(0.0001, 0.8) # Gradient descent with learning rate 0.1
	# opt = Descent(0.0001, ) # Gradient descent with learning rate 0.1
	println("Start")
	@time for i in 1:40000
	grad = gradient((w,b)->loss(modl(X,w,b), Y), w,b)
	@show loss(modl(X,w,b), Y)
	update!(opt, w, grad[1])
	update!(opt, b, grad[2])

	end
	@show loss(modl(X,w,b), Y)