mpco/下载知乎图片

## 下载知乎图片
#!/usr/bin/env python3
# -*- coding: UTF-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from urllib import request
from bs4 import BeautifulSoup
import re
import time
import sys
import os

# 加载webdriver路径
dirPath = os.path.dirname(os.path.realpath(__file__))
os.environ['PATH'] += (":" + dirPath)

# 打开网页
url = sys.argv[1]
answerID = url.split("/")[-1]
driver = webdriver.Chrome()
driver.get(url)

# 如果需要登录
try:
    assert "- 知乎" in driver.title
except AssertionError:
    assert "与世界分享你的知识、经验和见解" in driver.title
    signinButton = driver.find_element_by_xpath("//a[@href='#signin']")
    signinButton.click()
    input("请登录\n回车键以继续...")
assert "- 知乎" in driver.title

# 加载出所有答案
print("网页加载中...")
while True:
    # 等待加载
    time.sleep(5)
    # 拉到网页底部
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    try:
        moreAnswerButton = WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.XPATH, "//button[@class='Button QuestionMainAction']")))
        moreAnswerButton.click()
    except Exception as e:
        # print(e)
        break
input("回车 以开始处理网页....")

# 处理网页
html = driver.page_source

bsObj = BeautifulSoup(html, 'html.parser')
# 处理已加载的图片链接
dataList_1 = bsObj.findAll(name='img', attrs={
    'data-rawwidth': re.compile(r'\d{0,4}'), 'data-original': re.compile(r'https://')})
# 处理未加载的图片链接
dataList_2 = bsObj.findAll(name='div', attrs={
    'class': "VagueImage origin_image zh-lightbox-thumb", 'data-src': re.compile(r'https://')})

urlList_1 = [data.attrs['data-original'] for data in dataList_1]
urlList_1.extend([data.attrs['data-src'] for data in dataList_2])
# 以 _r 结尾的图片链接是原版的图片
urlList = [urlItem.replace("_b", "_r") for urlItem in urlList_1]

# 保存的文件夹
dirName = os.path.join(os.path.dirname(os.path.realpath(__file__)), time.strftime("%Y%m%d") + "-id" + answerID)
os.mkdir(dirName)

# 保存图片链接到文件
linkFilePath = os.path.join(dirName, "imgLink-id" + answerID + ".txt")
f = open(linkFilePath, 'w')
for index, imgUrl in enumerate(urlList):
    f.write(imgUrl + "\n")
    print("-----" + str(index + 1) + ":" + imgUrl + "-------")
f.close()

input("回车 以继续下载图片...")
driver.close()

# 下载图片
for index, imgUrl in enumerate(urlList):
    _, file_extension = os.path.splitext(imgUrl)
    with open(dirName + '/' + str(index + 1) + file_extension, 'wb') as w:
        w.write(request.urlopen(imgUrl).read())
    print("下载 第 " + str(index + 1) + " 张图片")
	#!/usr/bin/env python3
	# -- coding: UTF-8 --
	from selenium import webdriver
	from selenium.webdriver.common.by import By
	from selenium.webdriver.support.ui import WebDriverWait
	from selenium.webdriver.support import expected_conditions as EC
	from urllib import request
	from bs4 import BeautifulSoup
	import re
	import time
	import sys
	import os

	# 加载webdriver路径
	dirPath = os.path.dirname(os.path.realpath(__file__))
	os.environ['PATH'] += (":" + dirPath)

	# 打开网页
	url = sys.argv[1]
	answerID = url.split("/")[-1]
	driver = webdriver.Chrome()
	driver.get(url)

	# 如果需要登录
	try:
	assert "- 知乎" in driver.title
	except AssertionError:
	assert "与世界分享你的知识、经验和见解" in driver.title
	signinButton = driver.find_element_by_xpath("//a[@href='#signin']")
	signinButton.click()
	input("请登录\n回车键以继续...")
	assert "- 知乎" in driver.title

	# 加载出所有答案
	print("网页加载中...")
	while True:
	# 等待加载
	time.sleep(5)
	# 拉到网页底部
	driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
	try:
	moreAnswerButton = WebDriverWait(driver, 30).until(
	EC.presence_of_element_located((By.XPATH, "//button[@class='Button QuestionMainAction']")))
	moreAnswerButton.click()
	except Exception as e:
	# print(e)
	break
	input("回车以开始处理网页....")

	# 处理网页
	html = driver.page_source

	bsObj = BeautifulSoup(html, 'html.parser')
	# 处理已加载的图片链接
	dataList_1 = bsObj.findAll(name='img', attrs={
	'data-rawwidth': re.compile(r'\d{0,4}'), 'data-original': re.compile(r'https://')})
	# 处理未加载的图片链接
	dataList_2 = bsObj.findAll(name='div', attrs={
	'class': "VagueImage origin_image zh-lightbox-thumb", 'data-src': re.compile(r'https://')})

	urlList_1 = [data.attrs['data-original'] for data in dataList_1]
	urlList_1.extend([data.attrs['data-src'] for data in dataList_2])
	# 以 _r 结尾的图片链接是原版的图片
	urlList = [urlItem.replace("_b", "_r") for urlItem in urlList_1]

	# 保存的文件夹
	dirName = os.path.join(os.path.dirname(os.path.realpath(__file__)), time.strftime("%Y%m%d") + "-id" + answerID)
	os.mkdir(dirName)

	# 保存图片链接到文件
	linkFilePath = os.path.join(dirName, "imgLink-id" + answerID + ".txt")
	f = open(linkFilePath, 'w')
	for index, imgUrl in enumerate(urlList):
	f.write(imgUrl + "\n")
	print("-----" + str(index + 1) + ":" + imgUrl + "-------")
	f.close()

	input("回车以继续下载图片...")
	driver.close()

	# 下载图片
	for index, imgUrl in enumerate(urlList):
	_, file_extension = os.path.splitext(imgUrl)
	with open(dirName + '/' + str(index + 1) + file_extension, 'wb') as w:
	w.write(request.urlopen(imgUrl).read())
	print("下载第 " + str(index + 1) + " 张图片")