mizchi / TypeScript Meetup 2
- mizchi / 竹馬光太郎
- フロントエンドと Node.js
2022-12-10
2022.1
このプロジェクトに興味がある人はこの資料や GitHub リポジトリ に Star をつけてもらえると嬉しいです。
この記事はWebスクレイピング Advent Calendar 2017の17日目の記事です。puppeteerでクローリングします。
SPAみたいなちょっと凝ったWebサイトをクローリングするときは一昔前はSelenium + PhantomJSあたりが鉄板でしたが、今後はSelenium + Headless ChromeもしくはPuppeteer + Headless Chromeが主流となっていく見通しです。 (HeadlessとはGUIアプリケーションのGUIを介さないモードのことです。)
前者についてはWeb上に情報も多いですが、Puppeteerでクローリングする話をそんなに見ない気がするのでクローリングの歴史を踏まえてやってみます。
https://developers.google.com/web/progressive-web-apps/checklist (CC BY 3.0)
Lighthouse - Chrome ウェブストア でチェックできる
#!/usr/bin/env python | |
""" | |
Modification of `python -m SimpleHTTPServer` with a fallback to /index.html | |
on requests for non-existing files. | |
This is useful when serving a static single page application using the HTML5 | |
history API. | |
""" | |
#!/usr/bin/env python | |
# -*- coding:utf8 -*- | |
import optparse | |
import sys | |
from contextlib import closing | |
import yaml | |
import jinja2 | |
from openpyxl import load_workbook |
2023-10-04
@voluntas
2023.2