Skip to content

Instantly share code, notes, and snippets.

@shawngraham
Last active October 20, 2024 00:27
Show Gist options
  • Save shawngraham/b47f68d0cdd9a2e4d2ece26626862c1f to your computer and use it in GitHub Desktop.
Save shawngraham/b47f68d0cdd9a2e4d2ece26626862c1f to your computer and use it in GitHub Desktop.
running qwen vision model on my machine, see https://simonwillison.net/2024/Sep/29/

running on an m1 mac mini

pip install uv

  $ uv run --with mlx-vlm \
  python -m mlx_vlm.generate \
  --model mlx-community/Qwen2-VL-7B-Instruct-4bit \
  --max-tokens 1000 \
  --temp 0.0 \
  --image https://carleton.ca/xlab/wp-content/uploads/page0-400x557.png \
  --prompt "Transcribe this page of italian handwriting."
@shawngraham
Copy link
Author

Works, but not great OCR.

@shawngraham
Copy link
Author

(and yeah, the web image is crap, but even with the full-rez version chez moi, not particularly good)

@shawngraham
Copy link
Author

better results:

uv run --with mlx-vlm \
  python -m mlx_vlm.generate \
  --model mlx-community/Qwen2-VL-7B-Instruct-4bit \
  --max-tokens 1000 \
  --temp 0.7 \
  --image elenco-pages/out0.jpg \
  --prompt "You are an expert at reading handwriting. Reconstruct the text. If you cannot, stop."```

@shawngraham
Copy link
Author

ok, so i have 16 gb on this machine. If the image is > 1 mb, can't make this work. But if I reduce it to about 800kb, I start getting nearly very good results on the handwritten Italian stratigraphic notes.

@shawngraham
Copy link
Author

Gemini Qwen2-VL
ELENCO DEGLI STRATI
US-0 = US-1 15/10/98 - da 0 e 50-60cm US-0 = US-1 13/10/98 - de 0 - e 50 - 60 cm
US-2 = Si può individuare alla [illegible] di un 60-70 cm dal piano di US-2 = Si individuare all'alto del terreno 60 - 70 cm del piano di muro compagno. Si notare il livello tenso, con falle precedenti del muro. Si notare la stessa preesistenza del muro. Si notare la stessa preesistenza del muro.
campagna -
Si compone di un livello terroso, con file presenze di malta
diverse, frammenti di mat. ceramici, pezzi di tegoli, pezzi di
pietre [illegible].
Si raccolgono 6 monete di bronzo. 13/10
US-3 = Strato terroso, friabile, di colore nerastro. US-3 = Trasforma l'aspetto tenso, pendolare, di colore nerastico.
(ex US-A) Tale strato si mette in luce sotto nel livello formato
da US-2
È ricchissimo di frammenti di materiale ceramico, frammenti
di vetro, ossa animali, alcune monete, frammenti di
metalli da costruzione.
US-4 = Strato terroso, più compatto rispetto a US-3, di colore US-4 = Strato tenso, più compatto rispetto a US-3, di colore giallo - arancione; tele colorazione è dovuta all'apertura acque o sortenno miele di melone.
(ex US-B) grigio-biancastro. Tale colorazione è dovuta all'elevata
concentrazione di malta o numerose minute disfettie
Si concentra in zone vicine ed alle sterne
prete di US-3
US-5 = Taglio rilevato nello strato terroso [illegible] US-3 US-5 = Togli scelto nello strato tenso fisibile - muro - tenso US-3.
(ex US-D) Il taglio, dalla forma meglio conservata ma leggermente visibile [illegible] di
1 e 1,50 m.
US-6 = Riempimento taglio US-5 composto da un sedimento terroso di colore US-6 = Premessamento, toglie US-5, composto di un resedimento tenso di colore.
(ex US-C) marrone-grigiastro ([illegible] di malta e [illegible]).
US-7 = Forme di forma tondeggiante scavate US-7 = Fossa di forza di forma tendente al sollevamento scelto nel US-3.
(ex US-E) nell'US-3.
Di forma si individuano solo
al margine NORD.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment