melissaboiko/compile-vocbras.sh

## compile-vocbras.sh
#!/bin/bash
#
# O "Vocabulário na Língua Brasílica", de 1621, é um dicionário jesuíta
# português/tupi antigo.  Uma versão digital por Ensjo está disponível em
# http://vlb.wikispaces.com/ .
#
# Este script simples adapta a versão wiki para:
#  1. formato texto .tsv, separado por tabs (bom para grep, cut e afins), e
#  2. formatos .index e .dict para o protocolo DICT (dictd, dict(1) etc.)
#
# Requisitos:
# - w3m
# - dictfmt
#
# Note que o dicionário usa ortografia do português antigo.  As entradas são
# grandes então provavelmente você vai querer usar alguma estratégia parcial do
# dict, como "word".
#
# —Leonardo Boiko <leoboiko@namakajiri.net>

set -e

baseurl="http://vlb.wikispaces.com/%21"
dbname=vocbras-por-tpw

tab="   "
for letter in A B C D E F G H I L M N O P Q R S T U X Z; do
  echo "Fazendo a letra $letter..." >&2
  w3m -cols 99999 -dump "http://vlb.wikispaces.com/%21$letter" 2>/dev/null \
    | grep -i "• $letter.*—" \
    | sed -e "s/^.*• //" \
      -e "s/\(.*\) *— *\(.*\)/\1$tab\2/" \
      -e "s/\. *$tab/$tab/"
done > $dbname.tsv

echo "Compilando .dict e .index..." >&2
sed -e "s/\(.*\)$tab\(.*\)/:\1:\2/" < $dbname.tsv \
  | dictfmt -j \
    -u http://vlb.wikispaces.com \
    -s "Vocabulario da Lingua Brasilica" \
    --utf8 \
    --locale 'pt_BR.UTF-8' \
    --allchars \
    $dbname
echo "Arquivos gerados: $dbname.tsv $dbname.dict $dbname.index"
	#!/bin/bash
	#
	# O "Vocabulário na Língua Brasílica", de 1621, é um dicionário jesuíta
	# português/tupi antigo. Uma versão digital por Ensjo está disponível em
	# http://vlb.wikispaces.com/ .
	#
	# Este script simples adapta a versão wiki para:
	# 1. formato texto .tsv, separado por tabs (bom para grep, cut e afins), e
	# 2. formatos .index e .dict para o protocolo DICT (dictd, dict(1) etc.)
	#
	# Requisitos:
	# - w3m
	# - dictfmt
	#
	# Note que o dicionário usa ortografia do português antigo. As entradas são
	# grandes então provavelmente você vai querer usar alguma estratégia parcial do
	# dict, como "word".
	#
	# —Leonardo Boiko <leoboiko@namakajiri.net>

	set -e

	baseurl="http://vlb.wikispaces.com/%21"
	dbname=vocbras-por-tpw

	tab=" "
	for letter in A B C D E F G H I L M N O P Q R S T U X Z; do
	echo "Fazendo a letra $letter..." >&2
	w3m -cols 99999 -dump "http://vlb.wikispaces.com/%21$letter" 2>/dev/null \
	\| grep -i "• $letter.*—" \
	\| sed -e "s/^.*• //" \
	-e "s/\(.\) — \(.\)/\1$tab\2/" \
	-e "s/\. *$tab/$tab/"
	done > $dbname.tsv

	echo "Compilando .dict e .index..." >&2
	sed -e "s/\(.\)$tab\(.\)/:\1:\2/" < $dbname.tsv \
	\| dictfmt -j \
	-u http://vlb.wikispaces.com \
	-s "Vocabulario da Lingua Brasilica" \
	--utf8 \
	--locale 'pt_BR.UTF-8' \
	--allchars \
	$dbname
	echo "Arquivos gerados: $dbname.tsv $dbname.dict $dbname.index"