Skip to content

Instantly share code, notes, and snippets.

@aino-prashant
aino-prashant / ExtractedText
Created June 5, 2020 14:12
Tesserac-ocr extracted text
L'articolo 45 della Carta e un dovere compreso _ sticasisono natidalla voloniàdi riscatto,dalla ca-
è Parbietà di venir fuori dalle difficoltà facendo le-
ADESSO PIÙ CHE MAI % suileproprietorze suquelle dichi condivide
Îa stessa voglia di costruire uin futuro migliore per
TEMPO DI COOPERARE “eperlegenesazionifuture.licaratiere ciinter:
generazionalità fa della cooperazione una delle
forme di organizzazione economica più adatta a
costruire un futuro sostenibile dal punto di vita sia
G — Zo Ganoimi — economico sia socio ambientale.
@aino-prashant
aino-prashant / extractedText
Last active June 4, 2020 14:36
Tesseract Text Extraction
EL SuooLo IE SAVONA 21
servizi fer
ISSlaVV4Ri= Cao)
Il blocco di oltre due mesi ha paralizzato Motorizzazione e Scuole guida is LE
«Da noi cinquantenni in lacrime perché rischiano di perdere il posto» . er")
" | A Se
Esami per la patente, , 1
500 in lista d’attesa | ee
| port VI 7
«Ma a molti serve e e LN
@aino-prashant
aino-prashant / ConvertedHtml.html
Last active May 29, 2020 13:44
OCR Tesseract Extraction
<html xmlns="http://www.w3.org/1999/xhtml">
<body>
<div class="page" id="page_0" style="width:643pt;height:646pt;">
<div class="p" id="p0" style="bbox 453 22 461 30; x_wconf 37">.</div>
<div class="p" id="p1" style="bbox 49 22 111 73; x_wconf 93">La</div>
<div class="p" id="p2" style="bbox 123 19 475 73; x_wconf 90">Confesercenti:</div>
<div class="p" id="p3" style="bbox 467 64 475 73; x_wconf 44">.</div>
<div class="p" id="p4" style="bbox 138 94 146 102; x_wconf 39">.</div>
<div class="p" id="p5" style="bbox 251 94 259 102; x_wconf 34">.</div>
<div class="p" id="p6" style="bbox 338 94 346 102; x_wconf 52">.</div>
@aino-prashant
aino-prashant / ExtractedPlainText
Last active May 27, 2020 04:43
OCR Tesseract
Ristoratori, commercianti, parrucchieri: il punto su Verona
Non era semplice scon- gate le liberta personali ed mai fermate, quelle di prima
tentare tutti, ma il premier esimi giuristi, non certo que- necessita, e sarebbe stato
Conte, con I'ultimo decreto, sto giornale, stanno par- __folle il contrario. Alcuni im-
é riuscito nellimpresa. A lando apertamente di prov- _ prenditori in base ai codici
prescindere dalle simpatieo vedimenti incostituzionali. Ateco e al silenzio-assenso
antipatie politiche € un pro- Le categorie produttive so- delle prefetture si sono fatti
fluvio di proteste. Ai cittadini no in ginocchio. Alcune, ad il segno della croce (...)
sono state nuovamente ne- onor del vero, non si sono SEGUE A PAG.2
@aino-prashant
aino-prashant / Magazine Flow process 1
Last active May 19, 2020 07:08
Magazine Process:
- To find index pages using (Sumaario) text.
- Find page number and its corresponding heading.
normally index page look like as follows:
5. Title 1
20.Title 2
32. Title n
means Title1 has 15 pages 5 to 19 so we can consider Title1 as heading and all its pages are articles or text and images which talks about Title 1.
@aino-prashant
aino-prashant / FoundPerson.txt
Created January 23, 2020 13:32
Twitter scrapping
[Benini Simone]: #ugdp @BeniniSimone l'ultima volta che ho votato sinistra ho scelto i Ds. Il mio primo voto? Alla Lega...
[Benini Simone]: Facciamo un test di territorialità a @BeniniSimone: conoscerà a menadito la sua Emilia-Romagna?
[Benini Simone]: #ugdp l’appello di @BeniniSimone: fate voto disgiunto, votate Benini Presidente...
[Benini Simone]: #ugdp @BeniniSimone alleanze? In Emilia-Romagna meglio soli che male accompagnati...
[Benini Simone]: #ugdp @BeniniSimone se @sbonaccini perde non sarà colpa mia, si vede che non ha governato bene...
[Benini Simone]: #ugdp @BeniniSimone ho un terreno in collina e faccio il miele, ho cinque alveari e circa tremila api. Perché lo faccio? Mi rilassa...
[Benini Simone]: #ugdp @BeniniSimone io ho un terreno in collina e faccio il miele, ho cinque alveari...
[Benini Simone]: #ugdp @BeniniSimone il discorso Di Maio lo farò dopo le regionali? Lo farà perché il movimento terrà bene. Spero di avere un grande risultato per @Mov5Stelle.
package twitter;
import com.google.gson.Gson;
import com.google.gson.GsonBuilder;
import java.io.File;
import java.io.FileWriter;
import java.util.LinkedList;
import java.util.List;
import java.util.logging.Logger;
import org.junit.Test;
@aino-prashant
aino-prashant / FileElement.xml
Created October 18, 2019 04:55
Scrapper: File element
<target-source url="http://www.google.com/" web-browser="FIREFOX">
<execution-element type="flow">
<!-- file download completed -->
<execution-element type="file">
<action type="Unzip" src="downloaded/file/path" dest="new/path/" />
</execution-element>
<execution-element type="file">
20191011_larepubblica_nz_002_20191011_larepubblica_nz_003.pdf
20191011_larepubblica_nz_002.pdf
20191011_larepubblica_nz_002_20191011_larepubblica_nz_003_01.pdf
20191011_larepubblica_nz_002_20191011_larepubblica_nz_003_02.pdf
20191011_larepubblica_nz_003.pdf
@aino-prashant
aino-prashant / ilcentroFinalScript.xml
Last active March 27, 2019 12:33
Il centro image/pdf
<?xml version="1.0" encoding="UTF-8"?>
<target-source url="http://digital.ilcentro.it/ilcentro/books/latinaoggi/" edition="pescara" publication-id="22" publication-name="IlCentro">
<execution-element type="flow">
<execution-element type="act">
<locator type="IFRAME_NAME" value="iframe_login" />
<action-type>SWITCHFRAME</action-type>
<key />
</execution-element>
<execution-element type="data-put">
<locator type="XPATH" value="//input[@id='input_username']" />