sahwar/scraper-script-logic_for-the-OmegaKO-PHP-webscraper-v4.txt

## scraper-script-logic_for-the-OmegaKO-PHP-webscraper-v4.txt
https://gist.github.com/sahwar/d6cb7e440d93b3089e33
scraper-script-logic.txt
PHP script (v4 OLD, use v5+!!!) is here:
https://gist.github.com/sahwar/f2a8fdef42768dbfbb09

A) eurodict.com:

0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<span class="wordtitle">
3. След това изтриване на ВСИЧКИ копия на следните тагове <h4></h4> и<h5></h5>, ВКЛЮЧИТЕЛНО и съдържанието на същите споменати тагове, като търсенето им се започне от
<span class="wordtitle">
и завърши с (но без да включва следното):
<div class="googa">
4. След това изтрий всичко след (но без да включва следното):
<div class="googa">
5. Запис на резултата с разширение .html или .txt
6. Същото като от 0. до 4./5., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.

B) rechnik.info:

0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<h2><a href="/
3. След това изтрий всичко след (БЕЗ да се включва следното):
<div id="gibox">
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.


C) onlinerechnik.com:

0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<div id="maintext">
3. След това изтрий всичко след (БЕЗ да се включва следното):
<h2>Полезно</h2>
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.

D) slovored.com:

0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<td class="translation">
3. След това изтрий всичко след (БЕЗ да се включва следното):
<span class="found">
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.
	https://gist.github.com/sahwar/d6cb7e440d93b3089e33
	scraper-script-logic.txt
	PHP script (v4 OLD, use v5+!!!) is here:
	https://gist.github.com/sahwar/f2a8fdef42768dbfbb09

	A) eurodict.com:

	0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
	1. Отваряне на изтегления файл
	2. Изтриване на всичко преди (БЕЗ да се включва следното):
	<span class="wordtitle">
	3. След това изтриване на ВСИЧКИ копия на следните тагове <h4></h4> и<h5></h5>, ВКЛЮЧИТЕЛНО и съдържанието на същите споменати тагове, като търсенето им се започне от
	<span class="wordtitle">
	и завърши с (но без да включва следното):
	<div class="googa">
	4. След това изтрий всичко след (но без да включва следното):
	<div class="googa">
	5. Запис на резултата с разширение .html или .txt
	6. Същото като от 0. до 4./5., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.

	B) rechnik.info:

	0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
	1. Отваряне на изтегления файл
	2. Изтриване на всичко преди (БЕЗ да се включва следното):
	<h2><a href="/
	3. След това изтрий всичко след (БЕЗ да се включва следното):
	<div id="gibox">
	4. Запис на резултата с разширение .html или .txt
	5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.


	C) onlinerechnik.com:

	0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
	1. Отваряне на изтегления файл
	2. Изтриване на всичко преди (БЕЗ да се включва следното):
	<div id="maintext">
	3. След това изтрий всичко след (БЕЗ да се включва следното):
	<h2>Полезно</h2>
	4. Запис на резултата с разширение .html или .txt
	5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.

	D) slovored.com:

	0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
	1. Отваряне на изтегления файл
	2. Изтриване на всичко преди (БЕЗ да се включва следното):
	<td class="translation">
	3. След това изтрий всичко след (БЕЗ да се включва следното):
	<span class="found">
	4. Запис на резултата с разширение .html или .txt
	5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.