Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save sahwar/d6cb7e440d93b3089e33 to your computer and use it in GitHub Desktop.
Save sahwar/d6cb7e440d93b3089e33 to your computer and use it in GitHub Desktop.
https://gist.github.com/sahwar/d6cb7e440d93b3089e33
scraper-script-logic.txt
PHP script (v4 OLD, use v5+!!!) is here:
https://gist.github.com/sahwar/f2a8fdef42768dbfbb09
A) eurodict.com:
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<span class="wordtitle">
3. След това изтриване на ВСИЧКИ копия на следните тагове <h4></h4> и<h5></h5>, ВКЛЮЧИТЕЛНО и съдържанието на същите споменати тагове, като търсенето им се започне от
<span class="wordtitle">
и завърши с (но без да включва следното):
<div class="googa">
4. След това изтрий всичко след (но без да включва следното):
<div class="googa">
5. Запис на резултата с разширение .html или .txt
6. Същото като от 0. до 4./5., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.
B) rechnik.info:
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<h2><a href="/
3. След това изтрий всичко след (БЕЗ да се включва следното):
<div id="gibox">
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.
C) onlinerechnik.com:
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<div id="maintext">
3. След това изтрий всичко след (БЕЗ да се включва следното):
<h2>Полезно</h2>
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.
D) slovored.com:
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html).
1. Отваряне на изтегления файл
2. Изтриване на всичко преди (БЕЗ да се включва следното):
<td class="translation">
3. След това изтрий всичко след (БЕЗ да се включва следното):
<span class="found">
4. Запис на резултата с разширение .html или .txt
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment