Last active
June 4, 2020 04:02
-
-
Save sahwar/d6cb7e440d93b3089e33 to your computer and use it in GitHub Desktop.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
https://gist.github.com/sahwar/d6cb7e440d93b3089e33 | |
scraper-script-logic.txt | |
PHP script (v4 OLD, use v5+!!!) is here: | |
https://gist.github.com/sahwar/f2a8fdef42768dbfbb09 | |
A) eurodict.com: | |
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html). | |
1. Отваряне на изтегления файл | |
2. Изтриване на всичко преди (БЕЗ да се включва следното): | |
<span class="wordtitle"> | |
3. След това изтриване на ВСИЧКИ копия на следните тагове <h4></h4> и<h5></h5>, ВКЛЮЧИТЕЛНО и съдържанието на същите споменати тагове, като търсенето им се започне от | |
<span class="wordtitle"> | |
и завърши с (но без да включва следното): | |
<div class="googa"> | |
4. След това изтрий всичко след (но без да включва следното): | |
<div class="googa"> | |
5. Запис на резултата с разширение .html или .txt | |
6. Същото като от 0. до 4./5., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати. | |
B) rechnik.info: | |
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html). | |
1. Отваряне на изтегления файл | |
2. Изтриване на всичко преди (БЕЗ да се включва следното): | |
<h2><a href="/ | |
3. След това изтрий всичко след (БЕЗ да се включва следното): | |
<div id="gibox"> | |
4. Запис на резултата с разширение .html или .txt | |
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, който се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати. | |
C) onlinerechnik.com: | |
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html). | |
1. Отваряне на изтегления файл | |
2. Изтриване на всичко преди (БЕЗ да се включва следното): | |
<div id="maintext"> | |
3. След това изтрий всичко след (БЕЗ да се включва следното): | |
<h2>Полезно</h2> | |
4. Запис на резултата с разширение .html или .txt | |
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати. | |
D) slovored.com: | |
0. Изтегляне на отделния html файл на дадена речникова статия чрез wget (като чист html). | |
1. Отваряне на изтегления файл | |
2. Изтриване на всичко преди (БЕЗ да се включва следното): | |
<td class="translation"> | |
3. След това изтрий всичко след (БЕЗ да се включва следното): | |
<span class="found"> | |
4. Запис на резултата с разширение .html или .txt | |
5. Същото като от 0. до 4., но след всяко изпълнение на този цикъл слепвай резултатите (т.е. трансформираните по горната логика изтеглени адреси, описани в input.txt, което се използва като -i аргумент от wget) в един файл. После ръчно се добавя само <html>...</html> към файла, който е сливане на всички резултати. |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment