webserveis/jsoup_readme.md

## jsoup_readme.md

      
    Raw
  

              jsoup_readme.md
            
          
    JSOUP PARSERS

CODIFICACIÓN DE CARACTERES

Detección de charset**

Dependencia
 implementation 'com.ibm.icu:icu4j-charset:63.1'
su uso
CharsetMatch charsetMatch = new CharsetDetector().setText(bodyStream).detect();
Log.d(TAG, "crawl: charsetMatch" + charsetMatch.getName());
Dependecia
juniversalchardet es de Mozilla las paginas con codificación <meta http-equiv='Content-Type' content='text/html; charset=iso-8859-1' />  la detecta como Europa Occidental (Windows-1252)
implementation 'com.github.albfernandez:juniversalchardet:2.3.0'
su uso
String encoding = UniversalDetector.detectCharset(bodyStream);
Log.d(TAG, "crawl: UniversalDetector.detectCharset" + encoding);
Conversor de charset detectado

BufferedInputStream bodyStream = connectionJsoup.response().bodyStream();
Document document = Jsoup.parse(connectionJsoup.execute().bodyStream(), charsetMatch.getName(), url);