WP 1.2 Analyse und Typologisierung der Lizenzinformationen in Crossref
Ziel: Erstellung einer “White List” an Lizenzinformationen für Open Access Artikel in Crossref
Datengrundlage
Lizenz-Urls für sämtliche hybride Journale in Open APC und Crossref (Stand 2. März 2020)
library(tidyverse)
library(jsonlite)
license_df <- jsonlite::stream_in(url("https://raw.githubusercontent.com/subugoe/hybrid_oa_dashboard/update_jan_feb_20/data/jn_facets_df.json"), verbose = FALSE)
Unterschiedliche URLs und Anzahl der verknüpften Publikationen
license_df %>%
select(license_refs, journal_title, publisher) %>%
unnest(license_refs) %>%
# unterschiedliche Fälle je Verlag
group_by(.id, publisher) %>%
summarise(n_cases = sum(V1)) %>%
head()
#> # A tibble: 6 x 3
#> # Groups: .id [5]
#> .id publisher n_cases
#> <chr> <chr> <int>
#> 1 http:// creativecommons.org/licenses/b… Cambridge University Pre… 3
#> 2 http://academic.oup.com/journals/pages… Elsevier BV 1
#> 3 http://academic.oup.com/journals/pages… Oxford University Press … 4734
#> 4 http://academic.oup.com/journals/pages… Oxford University Press … 23
#> 5 http://aspb.org/publications/aspb-jour… American Society of Plan… 4039
#> 6 http://avs.scitation.org/jvb/authors/m… American Vacuum Society 35
Fragestellung
Welche Open-Content-Lizenzen werden je Verlag verwendet?
Welche davon verweisen explizit nur auf delayed Open Access?
Vorarbeiten
bisherige Matching-Tabelle: https://github.com/subugoe/hybrid_oa_dashboard/blob/8e1e50d9403ec90a94c699e51919a46aeb1c0418/R/cr_fetching.R#L192-L203
URL-Normalisierung: https://github.com/subugoe/hybrid_oa_dashboard/blob/master/R/license_normalise.R
DZHW-Report: “Applying Crossref and Unpaywall information to identify gold, hidden gold, hybrid and delayed Open Access publications in the KB publication corpus”: https://osf.io/preprints/socarxiv/sdzft/