-
-
Save salgo60/8aa8af8e8a0de73c53a961e4889402d5 to your computer and use it in GitHub Desktop.
# Kommunernas Anslagstavlor | |
# | |
import urllib3 | |
import sys | |
from datetime import datetime | |
import pandas as pd | |
http = urllib3.PoolManager() | |
csv_url = "https://gist.githubusercontent.com/salgo60/3794c5f9eb5e81bb0f1cc9dd164ac1d7/raw/ea579f247971b5e73df9e7af416532a2daed8522/anslagstavla.csv" | |
def get_results(csv_url): | |
print(csv_url) | |
df = pd.read_csv(csv_url) | |
#df = pd.read_csv(url) | |
# print(df.head(10)) | |
return df | |
''' Check if URLS is ok''' | |
def check(url,wikibase, Label): | |
try: | |
r = http.request('GET', url) | |
except Exception as e: | |
print("\t\tError\t",Label,wikibase,url) | |
print("\t\t\t",str(e)) | |
return False | |
if r.status != 200: | |
print("Status: ",r.status, " \t", url, "\tWikibase: ", wikibase," - ", wdLabel) | |
return False | |
return True | |
start_time = datetime.now() | |
print("Last run: ", start_time) | |
results = get_results(csv_url) | |
print ("Number records: " + str(len(results))) | |
ok = 0 | |
notok = 0 | |
results = results.reset_index() | |
for index, row in results.iterrows(): | |
#print(row) | |
try: | |
currentURL = row["oldurl"] | |
wd = row["r"] | |
wikibase = wd.replace("https://sweopendata.wikibase.cloud/entity/","") | |
wdLabel = row["rLabel"] | |
if check(currentURL,wikibase, wdLabel): | |
ok += 1 | |
else: | |
notok += 1 | |
except Exception as error: | |
print("An error occurred: ", wd, " - ", type(error).__name__) # An error occurred: NameError | |
procent = notok / (ok + notok) * 100 | |
print("OK: ",ok,"\t not ok",notok,"\t procent problem", procent) | |
end = datetime.now() | |
print("Ended: ", end) | |
print('Time elapsed (hh:mm:ss.ms) {}'.format(datetime.now() - start_time)) | |
print("Last run: ", start_time) |
@jonassodergren Jag kan försöka formulera mig men tycker det jag ser är helt visionslöst.... bara tanken att använda http koder är ett fel beslut då inser man inte alla problem som kan ske med Persistenta identifierare och kostnaden att underhålla miljontals PID:ar mellan flera 100 myndigheter och 290 kommuner med Riksdagen, EU.... min kommentar "Maintenance Hell" sedan om aktörerna inte har publika öppna backloggar kan det bara sluta på ett sätt....
Läs FAIRDATA F1
Principle F1 is arguably the most important because it will be hard to achieve other aspects of FAIR without globally unique and persistent identifiers. Hence, compliance with F1 will already take you a long way towards publishing FAIR data
Globally unique and persistent identifiers remove ambiguity in the meaning of your published data by assigning a unique identifier to every element of metadata and every concept/measurement in your dataset. In this context
Jag ringde och prata med DIGG Ulrika Domellöf Mattsson för 2 månader sedan och sa till henne att det här är det viktigaste jobb dom gör, min bild av henne är att hon är för svag och jag är inte 100 på hennes kompetens... jag var med på ett möte "Textdata och delning av statliga utredningar för maskinell analys" och lyssna där hon presentera en slide på 5-stardata och sedan kom ESV gd och Anna DIGGs gd och skulle vara digitala experter och pratade en halvtimme och funderade på om det skulle vara pdf eller html för maskinell analys dvs. ingen av dom fattar detta med 5 stardata och Ulrika sitter med och protesterar inte..... det blir en blind leder en blind - sa det till henna varför höjer du inte rösten när dom bara snackar skit.... träffade även henne och Maria nyligen och det blir bara svammel...
Både hon och Maria snackar om att ladda upp på dataportalen MEN utan Persistenta Identifierare och koppla samma som blir detta data mest trams.... dålig data blir inte bättre av att det laddas upp på massa platser
- nedan hur ett projekt svamlar till det och gör en "humanist" tolkning av sammanhållen det som är sammanhållen är länkade data och persistenta identifierare...
- pratade med SCB representant i projektet nedan och han visste vad SKOS var men inte kunskapsgrafer --> sedan sitter man och skapar egna hitte på tolkningar där man istället borde ta avstamp med FAIRDATA F1 - tror dom har försökt uppfinna hjulet igen under några år....
- jag skulle vilja se saker som FAIR Data Maturity Model DOI: 10.15497/rda00045 pdf eller The FAIR Cookbook for FAIR doers
- pratade med SCB representant i projektet nedan och han visste vad SKOS var men inte kunskapsgrafer --> sedan sitter man och skapar egna hitte på tolkningar där man istället borde ta avstamp med FAIRDATA F1 - tror dom har försökt uppfinna hjulet igen under några år....
- lägger man alla legobitarna i samma portal så är dom fortfarande inte ihopkopplade dvs. 5 star data = arranged
Exempel på hur politiska forskare Riksdagens Corpus väljer när dom digitaliserar Riksdagstrycket att peka på Wikidata för att Wikidata har persistenta identifierare för alla Riksdagsmän sedan 1885 alla dessa biografier Riksarkivet SBL skrivit under 100 år, det jobb att skapa länkade data hos Kungliga biblioteket sedan innan 2010 duger inte utan man måste peka på en hobby site som Wikidata länk
- jag har drivit stenhårt att detta projekt måste ha sin egen persistenta identifierare och så sent som i förra vecka ringde jag Pelle Snickars och påpeka att dom måste fatta vikten av persistenta identifierare FAIRDATA F1.... nu efter 6 månader verkar det ske se #269
DIGG måste vara tydlig med att vill en kommun/myndighet/forskare som skapar forskningsdata att skall deras data kunna refereras och hittas så SKALL dom publicera data med unika persistenta identifierare
Att skriva med dagens gegga till infrastruktur att det gäller nya system då fattar man inte hur dåligt det är... specen måste vara målgrupp alla som publicerar information som skall kunna refereras och vill undvika otydlighet i deras data allt från att publicera författningar som refererar andra dokument, beslut som refererar andra beslut/utredningar/författningar..., skriva bibliografier om andra personer, beskriva kompetenser som läsaren skall förstå vilken kompetens som syftas på, publicera utredningar om ett ämne som läsaren skall kunna länka till eller för att undvika otydlighet "Things not strings"
Lyssnar du på den presentation Gunilla med skapat om öppna data i veckan så säger dom nog detta att dom inte har koll länk det är svårt att tolka vad dom säger... för mig känns det som dom inte ens har en riktning framåt utan sitter stilla och tycker saker är svåra 😢 😞 ... DIGG passerar nu 1 miljard Skr i kostnad för skattebetalare.... jag tror på Yesterdays weather 100 miljarder till kommer inte att göra skillnad.... kollar du på Riksdagens Corpus så skapar dom på något år bättre data än Riksdagens Öppna data dom har en tydlig kompetent backlog
Nationella riktlinjer för öppen vetenskap
sid 10
Att tillgängliggörandet av data och metadata sker i enlighet med FAIR-principerna
och med stöd i befintlig vägledande information från Vetenskapsrådet och Digg
DiGG är med i detta sägs det och skall detta funka så skall all denna data/metadata ha PID:ar dvs. vara FAIRDATA och följa FAIRDATA F1...
Hur dysfunktionellt Kungliga Biblioteket är efter att ha jobbat 12 år med "länkade data" och "persistenta identifierare"
2012 i Washington pratade Malmsten om framtiden och länkade data
- idag 2023
- har dom levererat ett system som mest har dålig data och strings #19 "LIBRISXL: Finns en roadmap och en vision och hur bryts den ned? Vad har gått fel?"
- 20 dec 2018 på ett användarmöte ställde jag frågan hur skall Länkade data utvecklas i Sverige - inte ens då efter att ha jobbat med länkade data under > 10 år hade dom en tanke att inte vara en datasilo och ta ett ansvar och driva detta framåt ...
- KB scannar in svenska dagstidningar men saknar en länkmodell #153 och dom som jobbar med projektet vet inte vem hos KB man skall prata med om länkade data
- har dom levererat ett system som mest har dålig data och strings #19 "LIBRISXL: Finns en roadmap och en vision och hur bryts den ned? Vad har gått fel?"
Exempel hur kommunkoder inte rör sig framåt samma sak diskuteras 2021 som 2023 länk - konsulter tas in och inget levereras 😢 lite intressant att kolla att dessa gubbar verkar fakturera 1-3 miljoner per år för denna icke leverans...
- annat anti pattern med konsulter är att dom bara tystnar - ghosting deras prioritet är inte persistenta identifierare eller öppen data utan cash på det egna kontot...
- kombineras massa svaga konsulter med ej kompetenta styrgrupper så får vi dagens röra
Ska faktiskt delta på ett möte med identifierare nästa vecka, vilken insikt från dig vill du att jag tar med mig? En bra rekommendation skall ju kunna användas av alla tänker jag, både nya och befintliga system. Utmaningen är nog mer att själva lösningen kommer behöva vara enkel att implementera och följa tror jag.