Skip to content

Instantly share code, notes, and snippets.

@salgo60
Created October 26, 2023 10:25
Show Gist options
  • Save salgo60/8aa8af8e8a0de73c53a961e4889402d5 to your computer and use it in GitHub Desktop.
Save salgo60/8aa8af8e8a0de73c53a961e4889402d5 to your computer and use it in GitHub Desktop.
Körde igenom dom url;:ar jag hade till kommunernas anslagstavlor skapade 2022 —> 17 procent fel
# Kommunernas Anslagstavlor
#
import urllib3
import sys
from datetime import datetime
import pandas as pd
http = urllib3.PoolManager()
csv_url = "https://gist.githubusercontent.com/salgo60/3794c5f9eb5e81bb0f1cc9dd164ac1d7/raw/ea579f247971b5e73df9e7af416532a2daed8522/anslagstavla.csv"
def get_results(csv_url):
print(csv_url)
df = pd.read_csv(csv_url)
#df = pd.read_csv(url)
# print(df.head(10))
return df
''' Check if URLS is ok'''
def check(url,wikibase, Label):
try:
r = http.request('GET', url)
except Exception as e:
print("\t\tError\t",Label,wikibase,url)
print("\t\t\t",str(e))
return False
if r.status != 200:
print("Status: ",r.status, " \t", url, "\tWikibase: ", wikibase," - ", wdLabel)
return False
return True
start_time = datetime.now()
print("Last run: ", start_time)
results = get_results(csv_url)
print ("Number records: " + str(len(results)))
ok = 0
notok = 0
results = results.reset_index()
for index, row in results.iterrows():
#print(row)
try:
currentURL = row["oldurl"]
wd = row["r"]
wikibase = wd.replace("https://sweopendata.wikibase.cloud/entity/","")
wdLabel = row["rLabel"]
if check(currentURL,wikibase, wdLabel):
ok += 1
else:
notok += 1
except Exception as error:
print("An error occurred: ", wd, " - ", type(error).__name__) # An error occurred: NameError
procent = notok / (ok + notok) * 100
print("OK: ",ok,"\t not ok",notok,"\t procent problem", procent)
end = datetime.now()
print("Ended: ", end)
print('Time elapsed (hh:mm:ss.ms) {}'.format(datetime.now() - start_time))
print("Last run: ", start_time)
@jonassodergren
Copy link

Ska faktiskt delta på ett möte med identifierare nästa vecka, vilken insikt från dig vill du att jag tar med mig? En bra rekommendation skall ju kunna användas av alla tänker jag, både nya och befintliga system. Utmaningen är nog mer att själva lösningen kommer behöva vara enkel att implementera och följa tror jag.

@salgo60
Copy link
Author

salgo60 commented Nov 4, 2023

@jonassodergren Jag kan försöka formulera mig men tycker det jag ser är helt visionslöst.... bara tanken att använda http koder är ett fel beslut då inser man inte alla problem som kan ske med Persistenta identifierare och kostnaden att underhålla miljontals PID:ar mellan flera 100 myndigheter och 290 kommuner med Riksdagen, EU.... min kommentar "Maintenance Hell" sedan om aktörerna inte har publika öppna backloggar kan det bara sluta på ett sätt....

Läs FAIRDATA F1

Principle F1 is arguably the most important because it will be hard to achieve other aspects of FAIR without globally unique and persistent identifiers. Hence, compliance with F1 will already take you a long way towards publishing FAIR data
Globally unique and persistent identifiers remove ambiguity in the meaning of your published data by assigning a unique identifier to every element of metadata and every concept/measurement in your dataset. In this context

Jag ringde och prata med DIGG Ulrika Domellöf Mattsson för 2 månader sedan och sa till henne att det här är det viktigaste jobb dom gör, min bild av henne är att hon är för svag och jag är inte 100 på hennes kompetens... jag var med på ett möte "Textdata och delning av statliga utredningar för maskinell analys" och lyssna där hon presentera en slide på 5-stardata och sedan kom ESV gd och Anna DIGGs gd och skulle vara digitala experter och pratade en halvtimme och funderade på om det skulle vara pdf eller html för maskinell analys dvs. ingen av dom fattar detta med 5 stardata och Ulrika sitter med och protesterar inte..... det blir en blind leder en blind - sa det till henna varför höjer du inte rösten när dom bara snackar skit.... träffade även henne och Maria nyligen och det blir bara svammel...

Både hon och Maria snackar om att ladda upp på dataportalen MEN utan Persistenta Identifierare och koppla samma som blir detta data mest trams.... dålig data blir inte bättre av att det laddas upp på massa platser

  • nedan hur ett projekt svamlar till det och gör en "humanist" tolkning av sammanhållen det som är sammanhållen är länkade data och persistenta identifierare...
    • pratade med SCB representant i projektet nedan och han visste vad SKOS var men inte kunskapsgrafer --> sedan sitter man och skapar egna hitte på tolkningar där man istället borde ta avstamp med FAIRDATA F1 - tror dom har försökt uppfinna hjulet igen under några år....

image

  • lägger man alla legobitarna i samma portal så är dom fortfarande inte ihopkopplade dvs. 5 star data = arranged

image


Exempel på hur politiska forskare Riksdagens Corpus väljer när dom digitaliserar Riksdagstrycket att peka på Wikidata för att Wikidata har persistenta identifierare för alla Riksdagsmän sedan 1885 alla dessa biografier Riksarkivet SBL skrivit under 100 år, det jobb att skapa länkade data hos Kungliga biblioteket sedan innan 2010 duger inte utan man måste peka på en hobby site som Wikidata länk

image

  • jag har drivit stenhårt att detta projekt måste ha sin egen persistenta identifierare och så sent som i förra vecka ringde jag Pelle Snickars och påpeka att dom måste fatta vikten av persistenta identifierare FAIRDATA F1.... nu efter 6 månader verkar det ske se #269

DIGG måste vara tydlig med att vill en kommun/myndighet/forskare som skapar forskningsdata att skall deras data kunna refereras och hittas så SKALL dom publicera data med unika persistenta identifierare

Att skriva med dagens gegga till infrastruktur att det gäller nya system då fattar man inte hur dåligt det är... specen måste vara målgrupp alla som publicerar information som skall kunna refereras och vill undvika otydlighet i deras data allt från att publicera författningar som refererar andra dokument, beslut som refererar andra beslut/utredningar/författningar..., skriva bibliografier om andra personer, beskriva kompetenser som läsaren skall förstå vilken kompetens som syftas på, publicera utredningar om ett ämne som läsaren skall kunna länka till eller för att undvika otydlighet "Things not strings"

image

image

Lyssnar du på den presentation Gunilla med skapat om öppna data i veckan så säger dom nog detta att dom inte har koll länk det är svårt att tolka vad dom säger... för mig känns det som dom inte ens har en riktning framåt utan sitter stilla och tycker saker är svåra 😢 😞 ... DIGG passerar nu 1 miljard Skr i kostnad för skattebetalare.... jag tror på Yesterdays weather 100 miljarder till kommer inte att göra skillnad.... kollar du på Riksdagens Corpus så skapar dom på något år bättre data än Riksdagens Öppna data dom har en tydlig kompetent backlog

image

Nationella riktlinjer för öppen vetenskap

sid 10

Att tillgängliggörandet av data och metadata sker i enlighet med FAIR-principerna
och med stöd i befintlig vägledande information från Vetenskapsrådet och Digg

DiGG är med i detta sägs det och skall detta funka så skall all denna data/metadata ha PID:ar dvs. vara FAIRDATA och följa FAIRDATA F1...

Hur dysfunktionellt Kungliga Biblioteket är efter att ha jobbat 12 år med "länkade data" och "persistenta identifierare"

2012 i Washington pratade Malmsten om framtiden och länkade data

image

@salgo60
Copy link
Author

salgo60 commented Nov 5, 2023

Exempel hur kommunkoder inte rör sig framåt samma sak diskuteras 2021 som 2023 länk - konsulter tas in och inget levereras 😢 lite intressant att kolla att dessa gubbar verkar fakturera 1-3 miljoner per år för denna icke leverans...

  • annat anti pattern med konsulter är att dom bara tystnar - ghosting deras prioritet är inte persistenta identifierare eller öppen data utan cash på det egna kontot...
    • kombineras massa svaga konsulter med ej kompetenta styrgrupper så får vi dagens röra

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment