Skip to content

Instantly share code, notes, and snippets.

@salgo60
salgo60 / checkWikidata_P1260_RAÄ.py
Last active September 19, 2023 13:43
Check status WIkidata RAÄ P1260 - 2023-09-08 see also same test 2021
# See question RAÄ FB https://www.facebook.com/riksantikvarieambetet/posts/10158191730201970
# pip install sparqlwrapper
# https://rdflib.github.io/sparqlwrapper/
# this https://gist.github.com/salgo60/49c52e1f7009f0ef318e9fadd94addc5
# old https://gist.github.com/salgo60/a4ebde4f0a279d5f9479aeaf7b846403
#
# "Problemet med Persistenta identifierare och hävda att http status koder fungerar"
# https://github.com/salgo60/SamlaLibris/issues/12
#
# Försök med bättre felsida https://github.com/riksantikvarieambetet/ksamsok/pull/1#issuecomment-752963121
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Wikidata NamniData AntalRemisser
Q7654603 Sveriges advokatsamfund 124
Q1474680 Svenskt Näringsliv 118
Q385435 Sveriges akademikers centralorganisation 115
Q338636 Landsorganisationen i Sverige 86
Q10501287 Företagarna 80
Q10554096 Lantbrukarnas riksförbund 73
Q10494305 Fastighetsägarna 57
Q10670356 Skogsindustrierna 54
Q121316105 Näringslivets Regelnämnd 52
Vi samlar in och dokumenterar fotbollsspelare och Riksdagsmän på WIkipedia och önskar bild grav och gärna koordinat
URL,,,,,,,
Se mer info
* Fotbollsspelare https://github.com/salgo60/ifkdb/issues/9
* Riksdagsmän https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/155
Tack
Tackar många tankar finns och som Lars som byggt upp Runeberg sa på Sv:Wikipedia det här är ju en perfekt pusselbit att se om det som museer, Kungliga biblioteket, RAÄ, Riksarkivet dokumenterar Sverige är komplett.. vad missar dom…
* en intressant väg framåt är att kopiera Wikidata konceptet och skapa en community driven kunskapsgraf gärna med APIer så man kan skriva botar….
Jag har börjat titta på dels hur olika samlingar överlappar varandra och det känns som vi idag skapar mer <b>digitala silos</b> än jobbar ihop och ger varandra mervärde. Extremt intressant är Humlabs TEI projekt där man nu har ”samma som” Wikidata för gubbar och Wikidata men där hoppas jag dom går vidare med
* platser
* händelser
* ord jmf lexeme projektet i Wikidata där alla världens ord med alla deras böjningsformer dokumenteras https://ordia.toolforge.org/language/
Exempel vad jag kollat
* författare i Litteraturbanken och om dom finns i Wikidata och i LibrisXL där jag tycker det borde vara 1-1 mellan KB och Litteraturbanken men känn
@salgo60
salgo60 / Long trail.md
Last active May 23, 2023 18:41
Long trail

image

Can you explain the problems with LLM and "Coverage gap on long tail"

ChatGPT

Sure, the terms you are using seem to refer to Large Language Models (LLM) and a specific problem related to their training and performance, known as "Coverage gap on long tail".

Large Language Models like GPT-4 are trained on a vast range of internet text. But despite their training on diverse data, they may still have some gaps in their knowledge. This could be due to several reasons, but one notable reason relates to the problem of the "coverage gap on long tail".

Jag tycker Wikidata skall kunna modulera mycket mer än det som görs idag diskussionen vad som kan finnas i Wikidata eller ej är irrelevant det blir lite detta som "fulländade artiklar" där vi tror oss veta vad läsaren vill ha reda på och sitter och putsar på artiklarna och diskuterar om det skall vara en länk, 3 eller 10 kan en länk vara i sig fullödig...... sedan är vi helt "'''lomhörda'''" ;-) vad läsaren vill ha reda på det tror vi oss veta...

@salgo60
salgo60 / Swedish PM subs.html
Created April 7, 2023 22:57
Test Open Refine reconciliation
<html>
<head>
<title>Ersättare</title>
<meta charset="utf-8" />
</head>
<body>
<table>
<tr><th>enamn</th><th>namn</th><th>fnamn</th><th>Column 3</th><th>Column 4</th></tr>
<tr><td>Ahlinder</td><td><a href="https://www.wikidata.org/wiki/Q117378461">Lars-Erik Ahlinder</a></td><td> Lars-Erik</td><td> 2:495 </td><td></td></tr>
<tr><td>Ahlquist</td><td><a href="https://www.wikidata.org/wiki/Q5544145">Bengt Ahlquist</a></td><td> Bengt</td><td> 1:523 </td><td></td></tr>

:::Jag har en [salgo60/DIGG-skuggbacklog#77 projektkyrkogård] med massa galenskap [salgo60/DIGG-skuggbacklog#77 (comment) DIGISAM] - 10 år och skapade 15 ord, [salgo60/DIGG-skuggbacklog#77 (comment) Europeana > 10 år strings not things] skickar runt textsträngar, [salgo60/DIGG-skuggbacklog#77 (comment) LIBRISXL > 10 år och massa "spretig data"] :::* det största underkännande är dock att 2023 skriver projektet [https://www.westac.se/ Välfärden analyseras] i sin [https://www.umu.se/nyheter/5-miljoner-till-forskning-om-lankad-parlamentariska-data_11678700/ pressrelease] Bristen på grundlig metadatastruktur och länkad parlamentariska data, samt lapptäcket av luckor och digitaliseringsbrister har resulterat i en tämligen primitiv forskningsinfrastruktur, något som projektet ska ta itu med. :::* nu 2023 sitter dom och skapar bra data och har samma som Wikidata inte Riksarkivet eller Kungliga bib