-
Notifications
You must be signed in to change notification settings - Fork 0
Description
Hur illa det är idag
Maintenance hell - utan tombstone pages
3775 fel wikidata -> RAÄ - enorma kostnader att underhålla ett dåligt ekosystem för persistenta identifierare
- jag skapade 2021 "The Magnus list" som är en lägsta nivå för att jobba ihop dag 2023 ser vi inte att RAÄ är enkla att jobba med...
Jag testade 2023-09-08 att köra igenom 173 000 länkar Wikidata -> RAÄ där RAÄ inte har följt Best Practices for Tombstone Pages som rekommenderas ovan utan endast ger dig http-koden plus en statisk text --> att städaktiviteten att förstå vad som sker blir konsumentens problem = "ett reningsverk vid varje handfat" --> Maintenance hell
- Exempel på fel
- Status: 404 http://kulturarvsdata.se/LSH/agents/12250 Wikidata: http://www.wikidata.org/entity/Q28967664 - Edgar Haasum
- Status: 410 http://kulturarvsdata.se/raa/fmi/10089300480001 Wikidata: http://www.wikidata.org/entity/Q29272284 - Fjäle
- Status: 410 http://kulturarvsdata.se/raa/fmi/10091001720002 Wikidata: http://www.wikidata.org/entity/Q29302321 - Eksta 172:2
- Status 410 https://kulturarvsdata.se/raa/bbr/21300000015124 Wikidata: http://www.wikidata.org/entity/Q30317303 Palaestra et Odeum
- verkar vara samma som WD Q10615322 och byggnadId=21400000357152
- dvs borde mergas i WD och hos RAÄ?
- helt omöjligt att jobba "ihop" om inte publika backlogs finns och tydliga "tombstone" sidor finns
- verkar vara samma som WD Q10615322 och byggnadId=21400000357152
- Status 410 http://kulturarvsdata.se/raa/bbr/21300000019904 Wikidata: http://www.wikidata.org/entity/Q30334076 Rengsjö gravkapell
- Status 404 http://kulturarvsdata.se/raa/bbra/21300000003027 Wikidata: http://www.wikidata.org/entity/Q10661140 - Sandby kyrka
- Status: 500 http://kulturarvsdata.se/LSH/objects/32632 Wikidata: http://www.wikidata.org/entity/Q17021187 - Bibliotekarien
Rekommenderat utseende på tombstone page
This page conforms to best practices for tombstone pages.
- It contains a full bibliographic citation of the item, so users can confirm they have located the correct item.
- It includes the DOI displayed as a URL.
- It gives a reason for the unavailability of the item.
RAÄs ekosystem med httpkoder och en statisk text på svenska - Problem 1: följer inte rekommendationen på tombstone pages
Exempel fel från RAÄ
-
- Status: 404 http://kulturarvsdata.se/LSH/agents/12250
-
Status: 410 http://kulturarvsdata.se/raa/fmi/10089300480001
- Status: 410 http://kulturarvsdata.se/raa/fmi/10091001720002
Number records in Wikidata: 173028
OK: 169250 not ok 3775
Ended: 2023-09-08 14:04:25.417392
Status samma test 2021-03-25 med samma dataset fel funna 4605
På Wikipedia diskuterades detta fel från 27 september 2020
- inget hände så jag skrev ihop lite kod som anropa WD och skickade frågan till RAÄ 2021-03-25 länk 4605 fel funna av 160 531 testade poster --> 2.8 % av posterna har länkröta -> Gissar att RAÄ inte kollar sina länkar internt utan saker bara ruttnar
Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus
RAÄ saknar publika backlogs och enkelhet att logga fel med helpdeskid --> maintenance hell för konsumenten
Att kontinuerligt kolla av sina PID:ar och datakällor dom kopplar till som Wikidata gör Humlab Riksdagens Corpus något som alla måste göra...Jag sliter en del med Svenska Riksdagsmän och Wikidata där ett forskningsprojekt Riksdagens corpus valt att ange samma som Wikidata eftersom Wikipedia är den organisation som har bäst kunskap över svenska Riksdagsmän över tid i Sverige (borde vara Riksarkivet och Sveriges Riksdag eller Kungliga Biblioteket...)
- Vid en PR på GITHUB kör detta projekt Riksdagens corpus en check att deras data är konsistent och att det data i Wikidata dom kopplat till är i ordning exempel då dom hittar fel Wikidata och direkt från denna pull #258 pingar in mig (Bra kandidat till RAÄ UG sameas oddity #4 att ha ett ekosystem där man kan pinga alla intressenter, tror även alla aktörer skall implementera observer pattern där jag kan begära att bli notifierad då en PID ändras)
Problem 3: RAÄ saknar bra mönster när organisationer lämnar dom - dom verkar bara ta bort posten och skicka 404
I körningen ovan finns ett bra mönster att man i PID:en kan se agenten exempel
/LSH/agents/12250 --> LSH
- jag vet för jag strulat en del med detta data att LSH var "Livrustkammaren och Skoklosters slott med Stiftelsen Hallwylska museet"
- Resultatet av denna gegga Wikidata har nu 1902 "fel i wikidata" som har denna agent
- min gissning är att dessa finns nu hos SHMM se artikel 2017-06-01 "SHMM och LSH går samman" och 2023 efter 6 år har dessa poster
- troligen blivit flyttade till SHMM
- I wikidata har SHMM lagt till en ny WD egenskap med Wikimedia Sveriges hjälp se egenskapsdiskussion för Id i Statens historiska museers samlingar som blev Property:P9495
- Wikimedia Sverige användare Alicia_Fagerving_(WMSE) och LinneaKarlberg har sedan lagt in Property:P9495 > 30 000 ggr i Wikidata
- Någon på RAÄ tänker inte persistenta identifierare och att externa aktörer fortfarande pekar på dom med det gamla id:et --> att man tar bort det och ger oss konsumenter "Felkod: 404 (Not Found) Service: Ksamsök."
Flera fel gjorda lesson learned är att skapa detta kaos är inte bara att ett fel görs man brukar prata om "a trail of shit"...
- RAÄ borde informerat var den nya platsen för identifieraren är inte bara skicka 404
- RAÄ borde ha implementerat observer pattern så aktörer som Wikidata kan fånga upp detta innan vi får problem
- den som lägger till nya egenskapen i Wikidata borde ta bort den gamla eller i Wikidatas fall ange skäl Q122746164 både på svenska och engelska se ex. Q28967664#P1260 - svenska / engelska
Observer pattern
En snygg implementering av Observer pattern vore att även i löst kopplade system kan saker som citation graphs skapas....
dvs. att en SFS som Riksdagen har skulle kunna ha koll på vilka myndighetsförfattningar som refererar den, att utredningar som refereras kan am med ett klick kunna se vilka som refererar till den se #100 #85 status idag är att ex. Esamverkan publicerar dokument som refererar myndigheter som upphört och ligger i en kartong hos Riksarkivet dvs. det saknas helt vettig dokumenthantering vilket jag ser som en brist i vår demokrati och att Sveriges Riksdag inte har 5-star data
Fixat av RAÄ 6 september 2021 - tid 1 år
F.k. : fr.o.m. igår 2021-09-06 ska 10 537 BeBR-poster som var tillfälligt borttagna ur K-samsök (svarade med 410) vara tillbaka i indexet. De beständiga kulturarvsdata.se-URI:erna svarar igen antingen med 200 + RDF/XML / JSON-LD, eller 302 + ompekning till källan (posten hos Bebyggelseregistret) beroende på anropets Accept-headers
- då hittade vi 4605 fel
- ingen visste vad som skett på 1 år
- RAÄ lade in en anonym kommentar 2021-sep på en Wikipedia sida att det var fixat....




