In een vorige blog heb ik laten zien hoe je uit de BAG coördinaten kunt halen van het centrum (of een punt binnen) de woonplaats. De punten liggen helaas niet op de woonkernen, of het moet al toeval zijn. Misschien dat het CBS nog data heeft waarmee het beter te bepalen is, maar dat levert vast weer andere issues op, zoals een andere schrijfwijze voor woonplaatsen bijvoorbeeld. Hoe kun je nu uit de BAG wel de woonkern zo goed mogelijk extracten?
Panden groeperen
Naast de woonplaatsen zit er ook een laag met de panden in de BAG. Als je naar de kaart kijkt dan zie je dat de meeste panden zich bevinden in een woonkern. Het is mogelijk om van alle panden een gemiddelde van de locatie te nemen, en als je daarbij de woonplaats als gemene deler neemt, dan krijg je mooi per woonplaats de meest logische locatie. Tot zover het idee.
Aan een pand zit geen eigenschap ‘woonplaats’. Maar er zit nog een laag in deze bron met de naam ‘verblijfsobject’. Dit zijn al punten in plaats van vlakken, en deze bevatten wel de eigenschap ‘woonplaats_naam’.
Nu zie je daar wel weer wat aandachtspunten. Sommige gebouwen bevatten geen verblijfsobject marker, maar daar staat tegenover dat er ook gebouwen zijn die meerdere hebben. Je zult zelf moeten beoordelen of dit elkaar compenseert en in welke mate je eindresultaat (on)betrouwbaar is geworden. Voor een globale woonplaats-aanduiding lijkt dit me prima. Met een beetje verder rondkijken kom ik ook verblijfsobjecten tegen die niet in een pand vallen, maar dat zijn er zo weinig dat het vast geen invloed heeft.
Wil je de pand-geometrie gebruiken, dan kun je de functie Join attributes by location toepassen. Er wordt dan een nieuwe laag gemaakt van de laag ‘panden’ en voorzien van de data van de laag ‘woonplaats’, als ze matchen met de ingestelde geometrische overeenkomst (‘vallen binnen’).
Met de Mean Coordinate functie kun je het gemiddelde bepalen van geometrie waarbij je een bepaald veld kan meegeven die de punten groepeert.
Dit levert een nieuwe laag op met punten die zo goed als binnen de woonkern valt. Bijvoorbeeld hier, waar een centroïde van de woonplaats zelf ruim buiten het dorp zou vallen:
Ziet er leuk uit, hé? Maar helaas, ook hier vage dingen.
Vaker voorkomende woonplaatsen
Het grootste probleem wat hier speelt is het vaker vookomen van een woonplaatsnaam. Bij een visuele controle vond ik in the middle of nowhere al Laren, en Buren. Midden in een weiland zonder enige bebouwing er omheen. En Scherpenzeel ligt ook ver buiten de dorpskern. Na wat speurwerk blijkt dat de woonplaatsnaam niet uniek is. Er zijn meer plaatsjes met de naam Laren, Buren, Scherpenzeel, en nog veel meer.
Neem dus niet zomaar aan dat je een goed resultaat verkregen hebt! Check altijd alles.
In dit geval kun je het oplossen door niet de woonplaatsnaam te gebruiken. Er is in de laag ‘verblijfsobject’ geen unieke andere waarde, want ‘bronhouder_identificatie’ komt ook vaker voor. Je zou eerst de laag ‘verblijfsobject’ kunnen joinen met ‘woonplaats’ en dan de ‘feature_id’ te gebruiken. Die is namelijk wel uniek. Na het gemiddelde bepaald te hebben, kun je de nieuwe laag op locatie joinen met de woonplaats, om zo die data te kunnen gebruiken.
Nog afgezien van de mogelijkheid dat sommige kernen volgens de BAG bij een bepaalde woonplaats horen maar in het algemeen gebruik een eigen dorpsnaam hebben. Ook dat zul je voor jezelf moeten afwegen of je het wel goed vindt, of toch nog andere databronnen gaat doorspitten.
Het leven van een data-analyist gaat niet over rozenblaadjes…
Geen data-analist maar toch af en toe noodzaak om geodata te visualiseren? Dat kan met de applicatie QGIS. Dit boek helpt je op weg om de basisbeginselen onder de knie te krijgen en eenvoudig uit diverse bronnen zoals PDOK.nl, CBS en het Nationaal Georegister kaarten te genereren. This book is also available in English.