Studiedag "Data science for better decisions"

Op dinsdag 17 december 2019 organiseren Statistiek Vlaanderen en het Centraal Bureau voor de Statistiek (Nederland) een internationale studiedag over hoe data science kan bijdragen tot kwaliteitsvolle openbare statistieken voor het verbeteren van beleidsinzichten. Hoe kunnen nieuwe gegevensbronnen en analysetechnieken in een snel veranderende digitale omgeving betere beslissingen ondersteunen? Wat zijn de opportuniteiten van de gestage groei in de beschikbaarheid van data om tot onderbouwde beleidsbeslissingen te komen? Welke risico’s hangen samen met het gebruik van deze nieuwe tools en technieken om met big databronnen om te gaan?Op dinsdag 17 december 2019 organiseren Statistiek Vlaanderen en het Centraal Bureau voor de Statistiek (Nederland) een internationale studiedag over hoe data science kan bijdragen tot kwaliteitsvolle openbare statistieken voor het verbeteren van beleidsinzichten. Hoe kunnen nieuwe gegevensbronnen en analysetechnieken in een snel veranderende digitale omgeving betere beslissingen ondersteunen? Wat zijn de opportuniteiten van de gestage groei in de beschikbaarheid van data om tot onderbouwde beleidsbeslissingen te komen? Welke risico’s hangen samen met het gebruik van deze nieuwe tools en technieken om met big databronnen om te gaan?

Introductie (Pdf - 2,7 MB)(PDF bestand opent in nieuw venster) Roeland Beerten, hoofdstatisticus Statistiek Vlaanderen, Vlaamse overheid Tjark Tjin-A-Tsoi, directeur-generaal Centraal Bureau voor de Statistiek, Nederland
Diane Coyle, Bennett Professor of Public Policy aan de Universiteit van Cambridge, winnaar van de Indigo-prijs voor innovatie in de economie Statistiek voor het digitale tijdperk (Pdf - 1,3 MB)(PDF bestand opent in nieuw venster) De digitalisering van de economie brengt een aantal uitdagingen voor economische statistieken met zich mee. Deze variëren van uitdagingen op het gebied van classificatie en gegevensverzameling tot het opsporen van veranderingen in gedrags- en business modellen of het berekenen van voor kwaliteit gecorrigeerde prijsindices. Economische metingen moeten zich aanpassen aan de structurele veranderingen om een geloofwaardig beeld van de economie te schetsen. Wat zijn hier de belangrijkste onderwerpen en hoe moeten statistische bureaus hiermee omgaan om hun gebruikers beter tegemoet te komen?
Kenneth Cukier, Senior redacteur bij The Economist en gastheer van de wekelijkse Economist podcast over technologie Copernicus ontmoet Coca-Cola: wat AI en big data betekenen voor nationale statistieken (Pdf - 2,9 MB)(PDF bestand opent in nieuw venster) Reeds sinds 1600 worden statistieken gebruikt om staatszaken op te volgen. Het belang van en de aandacht voor statistieken is in de afgelopen decennia gegroeid, en de werkmethoden zijn goed ingebed maar soms achterhaald. Nieuwe technieken die een betere, een verschillende of een snellere productie mogelijk maken, worden te weinig in rekening genomen. In een inspirerende en humoristische presentatie zal Kenneth Cukier, hoofdredacteur bij The Economist, het belang van AI en big data voor openbare statistieken uitleggen, en de statistici en dataverwerkers uitdagen om hun missie en ambacht te herbekijken.

Parallelle sessies Sessie 1. Machine learning - Voorzitter: Bart Buelens Machine learning algoritmes ontdekken patronen in data en gebruiken deze om ontbrekende data te voorspellen. Data kunnen ontbreken omdat ze niet verzameld of geobserveerd werden, of gewoon omdat de voorspelling de toekomst betreft. Machine learning algoritmes trachten de onderliggende reële systemen niet expliciet te modelleren. Ze gebruiken eerder rekenkundige technieken om met een optimale nauwkeurigheid voorspellingen te doen. Daarom worden ze dikwijls beschreven als ‘black-box’ systemen die niet transparant zijn. Deze sessie behandelt een aantal topics over het nemen van beslissingen op basis van machine learning. Bart Buelens, Senior Data Scientist, Vlaamse Instelling voor Technologisch Onderzoek (VITO), België Machine learning (Pdf - 1,4 MB)(PDF bestand opent in nieuw venster) Joep Burger, Team Methodologie Heerlen, Statistics Netherlands Het gebruik van machine learning bij openbare statistieken: twee case studies (Pdf - 1,7 MB)(PDF bestand opent in nieuw venster) Chang Sun, doctoraatsstudent in de Universiteit van Maastricht, Data Science Instituut, Nederland Een veilige omgeving om persoonlijke gegevens uit meerdere bronnen te analyseren op een manier die privacy beschermt (Pdf - 1,7 MB)(PDF bestand opent in nieuw venster) Sessie 2. Natural Language Processing - Voorzitter: Piet Daas Natural language processing onderzoekt hoe grote hoeveelheden van data, die uit taalgegevens bestaan, via computers verwerkt en geanalyseerd kunnen worden. Een voorbeeld is het gebruik van sociale media om het aantal berichten over of het sentiment tegenover bepaalde onderwerpen te meten. Het nut van deze sentimentanalyse is bijvoorbeeld al aangetoond voor het meten van het consumentenvertrouwen. Web scraping, waarbij data van websites wordt verzameld, wordt ook in verschillende onderzoeksdomeinen gebruikt, bijvoorbeeld in het kader van vacaturestatistieken. Piet Daas, senior-methodoloog en CBS big data specialist, bijzonder hoogleraar Big Data in Official Statistics bij de Technische Universiteit Eindhoven, Nederland Natural Language Processing (Pdf - 1 MB)(PDF bestand opent in nieuw venster) Martina Hahn, Hoofd methodologie en innovatie in officiële statistieken, Eurostat De ‘Web Intelligence Hub’ – het gebruik en de analyse van ‘web scraped’ data in verschillende statistische domeinen (Pdf - 1,1 MB)(PDF bestand opent in nieuw venster) Paul Keuren, Statistisch Onderzoeker / Software ingenieur in het CBS, Nederland Bron afhankelijke tekstanalyse (Pdf - 250 kB)(PDF bestand opent in nieuw venster) Sessie 3. Beelden en visualisatie - Voorzitter: Edwin de Jonge Deze sessie bekijkt twee aspecten van het gebruik van beelden: enerzijds beelden als een databron, en anderzijds de visualisatie van data voor een breed publiek. Basisgegevens voor ‘data science’-toepassingen kunnen bestaan uit beelden zoals satellietbeelden of beelden van Google street view, wat nieuwe uitdagingen impliceert. Daarnaast is er het snel groeiende onderzoeksveld van datavisualisatie, waarbij abstracte informatie efficiënter toegankelijk wordt gemaakt dan ooit het geval was. Deze sessie geeft een overzicht van enkele projecten waar beeldmateriaal als data is gebruikt, en van een aantal toepassingen op het gebied van datavisualisatie en dashboards waar abstracte data vertaald worden tot gebruiksvriendelijke informatie. Edwin de Jonge, statistisch consultant, methodoloog bij Statistics Netherlands Beelden en visualisatie (Pdf - 2,7 MB)(PDF bestand opent in nieuw venster) Chris Bonham, Senior Data Scientist bij Data Science Campus, Office for National Statistics, UK Teledetectie en machinaal leren om de vegetatie in stedelijke residentiële tuinen te identificeren (Pdf - 2,7 MB)(PDF bestand opent in nieuw venster) Karim Douïeb, data scientist en data visualisatie designer, mede-oprichter van Jetpack.AI Waarom zijn officiële statistieken belangrijk om sociale kwesties te begrijpen? (Pdf - 2,3 MB)(PDF bestand opent in nieuw venster) Sessie 4. Voorwaarden voor een effectief gebruik van data science - Voorzitters: Johan Van der Valk and Sofie De Broe Het nut van data science om beslissingen te ondersteunen, hangt niet enkel af van statistische en technische standaarden. Verschillende ethische en organisatorische kenmerken zijn belangrijke randvoorwaarden om een optimale context te creëren voor een effectief ‘data science’-gebruik. Vooreerst zijn er belangrijke debatten over ethiek en privacy gaande binnen het groeiende onderzoekdomein van data science, waarmee men rekening moet houden als deze technieken worden toegepast op real-life data. Ten tweede vergt de verdere ontwikkeling van een ‘data science’-capaciteit voor openbare statistieken de actieve samenwerking tussen statistische entiteiten binnen de overheid en internationale entiteiten zoals de VN en Eurostat. Dit volgt uit het globale karakter van vele ‘big data’-databronnen en van huidige beleidsbeslissingen. Ten derde zijn de toeleveraars van big data dikwijls privébedrijven. Hoe kunnen we best een duurzame relatie opbouwen met deze toeleveraars? Ten slotte worden samenwerkingsverbanden opgezet met universiteiten en met bedrijven om het gebruik van deze beloftevolle technieken voor de ontwikkeling, productie en kwaliteitsverbetering van openbare statistieken te optimaliseren. Ook dit is een nieuwe uitdaging. Johan Van der Valk, coördinator grensoverschrijdende statistieken, en Sofie De Broe, wetenschappelijk directeur van het Centre for Big Data Statistics, beide CBS, Nederland Voorwaarden voor een effectief gebruik van data science (Pdf - 2,8 MB)(PDF bestand opent in nieuw venster) Jasmine Grimsley, Senior Data Scientist, Data Science campus, Office for National Statistics, UK Het onderhouden van ethische AI-systemen (Pdf - 1,4 MB)(PDF bestand opent in nieuw venster) Marc Ponsen, PhD. in het domein van artificiële intelligentie en data scientist, en Bob van de Berg, productontwikkelaar, beiden CBS, Nederland Verrijking van de big data-ontologie voor grensoverschrijdende vacatures en arbeidsmarktstatistieken (CBS) (Pdf - 1,8 MB)(PDF bestand opent in nieuw venster)

Studiedag "Data science for better decisions"

Helpdesk Statistiek Vlaanderen

Nieuwsbrief

Data

Publicaties

Statistiek Vlaanderen