SÉNAT DE BELGIQUE BELGISCHE SENAAT
________________
Session 2011-2012 Zitting 2011-2012
________________
29 aôut 2012 29 augustus 2012
________________
Question écrite n° 5-6949 Schriftelijke vraag nr. 5-6949

de Alexander De Croo (Open Vld)

van Alexander De Croo (Open Vld)

au vice-premier ministre et ministre des Finances et du Développement durable, chargé de la Fonction publique

aan de vice-eersteminister en minister van Financiën en Duurzame Ontwikkeling, belast met Ambtenarenzaken
________________
BNB - Utilisation de données de Google en tant qu'indicateurs économiques - Prévisions conjoncturelles NBB - Gebruik data van Google als economische indicatoren - Voorspellen van conjuctuur 
________________
banque centrale
Internet
moteur de recherche
prévision économique
indicateur économique
intelligence économique
analyse économique
centrale bank
internet
zoekmachine
economische prognose
economische indicator
economische informatievergaring
economische analyse
________ ________
29/8/2012Verzending vraag
28/9/2012Antwoord
29/8/2012Verzending vraag
28/9/2012Antwoord
________ ________
Ook gesteld aan : schriftelijke vraag 5-6950 Ook gesteld aan : schriftelijke vraag 5-6950
________ ________
Question n° 5-6949 du 29 aôut 2012 : (Question posée en néerlandais) Vraag nr. 5-6949 d.d. 29 augustus 2012 : (Vraag gesteld in het Nederlands)

Les banques centrales du monde entier ont de plus en plus souvent recours à Google pour prévoir des tendances économiques telles que le chômage, la demande de biens de consommation et les bulles immobilières.

Les indicateurs économiques traditionnels tels que le produit intérieur brut et les ventes immobilières sont liés au passé. Or, les économistes établissent des prévisions à partir de ces données. Pour le professeur Erik Brynjofsson, c'est comme s'ils « regardaient dans le rétroviseur ».

Les recherches Google, en revanche, sont plutôt axées sur le futur et auraient dès lors une valeur prospective supérieure. Cela fait déjà un an que la Banque centrale israélienne se sert de ces données. Depuis lors, les banques américaine, britannique, italienne, espagnole, turque et chilienne utilisent elles aussi Google. La Banque israélienne a constaté, dans sa propre enquête, que les données de Google pouvaient permettre de prévoir les récessions.

Si les banques centrales savent mieux prédire la santé de l'économie, elles sont également mieux placées pour agir de manière correcte et proactive. L'une des raisons de l'attrait pour Google en tant qu'indicateur économique est la rapidité avec laquelle l'information est mise en ligne. Aux États-Unis, les statistiques officielles sont confectionnées sur une base mensuelle avec un retard de deux semaines. Google a besoin de trois jours tout au plus.

Ce piètre résultat m'amène à poser au ministre les questions suivantes :

1) Reconnaissez-vous le potentiel que présentent les termes de recherche sur internet, tant sur le plan économique qu'en tant qu'instrument politique permettant de suivre de près la conjoncture ?

2) La Banque nationale de Belgique (BNB) utilise-t-elle d'ores et déjà les données de moteurs de recherche tels que Google et/ou des médias sociaux pour découvrir plus rapidement les nouvelles tendances ? Dans l'affirmative, pouvez-vous fournir une explication concrète et les données sont-elles payées ? Dans la négative, pourquoi pas et pourrait-elle éventuellement y avoir recours dans le futur ?

2) Votre cellule stratégique et/ou vos services d'appui utilisent-ils les données des moteurs de recherche tels que Google et/ou des médias sociaux ? Dans l'affirmative, quelle est la finalité de ces données ? Dans la négative, pourquoi ?

 

De centrale banken van de wereld doen in toenemende mate een beroep op Google om economische trends te voorspellen, waaronder werkloosheid, de vraag naar consumptiegoederen en vastgoedbubbels.

Traditionele economische indicatoren als bruto binnenlands product en vastgoedverkopen houden verband met het verleden. Economen maken dan voorspellingen op basis van zulke data, een gebruik dat MIT-professor Erik Brynjofsson 'in de achteruitkijkspiegel kijken' noemt.

Google-zoekopdrachten daarentegen zijn eerder naar de toekomst gericht en zouden dan ook hogere voorspellende waarde hebben. De Israëlische centrale bank gebruikt deze data al jaren lang en ook de Amerikaanse, Britse, Italiaanse, Spaanse, Turkse en Chileense banken gebruiken Google inmiddels. De Bank van Israël stelde in zijn eigen onderzoek vast dat recessies kunnen worden voorspeld op basis van Googledata.

Als centrale banken de gezondheid van de economie beter kunnen voorspellen, zijn ze ook in een betere positie om correct en proactief te handelen. Één van de redenen waarom Google zo aantrekkelijk is als economische indicator is de snelheid waarmee de informatie online wordt gezet. Officiële statistieken worden in de VS op maandelijkse basis opgesteld met een vertraging van twee weken. Google heeft maximaal drie dagen nodig.

Ik had naar aanleiding van dit slechte resultaat dan ook volgende vragen voor de minister:

1) Onderschrijft u het potentieel van zoektermen op het internet in economisch verband alsook als beleidsinstrument om de vinger aan de pols te houden wat betreft de conjunctuur?

2) Maakt de Nationale Bank van België (NBB) heden reeds gebruik van de data van zoekmachines zoals Google en/of sociale media om bepaalde trends sneller te ontdekken? Zo ja, kan dit concreet worden toegelicht en wordt er voor de data betaald? Zo neen, waarom niet en zouden zij hiervan eventueel gebruik maken naar de toekomst toe?

2) Maakt uw beleidscel en/of uw ondersteunende diensten gebruik van de data van zoekmachines op het internet zoals Google en/of sociale media? Zo ja, waarvoor worden deze data gebruikt? Zo neen, waarom niet?

 
Réponse reçue le 28 septembre 2012 : Antwoord ontvangen op 28 september 2012 :

1.Les statistiques économiques sont généralement publiées quelques semaines à quelques mois après l'activité qu'elles mesurent. Afin de pouvoir prendre les meilleures décisions possibles en matière de politique économique, il est nécessaire de disposer d'informations rapides et fiables.

L'intensification de l'usage d'internet permet de fournir une information rapide sur le comportement des consommateurs, et donc sur certaines variables économiques, avant que les données quantitatives ne soient publiées. Des outils comme par exemple Google Insight Search (GIS) permettent de comparer la popularité des recherches relatives à certains mots/phrases dans la totalité des recherches et ce, par zone géographique et période.

Les données GIS sont, en autres, utilisées dans le domaine économique. L'idée est, en gros, la suivante. On détermine tout d'abord le modèle économétrique le plus performant sur base des statistiques économiques. On introduit ensuite l'index GIS comme variable explicative additionnelle et on regarde si la qualité de l'estimation augmente.

La littérature indique que, pour certaines variables économiques comme les ventes au détail, les ventes de voitures et le chômage, l'inclusion des requêtes Google comme variable explicative permet d'augmenter le pouvoir explicatif des modèles. En d'autres termes, les données GIS apporte une information utile, non disponible dans les autres variables explicatives. Pour d'autres variables d'intérêt, les données GIS n'améliorent pas les estimations. Dans certains cas, les résultats sont robustes au travers de différentes spécifications de modèle et différentes périodes. Dans d'autres cas, les résultats sont sensibles au type de spécification retenu.

Les résultats des recherches réalisées jusqu'à présent montrent, que les données sur les requêtes Google possèdent un potentiel d'analyse. Elles peuvent s'avérer utiles pour tirer des inférences sur l'état actuel de l'économie. Les données GIS ont l'avantage de la rapidité, de la gratuité, de la fréquence élevée. Elles peuvent être intéressantes en cas de chocs non répétitifs, lorsque les valeurs passées des variables économiques perdent leur pouvoir prédictif.

Les données sur les requêtes Google présentent toutefois certaines faiblesses en matière d'exploitation et d'interprétation, ce qui requiert une utilisation prudente.

Du point de vue méthodologique :

Chaque fois que GIS génère des données, il sélectionne un nouvel échantillon aléatoire. Ce nouvel échantillon est stocké dans les serveurs Google pour une durée d'un jour, ce qui implique que l'index peut varier d'un jour à l'autre. Cet élément introduit une volatilité dans les résultats, ce qui nécessite un traitement particulier.

Du point de vue statistique :

Les données GIS peuvent présenter un biais. L'usage d'internet est corrélé avec des facteurs démographiques comme l'âge, le niveau d'éducation et le revenu, de sorte que l'échantillon peut ne pas être représentatif de la population. Or, les données GIS ne sont pas corrigées pour la sous-représentation de certaines catégories.

L'utilisation des données GIS n'est pas généralisable à l'ensemble des variables économiques étant donné que, pour certaines d'entre elles, les études montrent que les données GIS n'apportent pas de pouvoir explicatif supérieur aux modèles conventionnels. De plus, certaines activités économiques n'impliquent pas nécessairement une recherche préalable sur internet, par exemple les décisions de firmes en matière d'investissements. Dans ce cas, aucune information n'est disponible.

Certains internautes jugent qu'il est plus efficace d'obtenir une réponse rapide via des réseaux sociaux qui utilisent la connaissance de ses utilisateurs, que d'extraire des informations de websites et de passer via des hyperliens.

Du point de vue sémantique:

Il est important de vérifier que l'index de GIS porte bien sur l'information souhaitée. Plusieurs erreurs peuvent, en effet, apparaître. Par exemple, une recherche sur le terme « jobs » prend également en compte le mot « Steve Jobs ». Cet outil ne peut donc pas être utilisé de manière purement routinière mais demande, à chaque fois, une analyse préliminaire afin d'éliminer les recherches non pertinentes.

En outre, différents utilisateurs intéressés dans le même sujet peuvent rentrer des requêtes totalement divergentes. De la même manière, des utilisateurs avec des intentions totalement différentes peuvent introduire des requêtes fort similaires. Cet élément peut introduire du bruit (noise) dans les données.

En conclusion, les informations GIS doivent être considérées comme un outil supplémentaire dans l'analyse de la situation économique.

2. A l'heure actuelle, la Banque nationale de Belgique n'utilise pas les données des requêtes sur Google.

Vu le potentiel de croissance de ces données et leur pouvoir explicatif rapporté par certaines études pour certaines variables, il n'est pas exclu que la Banque nationale de Belgique exploite ces informations. Néanmoins, comme décrit à la question précédente, il reste des faiblesses dans l'exploitation et l'interprétation de ces données qui doivent être solutionnées.

3. La cellule politique et les services de soutien ne font pas leurs propres projections économiques, mais utilisent les informations provenant du budget économique de l'ICN, ainsi que le prescrit la loi. Par conséquent, aucune donnée provenant de google ou d'autres médias sociaux n’est utilisée dans cette optique.

1.De economische statistieken worden over het algemeen enkele weken tot enkele maanden na de gemeten activiteit gepubliceerd. Om inzake economisch beleid de best mogelijke beslissingen te kunnen nemen, is het noodzakelijk om snel over betrouwbare informatie te beschikken.

Op basis van een doorgedreven gebruik van het internet kan snel informatie worden verstrekt over het gedrag van de consumenten en dus over bepaalde economische variabelen, vóór de publicatie van de kwantitatieve gegevens. Met tools zoals bijvoorbeeld Google Insight Search (GIS), kan de populariteit van de opzoekingen met betrekking tot bepaalde woorden/zinnen in het geheel van de opzoekingen worden opgespoord en dit per geografische zone en periode.

De GIS-gegevens worden onder andere op het gebied van de economie gebruikt. Het achterliggende idee is in grote lijnen het volgende. Vooreerst wordt op basis van economische statistieken het meest performante econometrische model opgesteld. Vervolgens wordt de GIS-index als een bijkomende verklarende variabele ingevoerd en wordt er nagegaan of de kwaliteit van de raming verbetert.

De literatuur geeft aan dat, voor bepaalde economische variabelen zoals de kleinhandelsverkopen, de autoverkoop en de werkloosheid, het opnemen van de opzoekingen in Google als verklarende variabele tot een verbetering leidt van de verklarende kracht van de modellen. Met andere woorden, de GIS-gegevens zijn nuttige informatie die in de andere verklarende variabelen niet te vinden zijn. Voor andere belangrijke variabelen verbeteren de GIS-gegevens de ramingen niet. In bepaalde gevallen zijn er sterke resultaten doorheen de verschillende modelspecificaties en de verschillende periodes. In andere gevallen zijn de resultaten gevoelig voor het specificatietype dat in aanmerking wordt genomen.

De resultaten van het tot op heden uitgevoerde onderzoek tonen aan dat de gegevens over de opzoekingen in Google een analysepotentieel vertonen. Ze kunnen nuttig zijn om gevolgtrekkingen te maken over de huidige toestand van de economie. De GIS-gegevens hebben het voordeel dat ze snel, gratis en frequent beschikbaar zijn. Ze kunnen interessant zijn in geval van niet-repetitieve schokken, wanneer de waarden uit het verleden van de economische variabelen hun voorspellende kracht verliezen.

De gegevens over de opzoekingen in Google vertonen niettemin ook enkele zwakten inzake exploitatie en interpretatie, waardoor een voorzichtig gebruik ervan nodig is.

Vanuit methodologisch oogpunt:

Telkens GIS gegevens genereert, selecteert het een nieuwe willekeurige steekproef. Deze nieuwe steekproef wordt in de Google-servers opgeslagen voor de duur van één dag, wat tot gevolg heeft dat de index van dag tot dag kan variëren. Dit gegeven zorgt voor volatiliteit in de resultaten en daarom is een bijzondere verwerking nodig.

Vanuit statistisch oogpunt:

De GIS-gegevens kunnen een systematische fout vertonen. Het gebruik van internet hangt samen met demografische factoren zoals leeftijd, scholingsgraad en inkomen, zodat het mogelijk is dat de steekproef niet representatief is voor de hele bevolking. Welnu, de GIS-gegevens worden niet gecorrigeerd voor de ondervertegenwoordiging van bepaalde categorieën.

Het gebruik van de GIS-gegevens is niet veralgemeenbaar tot alle economische variabelen, aangezien, voor sommige daarvan, studies aantonen dat de GIS-gegevens de verklarende kracht van de conventionele modellen niet verbeteren. Bovendien impliceren niet alle economische activiteiten noodzakelijkerwijs een voorafgaande opzoeking op het internet, bijvoorbeeld de investeringsbeslissingen van ondernemingen. In dat geval zijn er geen inlichtingen beschikbaar.

Bepaalde internauten zijn van oordeel dat het doeltreffender is om snel een antwoord te krijgen via de sociale netwerken, die gebruikmaken van de kennis van de gebruikers ervan, dan inlichtingen te halen uit websites en via hyperlinks te gaan.

Vanuit semantisch oogpunt:

Het is belangrijk om na te gaan of de GIS-index wel degelijk op de gewenste informatie slaat. Verscheidene fouten kunnen inderdaad aan het licht komen. Bijvoorbeeld, een opzoeking op de term “jobs” slaat ook op het woord “Steve Jobs”. Dit instrument mag dus niet louter routinematig worden aangewend. Er is telkens een voorafgaande analyse nodig om niet-relevante opzoekingen uit te sluiten.

Bovendien kunnen verschillende gebruikers die zich voor hetzelfde onderwerp interesseren totaal uiteenlopende opzoekingen uitvoeren. Zo ook kunnen gebruikers die totaal verschillende intenties hebben zeer gelijkaardige opzoekingen uitvoeren. Dit element kan voor ruis zorgen in de gegevens.

Tot besluit kan worden gesteld dat de GIS-inlichtingen als een bijkomend instrument in de analyse van de economische toestand moeten worden aangemerkt.

2. Momenteel maakt de Nationale Bank van België geen gebruik van de opzoekingen in Google. Gelet op het groeipotentieel van deze gegevens en op de verklarende kracht ervan die in sommige studies voor bepaalde variabelen wordt gerapporteerd, is het niet uitgesloten dat de NBB deze inlichtingen zou gebruiken. Zoals hiervoor werd beschreven, vertoont de exploitatie en de interpretatie van deze gegevens zwakten waarvoor een oplossing moet worden gevonden.

3. De beleidscel en de ondersteunende diensten maken geen eigen economische projecties maar gebruiken de informatie afkomstig van de economische begroting van het INR zoals voorgeschreven door de wet. Bijgevolg worden ook geen data van google of andere sociale media gebruikt in dit kader.