Le 25 février dernier, Trendeo était invité au Data Tuesday. Nous y avons présenté l’observatoire de l’emploi et de l’investissement, sous l’angle de la « statistique privée ». Le texte ci-dessous commente et prolonge les données présentées, sans, loin de là, épuiser le sujet – pour cela, il faudrait présenter plus amplement la statistique officielle, comparer les techniques de collecte de données utilisées par les statisticiens publics et les méthodes utilisées pour construire des statistiques privées, etc.

Trendeo, Premise et la statistique privée, Data tuesday 25 02 2014

Notre conviction, depuis le lancement de Trendeo et de l’observatoire, en 2009, est qu’il est possible, en collectant de façon systématique des données sur Internet, de constituer des séries de données représentatives. En 2009, nous n’aurions jamais osé présenter notre travail comme de la « statistique privée ». Mais aujourd’hui nous pouvons être plus affirmatifs et commencer à rapprocher notre travail d’un domaine en émergence, la statistique privée, ou production de statistiques par des acteurs privés.

Deux éléments nous confortent dans ce sens.

D’abord, nous disposons maintenant de cinq années de données complètes sur l’emploi et l’investissement en France, produites par Trendeo au bénéfice de ses clients, que nous pouvons comparer avec des séries statistiques officielles. Avec les données emploi de l’INSEE (http://www.insee.fr/fr/themes/indicateur.asp?id=30), nous pouvons ainsi constater aujourd’hui une corrélation de 76% au niveau semestriel.

 Ensuite, nous saluons la création de Premise, une société dont Google Ventures est actionnaire, et dont l’objet est de créer des séries statistiques sur les indices de prix (globaux et matières premières). Premise constate également, sur le segment des prix alimentaires aux USA, une corrélation de 56% entre ses données et l’indice officiel (http://www.forbes.com/sites/bruceupbin/2013/10/15/heres-that-inflation-data-our-incompetent-government-isnt-producing-and-its-not-pretty/).

Ce n’est qu’un début mais, pour une activité encore jeune, il est prometteur.

Les thèmes ne manquent d’ailleurs pas sur lesquels des statistiques privées pourraient être collectées : levées de fonds, mécénat… La difficulté est, pour chacun de ces sujets, de trouver un public capable de supporter les coûts du recueil et de la mise en forme des données de base (relevés de prix, annonces de suppressions ou de créations d’emplois).

Le champ de la statistique privée est donc émergent et satisfait déjà les besoins de données complémentaires ressentis par des acteurs tels que collectivités territoriales, groupes privés ou syndicats professionnels. On peut cependant se poser quelques questions sur la valeur et l’intérêt de ces séries.

Les données produites sont-elles de qualité comparable à celles des organismes statistiques officiels ?

Pour l’heure, certainement pas, mais ce n’est pas d’ailleurs forcément l’objectif recherché.

Les mesures de corrélation indiquées plus haut montrent déjà une certaine aptitude des statistiques privées à reproduire l’évolution des statistiques officielles. Pour les données Trendeo par exemple, nous pensons observer entre 30% et 50% des variations réelles de l’emploi en France, telles que mesurées par l’INSEE. Il nous manque par exemple de pouvoir observer les mouvements dans les très petites entreprises, les embauches ou licenciements « discrets », par petit nombre, que la presse ou les sites Internet spécialisés ne signalent pas. De la même façon, les mouvements de l’emploi intérimaire sont probablement moins visibles, alors même qu’ils jouent un rôle important dans les variations de l’emploi. Nous pensons donc refléter correctement les tendances et les évolutions géographiques ou temporelles, mais pas le niveau absolu de l’emploi créé ou supprimé. Un redressement serait nécessaire pour mieux coller aux données réelles.

Les mêmes limitations pèsent sur Premise, qui ne peut pas encore, par exemple, mesurer l’indice des prix global aux États-Unis, mais seulement des indices sectoriels.

Malgré ces limites, les données issues de la statistique privée peuvent compléter de façon pertinente les données statistiques officielles, pour trois raisons.

Tout d’abord, les données sont accessibles en temps réel. Au mois de mars 2014, nous pouvons par exemple, sur les données emploi de Trendeo, constater que l’amélioration légère constatée en février, se poursuit et s’amplifie légèrement.

Premise revendique également de refléter en temps réel l’évolution des prix d’un grand nombre de matières premières.

Ensuite, les données sont accessibles avec une granularité totale.

Les données Trendeo peuvent être obtenues avec une agrégation par secteur d’activité, par commune, zone d’emploi, département ou région. Elles peuvent même être obtenues au niveau détaillé, opération par opération, entreprise par entreprise – certains de nos utilisateurs ne sont d’ailleurs intéressés que par cet aspect micro-économique, dans une perspective de veille commerciale par exemple.

Premise communique également des données agrégées ou totalement granulaires, y compris au niveau du magasin dans lequel les prix ont été relevés.

premise2

Les données officielles au niveau le plus fin, microéconomique, sont, en revanche, la plupart du temps, couvertes par le secret statistique (http://www.insee.fr/fr/insee-statistique-publique/default.asp?page=statistique-publique/secret-statistique.htm).

Enfin, les techniques de collecte d’information sur Internet, utilisées par la statistiques privée, plus ou moins automatisées, sont souples et autorisent la création de séries statistiques innovantes : Trendeo publie régulièrement des données sur les fermetures d’usines en France, ou sur l’évolution de l’emploi dans le secteur de la R&D, qui sont autant de données peu aisément disponibles dans l’ensemble des statistiques officielles. Premise, de son côté, annonce avoir détecté avant la réaction de la Banque Centrale de l’Inde, un mouvement d’inflation incontrôlé sur les prix alimentaires (http://www.livemint.com/Specials/BRxeIrWvMqPac934tRocuL/Price-rise-The-original-Premise-on-data.html).

Statistique privée ou big data ?

Il peut y avoir un lien entre statistiques privées et big data. Premise annonce recueillir près de 50 000 données par heure, sur des sites de e-commerce par exemple. Mais une part importante des données doit faire l’objet d’un recueil manuel qui en relève pas du big data : Premise paie ainsi 700 « collecteurs de données terrain » dans 25 villes dans le monde, pour photographier avec un smartphone les prix de produits alimentaires, directement sur les étalages. Chez Trendeo, pas de big data mais des données collectées sur une trentaine d’opérations quotidiennes, soit plus de 30 000 opérations depuis 2009 (chaque opération étant décrite par une trentaine de champs).

De fait, la statistique publique ne relève pas non plus du big data, même si elle nécessite un grand nombre de données – l’INSEE annonce 7 200 relevés de prix quotidiens, pour le calcul de l’indice des prix, effectués par des agents sur le terrain.

*

Ce qui comptera, dans le progrès des statistiques privées, est de connaitre les biais qui peuvent affecter chacune des séries produites, pour pouvoir éventuellement les redresser et coller au plus près de l’évolution réelle des tendances économiques que l’on souhaite refléter. A côté du big data, en faisant recours parfois aux techniques propres au big data, mais pas toujours et probablement pas de façon indispensable, la statistique privée peut prendre place comme un secteur nouveau auquel un bel avenir est promis.