dimanche 19 mai 2019

Qwant, Microsoft et Vivatech

J’ai passé 3 jours sur le stand Qwant à Vivatech, et les questions ont fusé suite aux annonces. Je fais donc à l’arrache un article qui j’espère répondra aux questions fréquemment posées sans révéler de choses confidentielles. Je pense que mes collègues publieront la semaine prochaine un billet de blog officiel plus technique sur ce sujet.

Pourquoi ce partenariat avec Microsoft ?

Qwant connaît une très forte croissance (en gros le nombre de requêtes double chaque année[1]), ce qui veut dire qu’il faut augmenter notre capacité serveurs en conséquence. Par ailleurs, nous travaillons à améliorer sans cesse la qualité de nos résultats, ce qui implique de disposer de plus de puissance de calcul pour mieux indexer le Web (lequel est lui aussi en croissance). Tout cela fait que nous devons investir massivement dans l’infrastructure de la façon la plus efficace possible compte tenu des finances dont nous disposons (qui sont infiniment moindre que celle de nos concurrents américains).

Par ailleurs, les utilisateurs de Qwant ont bien remarqué que Microsoft est un partenaire de longue date de Qwant, puisque ce sont eux qui font office de régie publicitaire et contribuent à compléter les résultats de recherche là où Qwant en a besoin comme sur les images comme expliqué dans ce billet. Autrement dit, quand vous voyez une publicité dans les pages de résultats suite à une recherche sur Qwant, vous avez une publicité fournie par Microsoft, c’est d’ailleurs marqué en toutes lettres en bas à droite du bloc publicitaire.

Pub Microsoft sur Qwant.png

Pour en revenir au besoin de puissance supplémentaire, deux possibilités se présentent : acheter des serveurs (ce qu’on a fait jusqu’à présent) ou en louer à des professionnels du Cloud. Maintenant, nous allons faire les deux : acheter des serveurs pour mettre dans nos baies de Datacenter et aussi en louer. Ça va nous permettre d’avoir un Qwant encore plus performant et de meilleur qualité alors qu’il reçoit de plus en plus de demandes.

La vie privée est elle menacée par cet accord ?

Non. C’était bien sûr un point fondamental pour nous et Microsoft l’a bien compris. Pour ceux que la technique intéressent, voici comment nous avons fait pour nous en assurer.

Un moteur de recherche, c’est en gros 4 étapes (j’espère que les spécialistes me pardonneront les simplifications que je fais ci-dessous et que les autre tolèreront mon franglais technique) :

  1. Crawling : parcourir le Web pour lire les pages Web. Evidemment, il y a ici un gros besoin de bande passante ;
  2. Ranking : calculer l’importance de chaque page, leur donner un rang : quelles sont celles qui sont populaires (par exemples parce qu’elles ont plein de liens entrants), quelle est leur qualité (est-ce du spam ou du contenu légitime ?) de façon à savoir lesquelles seront proposées en premier aux utilisateurs ;
  3. Indexation : calculer l’index des pages. Comme un index dans un livre, qui recense à quelle page on trouve quel mot ou quel concept. Super gourmand en calcul, vu qu’on travaille sur des dizaines de milliards de pages Web ! On notera que les données manipulées ne sont pas liées à l’utilisateur vu que ce sont des pages Web qui sont publiques. C’est cette partie-là qui tournera avec des algorithmes Qwant sur des machines qui seront louées à Microsoft.
  4. Front : c’est l’interaction avec l’utilisateur et donc la partie sensible au niveau vie privée, car c’est là qu’on a à la fois la requête de l’utilisateur (sa demande) et son adresse IP[2]. Cette partie reste bien sûr sur les serveurs Qwant (ça va sans dire mais ça va mieux en le disant).

Donc, pour résumer : seules des données issues du Web (et donc publiques) seront traitées par les algorithmes de Qwant qui tourneront sur les serveurs loués à Microsoft.

Pourquoi avoir choisi Microsoft ?

Nous avons tout d’abord essayé de travailler avec d’autres acteurs français et européens, mais Microsoft, avec son Cloud Azure, nous permet de faire des calculs de type FPGA et supporte aussi Kubernetes, ce qui est important pour nous et n’est pas encore suffisamment au point chez d’autres acteurs. Ils disposent aussi de machines équipées de SSD, (donc très performantes en terme d’entrées/sorties, ce qui est important pour l’index).

Signer avec Microsoft ne veut pas non plus dire que nous faisons toute l’indexation sur des machines Azure : nous indexons déjà 20 milliards de pages sur notre infrastructure, et donc nous voulons en indexer 80 milliards de plus sur des machines Azure. Nous conserverons de la capacité d’indexation sur notre infra et nous la ferons même grandir car il est essentiel de ne pas être trop dépendant d’un fournisseur, quel qu’il soit.

Quand même, Microsoft, c’est pas le diable ?

J’avoue que quand je suis allé au Campus Microsoft à Issy les Moulineaux, j’ai un peu eu l’impression de visiter l’Étoile Noire :-D . Mais bon, la guerre des navigateurs et “Linux c’est le cancer” c’était au siècle dernier et depuis Microsoft a bien changé. Ils ont racheté GitHub, ils intègrent un noyau Linux dans Windows 10. Microsoft n’est jamais aussi bon et fréquentable que quand il est challenger. Assurons-nous que cela reste ainsi ;-)

Notes

[1] Et de nombreuses entreprises et administrations annoncent mettre Qwant par défaut sur leurs postes comme BNP Paribas ou l’administration qui va faire une circulaire visant le basculement vers Qwant de 4 millions de postes, ou le lancement de nouveaux produits comme Qwant Causes.

[2] Je rappelle que l’adresse IP est hachée et saltée aussitôt que possible pour empêcher tout rapprochement ultérieur de la requête et de l’IP.

vendredi 10 mai 2019

En vrac du vendredi

Technologie et startups :

Facebook

Amazon

Google :

  • Oracle balance comment Google nous traque dans le monde réel et ça fait mal. Le plus dramatique, c’est qu’Oracle semble… jaloux de la firme de Mountain View !
  • Google va mettre dans Chrome une fonctionnalité pour contrôler les cookies… pour nous faire croire qu’ils sont pour la vie privée. « Un truc pas facile à faire gober, compte tenu de l’immense quantité de données utilisateurs qu’ils récupèrent » explique le Wall Street Journal ;
  • Google multiplie les mesurettes pour la vie privée « Après Facebook, c’est au tour de Google de profiter de son show annuel pour une séance de privacy washing. Le géant américain veut se montrer plus respectueux de nos données, sans changement de fond. Il est surtout question de petites évolutions et autres subtilités dans sa communication. » Comme l’intertitre l’indique, il n’y a pas de minimisation de la collecte. Google va donc continuer au prendre autant de données personnelles qu’avant…

Divers

Climat

lundi 6 mai 2019

Réinventer la citoyenneté à l'heure d'Internet

banniere 5juin.jpg

Le 5 juin 2019 de 18 h à 20 h, avec plein de gens qui ont toute la considération et avec qui je partage mon éditeur, C & F Éditions, je vais participer à une table ronde qui se tiendra à Bagnolet (Métro Gallieni). Plus de détails sur https://cfeditions.com/5juin/

vendredi 19 avril 2019

En vrac du jeudi

Arbre en fleurs

Facebook bat des records

Cette semaine, Facebook nous fait un festival de conneries, de scandales et d’embrouilles. Cette boîte s’enfonce à chaque fois un peu plus. Une honte pour toute l’industrie du numérique. Je propose qu’elle change de slogan et remplace son “Move fast and break things” par un plus lucide « Dans le pire, nous ne sommes jamais décevants ». Florilège :

Google n’est pas en reste

En vrac sur le numérique

En vrac sur la politique, le climat, et l’environnement

jeudi 11 avril 2019

En vrac du mercredi : climat et numérique

Velo Moustache au bois de Boulogne au printemps.jpg

À propos de numérique

À propos d’environnement

- page 1 de 927