Les data sont des traces, mais de quoi ? Pas de la réalité. Seulement de ce qui en est manifesté, des phénomènes.
Cette notion est le point « Emmanuel Kant » de la science des données ! Kant définit le phénomène comme « la manière dont une chose, un fait du monde physique (objet, action…), psychique (émotion, pensée…) ou social (produit d'interactions sociales) se manifeste à la sensibilité d'un être vivant » (merci Wikipedia !).
C'est très pratique et opérationnel. Passer en revue ce que la réalité qui vous intéresse produit comme phénomènes, c'est déjà évaluer les types de data qu'il va être possible de collecter ou retrouver (et non partir bille en tête sur l'un d'entre eux, réflexe fréquent chez mes étudiants).
Si je vais en mission dans une cafétéria (hors période de fermeture 🧙) pour trouver comment améliorer ses affaires, que puis-je enregistrer ? Le repas lui-même n’est pas enregistrable. Mais par exemple :
- La trajectoire des personnes dans la salle
- La durée du repas
- Le montant de leur achat
- Leur sentiment après le repas… satisfaits ou pas ?
- Et encore ?…
À propos, Kant souligne que nous percevons les phénomènes à travers l’espace et le temps. Ces dimensions qui portent les data restent une référence majeure pour le deep learning — dont les professionnels pourront comprendre la citation suivante au-delà de la première ligne :
Spatial relationships are essential for sensory reasoning (Kant, 1781) and… permutation invariance, [implying] that the Perceiver’s architecture cannot in and of itself exploit spatial relationships in the input data… is clearly [an] unsatisfying [limitation].
In the attentional literature, positional information is typically injected by tagging positional encodings onto the input features (Vaswani et al., 2017), and this is the strategy we pursue here. While positional information is typically used to encode sequence position in the context of language, it may be used to encode spatial, temporal, and modality identity as well.
Andrew Jaegle (Google DeepMind) et al.,
“Perceiver: General Perception with Iterative Attention”, 2021