Mylène Maïda : DPP, de la géométrie aléatoire aux moteurs de recherche

Mylène Maïda nous parle des processus ponctuels déterminantaux, ou comment, partant de configurations de points, on peut modéliser la répartition spatiale des termitières, repenser les moteurs de recherche ou utiliser différemment les méthodes de Monte-Carlo !

Questions :
0’00 : Bonjour Mylène, tu nous parles de DPP, qu’est-ce que c’est ?
1’15 : Et donc, ça fait intervenir de l’algèbre et des probabilités ?
2’34 : Ces processus, ils servent à quoi ? (c’est là qu’on parle de termitières)
3’28 : Et il y a des interactions entre les DPP et les autres disciplines, en particulier l’informatique ? (c’est là qu’on parle de moteurs de recherche et de jaguars)
5’35 : Il y a aussi des intérêts numériques aux DPP… (c’est là qu’on parle de Monte-Carlo)

Cette vidéo peut être complétée par la lecture d’un article introductif dans la Gazette des mathématiciens : Processus ponctuels déterminantaux, par Adrien Hardy et Mylène Maïda (numéro 157, année 2018).

Introduction

Si vous demandez à un enfant de 5 ans de dessiner des points au hasard dans un disque, il produira probablement une figure comme celle-ci,

qui ressemble plus à la figure de gauche ci-dessous qu’à la figure de droite.

Pourtant, la figure de droite est une réalisation d’un processus ponctuel (c’est-à-dire des configurations de points aléatoires dans l’espace) qui incarne de façon naturelle la notion de hasard en mathématiques : un processus de Poisson homogène, bien connu des probabilistes, constitué de points choisis de manière uniforme dans le disque et indépendamment les uns des autres. Rien n’empêche donc d’avoir plusieurs points très proches, ce que le cerveau humain non averti aura tendance à éviter pour de mystérieuses raisons.

La figure de gauche, elle, représente les valeurs propres dans le plan complexe d’une matrice à entrées indépendantes gaussiennes complexes (une gaussienne complexe est une variable aléatoire complexe dont la partie réelle et la partie imaginaire sont deux variables gaussiennes réelles indépendantes), dite matrice de Ginibre. Il semblerait que les enfants de 5 ans trouvent plus intuitif la notion de hasard portée par ce type de configurations structurées que ce que les processus de Poisson ont à raconter. On va discuter ici de cette structure sous-jacente, qui est un cas particulier d’une classe de processus ponctuels manifestant des propriétés assez singulières : les processus ponctuels déterminantaux, ci-après dénommés DPP (pour determinantal point processes).

Ce qui suit ne sera ni une introduction formelle ni un recensement exhaustif de ce vaste sujet mais plutôt un florilège de quelques DPP que nous trouvons particulièrement séduisants, piochés dans des domaines des mathématiques a priori éloignés. Le lecteur qui cherche une présentation plus approfondie pourra consulter des références devenues classiques comme Hough et al. (2006), Johansson (2006), Soshnikov (2000) et Lyons (2003).

Avant de commencer, pour satisfaire autant les amoureux des applications pratiques que les collectionneurs de gemmes mathématiques, imaginez-vous taper la requête « jaguar » dans un moteur de recherche. Dans les premières réponses, vous ne voulez pas obtenir 10 articles sur des voitures de sport, mais aussi un article sur l’animal au pelage tacheté, un sur le film de Francis Veber et peut-être un sur une équipe de football américain. Si on veut balayer large, il faut introduire dans les algorithmes utilisés une forme de répulsion entre les items proches : si un article a été sélectionné, les articles très proches ont moins de chance de l’être. On verra à la fin de cet article que les DPP ont déjà excité la curiosité des machine learners en offrant des solutions implémentables à ce type de problématiques, entre autres

Mon premier DPP : le processus des retenues.

Considérons le processus suivant, qui vous rappellera peut-être l’odeur de l’école primaire : on prend une colonne de chiffres et on les additionne au fur et à mesure en partant du haut. A chaque étape, on note à droite le chiffre des unités obtenu, on inscrit un point s’il y a une retenue, et on continue.

Si la colonne contient des chiffres aléatoires indépendants et identiquement distribués (iid) suivant la loi uniforme sur {\llbracket 0, 9 \rrbracket:={0, \ldots, 9}}, comment est distribué le processus des points associés aux retenues ?

Comme une colonne de chiffres iid uniformes sur {\llbracket 0, 9 \rrbracket} donne, après additions successives, une colonne de chiffres des unités également iid uniformes sur {\llbracket 0, 9 \rrbracket}, il est équivalent de considérer le processus ponctuel des descentes suivant, étudié en plus grande généralité par Borodin et al. (2010) : on se donne une colonne de {n+1} chiffres {S_0, S_1, \ldots, S_n} iid uniformes sur {\llbracket 0, 9 \rrbracket} et, à chaque ligne, on marque un point à droite si le chiffre qui s’y trouve est strictement inférieur à celui de la ligne au-dessus. Plus précisément, en posant

\displaystyle X_i := \mathbf{1}_{\{S_i < S_{i-1}\}}\in\{0,1\},

le processus ponctuel des descentes est donné par les configurations aléatoires

\displaystyle D_n:=\{ i \in \llbracket 1,n\rrbracket : \; X_i=1\}.

Par exemple, on obtient {D_7 = {2,4,7}} dans l’exemple suivant :

Le calcul simple

\mathbb{P}(\{i\} \subset D_n) = \mathbb{P}(X_i=1) = \mathbb{P}(S_i < S_{i-1}) = \frac{1}{10^2}\binom{10}{2}= \frac{9}{20}<\frac12

montre que, comme on pouvait s’y attendre, à chaque ligne on a un peu moins d’une chance sur deux d’avoir une descente/retenue. Aussi, la suite {X_1, \ldots, X_n} est une suite de variables aléatoires de Bernoulli (c’est-à-dire que {\mathbb{P}(X_i = 1) = 1- \mathbb{P}(X_i=0) = 9/20}) de paramètre {9/20} mais elles ne sont pas indépendantes. Intuitivement, si on a une retenue à une ligne donnée, le chiffre sur cette ligne a tendance à être petit et on a moins de chance d’en avoir une à la suivante. Sur la Figure 1, on compare une réalisation du processus {D_{100}} avec une configuration aléatoire {B_{100}={i \in \llbracket 1, 100 \rrbracket:\, Y_i=1}}{Y_1, \ldots, Y_{100}} sont des variables de Bernoulli iid de même paramètre {9/20.}

On voit bien apparaître une propriété d’association négative ou de répulsion entre les descentes adjacentes, analogue discret et unidimensionnel de ce que l’on observait sur la Figure 1 à gauche. Le calcul suivant confirme que deux descentes adjacentes sont négativement corrélées :

\displaystyle  \begin{array}{rll}  \mathbb{P}(\{i,i+1\}\subset D_n) & = \mathbb{P}(X_i= 1 \textrm{ et } X_{i+1}=1) \\ & = \mathbb{P}(S_{i+1}< S_i<S_{i-1}) \\ &= \frac{1}{10^3}\binom{10}{3} \\ &= \frac{3}{25} < \left(\frac9{20}\right)^2=\mathbb{P}(\{i\} \subset D_n)\,\mathbb{P}(\{i+1\} \subset D_n). \end{array}

En revanche, si {|i-j| >1,} l’indépendance des variables {S_i} donne

\displaystyle \mathbb{P}(\{i,j\}\subset D_n)=\mathbb{P}(X_i= 1 \textrm{ et } X_{j}=1) = \mathbb{P}(S_i<S_{i-1})\mathbb{P}(S_j<S_{j-1})=\left(\frac9{20}\right)^2

on dira que le processus est de portée 1.

Ensuite pour décrire complètement la loi du processus ponctuel des descentes, il suffit de déterminer {\mathbb{P}(A \subset D_n)} pour tout sous-ensemble {A} de {\llbracket 1, n \rrbracket.} Si {A} est de cardinal {k,} on parle de fonction de corrélation à {k} points, que l’on note {\rho_k(A).} Nous avons déjà déterminé la fonction de corrélation à un point, {\rho_1({i}) = 9/20} pour tout {i}, ainsi que la fonction de corrélation à deux points : pour tous {i \neq j,}

\displaystyle  \rho_2(\{i,j\}) = \left\{\begin{array}{ll} \left(\frac9{20}\right)^2 & \textrm{ si } |i-j| >1, \\ \;\;\frac{3}{25}& \textrm{ si } |i-j|=1. \end{array} \right.

Pour traiter le cas {k\geq 3}, si {A} est une suite consécutive de {k} nombres de {\llbracket 1, n \rrbracket,} on a {\rho_k(A) = \frac{1}{10^{k+1}}\binom{10}{k+1}.} Sinon on peut écrire {A= A_1 \cup A_2} avec {A_1} et {A_2} à distance au moins {2} et de cardinaux respectifs {k_1} et {k_2}, de sorte que {\rho_k(A) = \rho_{k_1}(A_1) \rho_{k_2} (A_2),} car le processus est de portée {1}. En travaillant un peu plus, on peut vérifier que cette collection de fonctions de corrélation est encodée par une fonction à deux variables {K:\llbracket 1, n \rrbracket^2\rightarrow{\mathbb R}} au sens où, pour tout {k \in \llbracket 1, n \rrbracket} et {s_1,\ldots,s_k\in\llbracket 1,n\rrbracket} distincts deux à deux, on a :

\displaystyle  \rho_k(\{s_1, \ldots, s_k\}) = \textrm{det}\Big[K(s_i, s_j)\Big]_{1 \le i,j \le k}.

On dit donc que le processus ponctuel {D_n} est déterminantal (DPP) de noyau {K.} Borodin, Diaconis et Fulman (2010) donnent une expression relativement explicite du noyau :

\displaystyle K(i,j) := \kappa(j-i) \,\, \textrm{ o\`u }\,\, \sum_{m \in \mathbb{Z}} \kappa(m) z^m = \frac{1}{1- (1-z)^{10}} .

Plus généralement, ils montrent que tout processus ponctuel sur un segment de {\mathbb{Z}} de portée 1 est déterminantal. Ils étudient également les descentes d’une permutation aléatoire : on dit qu’une permutation {\sigma} de {\llbracket 1, n \rrbracket} a une descente en {i} si {\sigma(i-1) > \sigma(i).} Si on choisit {\sigma} uniformément dans le groupe symétrique, le processus des descentes est déterminantal de noyau

\displaystyle K_{\textrm{per}}(i,j) := \kappa_{\textrm{per}}(j-i) \,\, \textrm{ o\`u }\,\, \sum_{m \in \mathbb{Z}} \kappa_{\textrm{per}}(m) z^m = \frac{1}{1- e^{z}} .

Notons que nous rencontrerons plus loin d’autres DPP intéressants en lien avec des permutations aléatoires.

DPP et matrices aléatoires.

Si l’étude mathématique des DPP a commencé dans les années 70 avec la thèse d’Odile Macchi, inspirée par le formalisme des fermions en mécanique quantique, c’est leur apparition en théorie des matrices aléatoires qui a largement popularisé les DPP. Nous présentons maintenant quelques résultats faisant apparaître le caractère déterminantal de l’ensemble des valeurs propres de certains modèles matriciels. Pour tous les résultats évoqués dans ce paragraphe, on renvoie par exemple à la monographie d’Anderson et al (2010)

Un premier exemple est celui des valeurs propres de matrices unitaires tirées « uniformément ». Plus précisément, pour {n\geq 1}, on équipe le groupe unitaire {U_n(\mathbb{C}) := \{U \in M_n( \mathbb{C} ) : UU^*=I_n\} } de son unique mesure de probabilité \nu_n invariante par multiplication à droite et à gauche, c’est-à-dire sa mesure de Haar normalisée. On obtient ainsi une variable aléatoire {V } à valeurs dans {U_n( \mathbb{C} ) } en spécifiant que {\mathbb{P}(V\in A)=\nu_n(A) } pour tout borelien {A\subset U_n( \mathbb{C} ) } . Nous nous intéressons alors à la loi jointe des {n} valeurs propres (aléatoires) de {V}. L’idée est d’effectuer le changement de variables qui, à une matrice unitaire, associe ses valeurs et vecteurs propres, et puis d’intégrer sur les vecteurs propres. Ainsi, si on note {\mathrm{e}^{\mathrm{i} \theta_1},\ldots,\mathrm{e}^{\mathrm{i}\theta_n}} les valeurs propres de la matrice aléatoire {V}, un calcul de jacobien classique dans les groupes de Lie attribué à Weyl montre que les phases {(\theta_1,\ldots,\theta_n)\in [-\pi,\pi]^n} ont pour loi de probabilité :

<a name= »CUE »> \mathrm{d} \mathbb{P}(\theta_1,\ldots,\theta_n)=\frac1{n!}\prod_{j<k} |\mathrm{e}^{\mathrm{i} \theta_j } - \mathrm{e}^{\mathrm{i} \theta_k} |^2 \prod_{j=1}^n\frac{\mathrm{d}\theta_j}{2\pi}\,.  . </a>

En remarquant que le terme d’interaction entre les valeurs propres est le carré d’un déterminant de Vandermonde, on obtient

\mathrm{d} \mathbb{P}(\theta_1,\ldots,\theta_n)=\frac1{n!} \det\Big[K_{U_n(\mathbb{C})}(s_i, s_j) \Big]_{1 \leq i,j \leq n} \prod_{j=1}^n\frac{\mathrm{d}\theta_j}{2\pi}\,  .

où l’on a introduit le noyau

\displaystyle  K_{U_n(\mathbb{C})}(x, y) := \sum_{k=0}^{n-1} \varphi_k(x)\overline{\varphi_k(y)},\qquad \varphi_k(x):=\frac{\mathrm{e}^{\mathrm{i} k x}}{\sqrt{2\pi}}.

Remarquons que {K_{U_n(\mathbb{C})}(x, y)} est le noyau de l’opérateur de projection sur le sous-espace de {L^2(-\pi,\pi)} des polynômes trigonométriques de degré au plus {n-1}. Pour prendre en compte le caractère continu des angles propres on définit la version « infinitésimale » de la fonction de corrélation à {k} points introduite pour les processus des retenues : pour tout {k\geq 1} et {s_1,\ldots,s_k\in[-\pi,\pi]} distincts deux à deux,

\rho_k(s_1,\ldots,s_k):=\lim_{\varepsilon\rightarrow 0} \frac1{\varepsilon^k}\,\mathbb{P}\Big( \forall j\in\llbracket 1,k \rrbracket,\; \{\theta_1,\ldots,\theta_n\}\cap [s_j,s_j+\varepsilon]\neq \emptyset\Big).

Autrement dit, pour toute fonction test {\varphi:[-\pi,\pi]^k\rightarrow\mathbb{C}} raisonnable, on a

<a name= »rhoCUE »>\int_{[-\pi,\pi]^k} \varphi(s)\rho_k(s)\mathrm{d} s = \int \sum_{i_1\neq \cdots\neq i_k}\varphi(\theta_{i_1},\ldots,\theta_{i_k})\; \mathrm{d}\mathbb{P}(\theta_1,\ldots,\theta_n).  . </a>

Grâce à l’invariance par permutation de {\mathrm{d}\mathbb{P}(\theta_1,\ldots,\theta_n)}, on voit que

\displaystyle  \begin{array}{rll}  \rho_k (s_1, \ldots, s_k) & = \frac{n!}{(n-k)!} \int_{[-\pi,\pi]^{n-k}} \mathrm{d}\mathbb{P}(s_1,\ldots,s_k,s_{k+1},\ldots,s_n)  \\ & =\frac{1}{(n-k)!} \int_{[-\pi,\pi]^{n-k}}\det\Big[K_{U_n(\mathbb{C})}(s_i, s_j) \Big]_{1 \leq i,j \leq n} \prod_{j={k+1}}^n\frac{\mathrm{d} s_j}{2\pi} \\  & =\det\Big[K_{U_n(\mathbb{C})}(s_i, s_j) \Big]_{1 \leq i,j \leq k},   \end{array}

où la dernière identité vient en développant le déterminant sous l’intégrale et en utilisant que {K_{U_n(\mathbb{C})}(x,y)}. est le noyau d’un opérateur de projection :

\displaystyle  \int_{-\pi}^\pi K_{U_n(\mathbb{C})}(s_i, s)K_{U_n(\mathbb{C})}(s, s_j)\,\frac{\mathrm{d} s}{2\pi}=K_{U_n(\mathbb{C})}(s_i, s_j).

Ainsi, le processus ponctuel des angles propres {\{\theta_1,\ldots,\theta_n\}} est déterminantal. Comparons visuellement une réalisation de ce processus à des variables iid uniformes sur le cercle unité : comme dans le cas des descentes, on observe une répartition plus régulière que dans le cas indépendant. Les angles propres sont bien répartis et il y a peu de variabilité alors que dans le cas uniforme, on retrouve des paquets de points qui peuvent être sensiblement différents d’une réalisation à l’autre.

Cette répulsion se lit aussi dans le terme d’interaction de (1). Elle induit des comportements surprenants pour le probabiliste non averti. A titre d’exemple, la variance d’une somme de {n} angles propres est bien plus petite que celle de {n} angles iid (la variance d’une variable aléatoire complexe {Z} est définie par { \mbox{Var}(Z):=\mathbb{E}|Z|^2-|\mathbb{E}(Z)|^2}). En effet, si {\eta_1,\ldots,\eta_n} sont iid uniformément distribués sur {[-\pi,\pi]}, alors on a :

\displaystyle  \mbox{Var}\Big[\sum_{j=1}^n\mathrm{e}^{\mathrm{i}\eta_j}\Big]=\sum_{j=1}^n\mbox{Var}\Big[\,\mathrm{e}^{\mathrm{i}\eta_j}\Big]=n.

D’un autre côté, pour les angles propres on calcule, en utilisant (1) avec {k=1,2} :

\displaystyle \begin{array}{rll} \mbox{Var}\Big[\sum_{j=1}^n\mathrm{e}^{\mathrm{i}\theta_j}\Big]& =\int_{-\pi}^{\pi} |\mathrm{e}^{\mathrm{i} x}|^2 K_{U_n(\mathbb{C})}(x,x)\mathrm{d} x-\int_{-\pi}^{\pi}\int_{-\pi}^{\pi}\mathrm{e}^{\mathrm{i}(x-y)}|K_{U_n(\mathbb{C})}(x,y)|^2\mathrm{d} x\mathrm{d} y   \\ & = n - \sum_{k,\ell=0}^{n-1}\frac1{(2\pi)^2}\int_{-\pi}^{\pi}\int_{-\pi}^{\pi}\mathrm{e}^{\mathrm{i}(x-y)(1+k-\ell)}\mathrm{d} x \mathrm{d} y  \\ & =1. \end{array}

Pour que la somme de {n} nombres complexes aléatoires de module {1} ait une variance unité, et ce indépendamment de {n}, il faut que de nombreuses compensations s’opèrent, et cela force les réalisations des valeurs propres à ne pas trop s’éloigner d’une configuration équi-espacée sur le cercle unité. Cela confirme l’impression visuelle de la Figure 1.

Une question naturelle est d’étudier les espacements entre ces angles propres asymptotiquement quand {n\rightarrow\infty}, après un zoom adéquat. En effet, comme il y a {n} angles propres bien répartis sur {[-\pi,\pi]}, le processus ponctuel {\{ \frac n{2\pi}\theta_1,\ldots,\frac n{2\pi}\theta_n\}} est un sous-ensemble de {[-\frac n2,\frac n2]} dont l’écartement typique entre deux points consécutifs est d’ordre un. Par changement de variables, c’est un DPP de noyau :

\displaystyle  \widetilde K_{U_n(\mathbb{C})}(x,y):=\mathrm{e}^{-\mathrm{i} \frac{n-1}{2}(x-y)}\frac{2\pi}n \,K_{U_n(\mathbb{C})}\Big(\frac{2\pi x}n,\frac{2\pi y}n\Big)= \frac{ \sin\pi(x-y)}{n \sin\left(\frac{\pi}{n}(x-y)\right)}.

On s’est permis de rajouter discrètement le terme {\mathrm{e}^{-\mathrm{i}  \frac{n-1}{2}(x-y)}} car modifier un noyau {K(x,y)} en {K(x,y)\frac{f(x)}{f(y)}}{f} ne s’annule pas ne change pas les déterminants associés aux fonctions de corrélation; ces deux noyaux engendrent donc le même DPP.

On obtient ainsi la convergence locale uniforme,

\displaystyle  \widetilde K_{U_n(\mathbb{C})}(x,y) \xrightarrow[n \rightarrow \infty]{} K_{\sin}(x, y):= \frac{ \sin\pi(x-y)}{\pi(x-y)}

où par convention {K_{\sin}(x, x):=1}. En termes probabilistes, quand {n\rightarrow\infty} le DPP des angles propres normalisés {\frac n{2\pi}\theta_1,\ldots,\frac n{2\pi}\theta_n} des matrices unitaires aléatoires distribuées selon la mesure de Haar de {U_n(\mathbb{C})} converge, au sens de la convergence uniforme locale de toutes les fonctions de corrélation, vers un processus ponctuel limite qui est le DPP associé au noyau sinus {K_{\sin}(x, y)} : pour tout {k\geq 1} et toute fonction {\varphi:{\mathbb R}^k\rightarrow{\mathbb R}} raisonnable,

<a name= »CUEsin »>\lim_{n\rightarrow\infty}\mathbb{E}\left[ \sum_{i_1\neq \cdots\neq i_k}\varphi(\tfrac n{2\pi}\theta_{i_1},\ldots,\tfrac n{2\pi}\theta_{i_k})\right]=\int_{{\mathbb R}^k}\varphi(s)\det \Big[K_{\sin}(s_i,s_j)\Big]_{i,j=1}^k\mathrm{d} s. </a>

De plus, {K_{\sin}}, vu comme un opérateur sur {L^2({\mathbb R})}, est la projection sur les fonctions dont la transformée de Fourier est à support dans {[-\frac12,\frac12].} Ce dernier DPP génère presque sûrement des configurations infinies sur {{\mathbb R}}.

L’une des idées maîtresses de la théorie des matrices aléatoires, qui apparaît déjà dans les travaux des pionniers comme Dyson et Wigner, est celle que le comportement local des valeurs propres présente un caractère universel, a contrario de leur comportement global. Pour illustrer ce phénomène penchons-nous dans un premier temps sur un autre modèle populaire de matrices aléatoires : le Gaussian Unitary Ensemble (GUE). Il s’agit cette fois de munir l’espace des matrices hermitiennes { H_n(\mathbb{C}) := \{M \in \mathcal M_n(\mathbb C):\; M^*=M\}} d’une mesure gaussienne. Plus précisément, l’isomorphisme {H_n(\mathbb{C})\simeq {\mathbb R}^{n^2}} induit une mesure de Lebesgue {\mathrm{d} M} ainsi qu’une norme euclidienne {|M|=\rm Tr(M^2)^{1/2}} sur {H_n(\mathbb{C})}, et on considère alors la mesure gaussienne {g_n(\mathrm{d} M)} de densité proportionnelle à {\mathrm{e}^{-\frac{n}{2}|M|^2}.} Un changement de variable et un calcul de jacobien similaire à celui des matrices unitaires montre que la loi jointe des valeurs propres {\lambda_1,\ldots,\lambda_n\in{\mathbb R}} de la matrice aléatoire de loi {g_n(\d M)} est alors donnée par :

\displaystyle  \mathrm{d}\mathbb{P}(\lambda_1,\ldots,\lambda_n):=\frac1{Z_n} \prod_{j<k} |\lambda_j - \lambda_k |^2 \prod_{j=1}^n \mathrm{e}^{-\frac{n}{2}\lambda_j^2} \, d\lambda_j

{Z_n>0} est une constante de normalisation explicite : c’est un ratio de produits de fonctions Gamma, que l’on obtient comme cas limite de la formule intégrale de Selberg. Après quelques manipulations on obtient que l’ensemble des valeurs propres {\{\lambda_1, \ldots, \lambda_n\}} est un DPP sur {\mathbb R} de noyau :

\displaystyle  K_{H_n(\mathbb{C})}(x,y) := \sum_{k=0}^{n-1} \Psi_{k}^n(x)\Psi^n_k(y)

où, pour tout {n\geq 1}, {(\Psi^n_k)_{k \in \mathbb N}} est une base orthonormée de {L^2({\mathbb R})} donnée par des fonctions de Hermite renormalisées. Si {H_k(x):=(-1)^k\mathrm{e}^{x^2/2}(\frac{\mathrm{d}}{\mathrm{d} x})^k(\mathrm{e}^{-x^2/2})} est le {k}-ième polynôme de Hermite, alors on prend {\Psi_k^n(x):=c_k^nH_k(\sqrt nx)\mathrm{e}^{-nx^2/4}} avec {c_k^n:=\int_{\mathbb R} H_k(\sqrt nx)^2\mathrm{e}^{-nx^2/2}\mathrm{d} x}. Là encore on a affaire à un noyau de projection sur un sous-espace de dimension finie de {L^2({\mathbb R})}, celui des fonctions de la forme {P(x)\mathrm{e}^{-nx^2/4}} avec {P} un polynôme de degré au plus {n-1}. Quand {n\rightarrow\infty}, comme illustré dans la Figure 1 les valeurs propres se concentrent sur le compact {[-2,2]} avec une densité {\rho(x):=\frac1{2\pi}\sqrt{4-x^2}\mathbf{1}_{[-2,2]}(x),} appelée loi du demi-cercle.

Histogramme des valeurs propres d’une réalisation du GUE de taille 300 et loi du demi-cercle

Maintenant, si on zoome d’un facteur {n} autour d’un point {x_0} de {]-2,2[}, on peut montrer que le comportement local des valeurs propres autour de ce point est encore régi par le noyau sinus {K{\mathrm{sin}}.} Plus précisément, on a la convergence locale uniforme,

\displaystyle  \frac{1}{\rho(x_0)n}\, K_{H_n(\mathbb{C})}\left(x_0+\frac{x}{\rho(x_0)n}, x_0+\frac{y}{\rho(x_0)n}\right) \xrightarrow[n \rightarrow \infty]{} K_{\sin}(x, y) .

Notez que la limite ne dépend pas de {x_0}. La preuve de cette convergence est un peu plus délicate que dans le cas des matrices unitaires et requiert une analyse fine du comportement asymptotique des fonctions de Hermite

D’un autre côté, si on s’intéresse aux points du bord du demi-cercle, on voit apparaître après une remise à l’échelle différente un autre noyau universel appelé noyau d’Airy,

\displaystyle  K_{\rm Airy}(x,y):=\frac{\mathrm{Ai}(x)\mathrm{Ai}'(y)-\mathrm{Ai}'(x)\mathrm{Ai}(y)}{x-y}.

Ici {\mathrm{Ai}(x)} est la fonction d’Airy, qui satisfait {\mathrm{Ai}''(x)=x \mathrm{Ai}(x)} et qui apparaît dans l’étude optique des arcs-en-ciel. Par exemple, au point {2} (l’analyse en {-2} est la même),

\displaystyle  K_{H_n(\mathbb{C})}^{\mathrm{bord}}(x,y):=\frac{1}{n^{2/3}} K_{H_n(mathbb{C})}\left(2+ \frac{x}{n^{2/3}}, 2+ \frac{y}{n^{2/3}}\right) \xrightarrow[n \rightarrow \infty]{} K_{\rm Airy}(x, y) .

Avec du travail, on montre que cette convergence a lieu au sens de la convergence des opérateurs de classe trace sur {L^2(s,\infty)} pour tout {s>0}, et on en déduit les fluctuations de la plus grande valeur propre autour du bord droit. En effet, on peut exprimer la fonction de répartition de la plus grande particule d’un DPP sur {{\mathbb R}} en termes d’un déterminant de Fredholm, ici

\mathbb{P}\Big(n^{2/3}\big(\max_{j=1}^n\lambda_j -2\big)\leq s\Big)=\{\det(I-K_{H_n(\mathbb{C})}^{\mathrm{bord}})\}_{L^2(s,\infty)}

qui est continu pour cette topologie, et on obtient donc, pour tout {s\in{\mathbb R}},

\displaystyle  \mathbb{P}\Big(n^{2/3}\big(\max_{j=1}^n\lambda_j -2\big)\leq s\Big) \xrightarrow[n \rightarrow \infty]{} F_2(s):={\det(I-K_{\rm Airy})}_{L^2(s,\infty)}\,.

La loi de probabilité associée à la fonction de répartition {F_2} est connue sous le nom de loi de Tracy-Widom. Ces derniers ont établi une formule explicite de {F_2(s)} en terme de la solution de Hastings-McLeod de l’équation de Painlevé II. C’est aussi la loi de la plus grande particule du DPP associée au noyau d’Airy. On va retrouver cette loi un peu plus loin en dehors du cadre des matrices aléatoires.

Suite à de nombreux travaux qu’il serait impossible de tous rappeler ici, il a été constaté que les noyaux sinus et d’Airy sont omniprésents dans la description du comportement local des valeurs propres d’un grand nombre de modèles de matrices aléatoires, en lien ou non avec les DPP. On parle ainsi de phénomène d’universalité en matrices aléatoires. Il est surprenant de constater que ces deux DPP universels apparaissent également en dehors du cadre des matrices aléatoires; nous présentons maintenant trois faits d’armes particulièrement marquants.

Polynômes orthogonaux et noyau sinus

D’abord, présentons l’élégante approche de Lubinsky (2009) pour les DPP liés à des familles de polynômes orthogonaux. On considère une mesure borélienne {\mu} positive supportée dans {[-1,1]} telle que {L^2(\mu)} contient tous les polynômes. On peut définir alors une famille orthonormée de polynômes {(p_k)_{k\in dN}} dans {L^2(\mu)} de coefficients dominants {\gamma_k} positifs. On note {w(x)} la dérivée de Radon-Nikodym de {\mu} par rapport à la mesure de Lebesgue, de sorte que {\mu(\mathrm{d} x)=w(x)\mathrm{d} x+\mu_s} avec {\mu_s} singulière par rapport à la mesure de Lebesgue. On introduit alors le noyau de Christoffel-Darboux, bien connu en théorie de l’approximation :

\displaystyle  K_n^{(\mu)}(x,y) = \sqrt{w(x)w(y)} \sum_{k=0}^{n-1} p_k(x) p_k(y).

Le DPP associé à ce noyau engendre presque sûrement des configurations de {n} points dans {[-1,1]}. On suppose que {\mu} est une mesure régulière de {[-1,1]}, au sens où {\gamma_k^{1/k}} converge vers {2} quand {k\rightarrow\infty}. C’est le cas par exemple pour les familles classiques, comme les polynômes de Legendre, Tchebychev, et plus généralement Jacobi. C’est aussi le cas dès que {w(x)>0} presque partout sur {[-1,1]}. Lubinsky montre alors le résultat suivant : pour tout {x_0} de {]-1,1[} tel que {\mu} est absolument continue sur un voisinage de {x_0}, et de densité {w} continue et strictement positive en {x_0}, on a la convergence locale uniforme :

\displaystyle  \frac{1}{n\rho(x_0)} \,K_n^{(\mu)}\left(x_0+\frac{x}{n\rho(x_0)}, x_0+\frac{y}{n\rho(x_0)}\right) \xrightarrow[n \rightarrow \infty]{} K_{\rm sin}(x,y)

où cette fois {\rho(x):=1/(\pi(\sqrt{1-x^2})).} Notons que sous l’hypothèse plus forte que {\mu(\mathrm{d} x)=w(x)\mathrm{d} x} avec {w} positive et continue sur {[-1,1]}, alors on a une convergence globale des points du DPP associé à {K_n^{(\mu)}} vers la loi de l’arcsinus de densité {\rho(x)}, comme illustré dans la Figure 1. La preuve de ce résultat, étonnamment courte par rapport aux standards de ce domaine des mathématiques, utilise de l’analyse élémentaire de façon très astucieuse pour offrir une méthode de comparaison robuste entre des noyaux associés à différentes mesures.

Histogramme d’un DPP de taille 300 associé au noyau de Christoffel-Darboux et loi de l’arcsinus.

Fonction zêta de Riemann et noyau sinus

Ensuite, nous rendons compte d’une apparition inattendue du DPP de noyau sinus en théorie analytique des nombres. Pour un nombre complexe {s} de partie réelle {\Re(s)>1,} la fonction zêta de Riemann est définie par

\displaystyle  \zeta(s) := \sum_{n = 1}^\infty \frac{1}{n^s}=\prod_{p \mbox{\tiny{ nombre premier}}}\frac1{1-p^{-s}}.

Cette fonction admet une extension méromorphe à {\mathbb{C}}, qui possède des zéros « triviaux » en les entiers pairs négatifs : {-2, -4, -6,} etc. Les autres zéros sont localisés dans la bande {0 \le \Re(s) \le 1.} La célèbre conjecture de Riemann dit que ces zéros sont tous de partie réelle égale à {1/2}. Sous l’hypothèse de Riemann, on peut donc écrire ces zéros sous la forme {1/2 \pm \mathrm{i} t_j} avec {0< t_1 < t_2 < \ldots} en vertu de la symétrie {\zeta(\bar s)=\overline{\zeta(s)}}. Un résultat classique donne alors, quand { n\rightarrow\infty},

\displaystyle N_n:=\#\big\{j\geq 1 :\;t_j\leq n\big\}\sim \frac{n}{2\pi}\log\frac{n}{2\pi}\ ,

ce qui nous amène à poser

\displaystyle  w_j:=\frac{t_j}{2\pi} \log \frac{t_j}{2\pi}\, ,

si bien que \#\{j \geq 1 : w_j \leq n \} \sim n quand {n\rightarrow\infty}; on s’attend à ce que l’espacement typique entre les {w_j} consécutifs soit d’ordre un. Pour mieux comprendre les espacements entre ces zéros renormalisés, au moins asymptotiquement, on peut s’inspirer des processus ponctuels et considérer l’analogue des fonctions de corrélation (1) :

\displaystyle  R_k^{(n)}(\varphi):=\frac1n\sum_{1\leq i_1\neq \cdots \neq i_k\leq n} \varphi(w_{i_1},\ldots,w_{i_k}),

pour {k\geq 1} et des fonctions {\varphi:{\mathbb R}^k\rightarrow{\mathbb R}} raisonnables. Rudnick et Sarnark obtiennent alors, sous d’assez fortes hypothèses sur {\varphi},

\displaystyle  \lim_{n\rightarrow\infty} R_k^{(n)}(\varphi)=\int_{s_1+\cdots+s_k=0}\varphi(s)\det \Big[K_{\sin}(s_i,s_j)\Big]_{i,j=1}^k\mathrm{d} s\,,

un résultat qui s’apparente à (1). Ainsi, asymptotiquement, les espacements entre les zéros renormalisés se comportent comme une réalisation typique du DPP de noyau sinus. La restriction du domaine d’intégration à l’hyperplan {s_1+\cdots+s_k=0} est liée au fait que {R_k^{(n)}(\varphi)} ne doit dépendre que des espacements entre les {w_j}. Dans le cas des corrélations par paires, on a par exemple pour {\varphi(x,y)=f(x-y)},

). Ainsi, asymptotiquement, les espacements entre les zéros renormalisés se comportent comme une réalisation typique du DPP de noyau sinus. La restriction du domaine d’intégration à l’hyperplan {s_1+\cdots+s_k=0} est liée au fait que {R_k^{(n)}(\varphi)} ne doit dépendre que des espacements entre les {w_j}. Dans le cas des corrélations par paires, on a par exemple pour {\varphi(x,y)=f(x-y)},

\displaystyle  \lim_{n\rightarrow\infty}\frac{1}{n} \sum_{1 \leq j \neq \ell \leq n} f(w_j-w_\ell) = \int_{-\infty}^\infty f(y)\left(1- \left(\frac{\sin \pi y}{\pi y}\right)^2\right) \mathrm{d} y.

Ce cas particulier a été démontré par Montgomery dans les années 70, pour des fonctions {f:{\mathbb R}\rightarrow{\mathbb R}} dont la transformée de Fourier est {C^\infty} et à support dans {[-1,1]}. La conjecture de Montgomery, toujours ouverte, affirme que le résultat doit être vrai sans restriction de support. L’histoire raconte qu’en 1972, Montgomery, alors encore étudiant et déjà auteur du résultat ci-dessus, rencontre au thé de l’après-midi à Princeton le physicien Dyson. Celui-ci, spécialiste de matrices aléatoires, reconnaît immédiatement dans le résultat de Montgomery le fameux noyau sinus.

Permutations aléatoires et noyau d’Airy

Nous terminons par une rencontre surprenante avec la loi de Tracy-Widom dans l’étude des permutations aléatoires. Si {\sigma\in\frak S_n} est une permutation de {\llbracket 1, n \rrbracket}, on dit que {\sigma(i_1) < \sigma(i_2) < \ldots < \sigma(i_k)} avec {i_1 < i_2 < \ldots < i_k} est une sous-suite croissante de {\sigma}. On note {\ell(\sigma)} la plus grande longueur d’une sous-suite croissante; on a donc {1\leq \ell(\sigma)\leq n}. Par exemple, si

\displaystyle  \sigma=\left(\begin{matrix} 1 & 2 & 3& 4 & 5&6&7&8&9\\ 5 & 3 & 2 & 6& 1 & 7&9&4&8\end{matrix}\right),

alors {\ell(\sigma)=4} et elle est atteinte en la sous-suite croissante {5,\, 6,\, 7,\, 8} (mais également en {2,\, 6,\,7,\, 9}). Si maintenant {\sigma_n} est une permutation aléatoire tirée uniformément sur le groupe symétrique {\frak S_n}, l’étude du comportement asymptotique de {\ell(\sigma_n)} quand {n} est grand est connu sous le nom de problème d’Ulam. Après des travaux de Hammersley, Vershik, Kerov, Logan et Schepp, il a été obtenu que

\displaystyle  \mathbb{E}\big[ \ell(\sigma_n)\big]\sim 2\sqrt n \;,\qquad n\rightarrow\infty .

Une avancée fondamentale a été réalisée par Baik et al. (1999) en obtenant les fluctuations de {\ell(\sigma_n)} autour de sa valeur moyenne : pour tout {s\in{\mathbb R}},

\displaystyle  \lim_{n \rightarrow \infty} \mathbb{P}\left(n^{-1/6}\big(\ell(\sigma_n) - 2\sqrt n\,\big) \le s\right) = F_2(s).

Autrement dit, la variable aléatoire {n^{-1/6}(\ell(\sigma_n) - 2\sqrt n\,) } converge en loi vers la distribution de Tracy-Widom quand {n\rightarrow\infty}. Pour comprendre le caractère déterminantal du problème, nous ne présentons pas la preuve originelle de Baik et al. (1999) mais plutôt celle de Borodin et al. (2000). Leur analyse repose sur la correspondance de Robinston-Schensted (RS), bien connue en théorie des représentations du groupe symétrique, qui associe à une permutation {\sigma\in\frak S_n} une paire de tableaux d’Young de même forme. Plus précisément, une partition {\lambda= (\lambda_1, \ldots, \lambda_\ell)} d’un entier {n}, c’est-à-dire une suite décroissante d’entiers positifs de somme {n}, est encodée par un diagramme de Ferrers de {n} cases avec {\lambda_i} cases sur la {i}-ème ligne. Par exemple la partition {(4,4,3,1)} de {n=12} est encodée par le diagramme :

Etant donné un diagramme de Ferrers {\lambda} avec {n} cases, on appelle tableau de Young de forme {\lambda} un remplissage de ses cases par les entiers de {1} à {n} de façon strictement croissante le long des lignes et des colonnes. La correspondance RS associe à une permutation {\sigma} deux tableaux de Young de même forme. On place successivement les entiers {\sigma(1), \sigma(2)}, ... dans le premier tableau en commençant par la première ligne avec le principe suivant : chaque nouvel élément {\sigma(j)} s’insère sur la première ligne. Si {\sigma(j)} est le plus grand entier de la ligne, on le rajoute dans une nouvelle case à droite. Sinon il prend la place du plus petit entier qui lui est supérieur. Ce dernier est alors rétrogradé à la ligne suivante, où les mêmes règles lui sont appliquées. Le second tableau mémorise l’ordre dans lequel les cases ont été créées. Ainsi, pour

\displaystyle  \sigma=\left(\begin{matrix} 1 & 2 & 3& 4 & 5&6&7&8&9\\ 5 & 3 & 2 & 6& 1 & 7&9&4&8\end{matrix}\right),

la correspondance RS donne les étapes successives :

On utilise alors deux propriétés clefs. D’abord, {\ell(\sigma)=\lambda_1}, la longueur de la première ligne des tableaux obtenus par la correspondance RS. Ensuite, si on applique la correspondance RS à la permutation uniforme {\sigma_n}, alors la probabilité que la forme des tableaux obtenus soit la partition {\lambda} de {n} est égale à {\mathrm{PL}_n(\lambda):=\frac{1}{n!}\textrm{dim}(\lambda)^2.} Ici {\textrm{dim}(\lambda)} est le nombre de tableaux de Young de forme {\lambda}; c’est aussi la dimension de la représentation irréductible de {\frak S_n} indexée par la partition {\lambda}. Cette loi de probabilité {\mathrm{PL}_n} sur les diagrammes de Ferrers à {n} cases est la mesure de Plancherel. On considère maintenant {\mathbb{P}^\theta} le mélange poissonnien de paramètre {\theta>0} des mesures de Plancherel, qui génère des diagrammes de Ferrers de taille aléatoire: on tire aléatoirement un entier {N} de loi de Poisson de paramètre {\theta}, puis on tire un diagramme de Ferrers à {N} cases suivant la mesure de Plancherel {\mathrm{PL}_N}. Ainsi, si on note {| \lambda |:=\lambda_1+\cdots+\lambda_\ell} le nombre de cases d’un diagramme de Ferrers {\lambda}, la probabilité sous {\mathbb{P}^\theta} d’obtenir un diagramme {\lambda} est :

\displaystyle  \mathbb{P}^\theta(\lambda):=\displaystyle \mathrm{e}^{-\theta} \theta^{|\lambda|} \left(\frac{ \textrm{dim}(\lambda)}{|\lambda|!}\right)^2.

Cette poissonnisation est motivée par le fait suivant : si {\lambda=(\lambda_1,\lambda_2,\ldots)} a pour distribution {\mathbb{P}^\theta} alors la configuration aléatoire {x_i:=\lambda_i-i} est un DPP sur {\mathbb{Z}}. Son noyau {K^\theta(x,y)} peut être écrit sous la forme d’une double intégrale sur des contours complexes, adaptée à l’analyse asymptotique (méthode du point col). En l’occurrence, Borodin et al. (2000) ont montré que

\displaystyle  \lim_{\theta \rightarrow \infty} \theta^{1/6} K^\theta(2\sqrt{\theta}+ x\theta^{1/6} , 2\sqrt{\theta} + y\theta^{1/6}) = K_{\textrm{Airy}}(x,y).

La convergence de {n^{-1/6}(\ell(\sigma_n) - 2\sqrt n\,) =n^{-1/6}(\lambda_1 - 2\sqrt n\,) } vers la loi de Tracy-Widom citée plus haut en est une conséquence car, sous {\mathbb{P}^\theta}, le nombre de cases d’un tableau se concentre autour de {\theta} quand {\theta\rightarrow\infty} (procédé de dépoissonnisation); en d’autres termes, pour {\theta} entier et grand les distributions {\mathbb{P}^\theta} et {\mathrm{PL}_\theta} génèrent des diagrammes similaires en un sens qui peut être quantifié.

Utilisation des DPP en apprentissage automatique

Pour clore le petit voyage que nous vous avons proposé dans le vaste paysage des DPP, revenons un peu sur l’exemple des jaguars de l’introduction en esquissant quelques traits de l’utilisation des DPP dans des contextes d’apprentissage automatique. Le message principal est que lorsqu’on veut modéliser des situations impliquant de la répulsion, de la diversité, des corrélations négatives entre des objets, les DPP fournissent des modèles efficaces, simples à manipuler et à simuler. On renverra le lecteur désireux d’approfondir le sujet à Kulesza et Taskar (2012) par exemple.

Dans la plupart de ces applications, on cherche à sélectionner un sous-ensemble (aléatoire) d’objets dans une base de données, c’est-à-dire dans un ensemble discret {\mathcal E} de cardinal {n} éventuellement très grand; typiquement des images ou des textes. On considère alors une classe de DPP qui génèrent des configurations {\Xi\subset \mathcal{E}} de cardinal aléatoire. Dans ce contexte, on attribue au {i}-ème élément de { \mathcal{E} } un vecteur {B_i\in{\mathbb R}^d}, où la dimension {d} est fixée par l’utilisateur. Par exemple {B_i} peut encoder les pixels de la {i}-ème image et {d} va dépendre de la résolution choisie. On considère alors la matrice semi-définie positive {L:= B^t \, B}{B} est la matrice {d\times n } de colonnes {B_i}. On prend ensuite {K:=L(I+L)^{-1}} comme noyau d’un DPP {\Xi\subset  \mathcal{E} }. Ainsi, pour tout {A\subset \mathcal{E} },

\displaystyle  \mathbb{P}(A \subset \Xi ) = \det(K_A):={\det}[K_{ij}]_{i,j\in A}\,,

avec la convention { \mathrm{det}(K_\emptyset):=1.} En termes de la matrice {L}, on a

\displaystyle  \mathbb{P}(\Xi= A) = \frac{\det(L_A)}{\det(I+L)}\,.

On voit alors que {\mathbb{P}(\Xi= A)} est égale, à une constante de normalisation près, au volume carré du parallélotope généré par les colonnes {B_i} de {B} avec {i\in A}. Ainsi, si {B_i = q_i \varphi_i} avec {q_i \in {\mathbb R}^+} et {\varphi_i \in {\mathbb R}^d} avec {|\varphi_i|=1,} alors {q_i} s’interprète comme une mesure de l’importance du {i}-ème objet de {\mathcal E} tandis que {S_{ij} := \varphi_i^t\, \varphi_j\in[-1,1]} représente une mesure de la similarité entre le {i}-ème et le {j}-ème objet. Plus précisément, { \mathbb{P}(\Xi= A)} est proportionnelle à {\prod_{i \in A} q_i^2 \, \det(S_A).} En pratique, il faut étiqueter chaque objet de { \mathcal{E} } avec son attribut {(q_i,\varphi_i)}, par exemple à la façon dont PageRank assigne un niveau d’importance à chaque page web, et puis calculer les matrices {L} et {K} associées. Une réalisation du DPP de noyau {K} fournira alors un sous-ensemble de { \mathcal{E} } présentant de la diversité au sens de la matrice {S}. Par exemple, si { \mathcal{E} } est l’ensemble des images correspondant au mot clef « jaguar » sur internet, et qu’on a au préalable étiqueté chacun de ses éléments avec des attributs {(q_i,\varphi_i)}, une réalisation du DPP {\Xi} fournira un sous-ensemble d’images diversifié.

On peut aussi se restreindre à une famille paramétrée de noyaux {K_\theta} et estimer {\theta} à l’aide des méthodes usuelles en statistiques à partir de données d’entraînement. Kulesza et Taskar (2012) développent ainsi l’exemple des résumés automatiques de textes, où l’on dispose de nombreux textes sur un même sujet (par exemple des articles de presse sur un fil d’actualités) et l’on veut en extraire un résumé, c’est-à-dire un petit nombre de phrases contenant le plus d’information possible.

L’aspect séduisant de ces modèles vient surtout du fait qu’ils sont facilement implémentables de façon exacte : on peut répondre à la plupart des questions d’inférence les concernant en temps polynomial, essentiellement en multipliant, inversant, diagonalisant ou calculant des déterminants de matrices de taille {n ,} au prix de {\mathcal O(n^3)} opérations élémentaires. En particulier, on dispose d’algorithmes exacts pour simuler un DPP à ce coût-là.

Simulation d’un DPP associé à des polynômes orthogonaux multivariés sur le cube.

L’utilisation de DPP en apprentissage automatique, mais aussi en statistiques spatiales (Lavancier et al, 2015) ou en intégration numérique, n’en est qu’à ses balbutiements et semble séduire de plus en plus d’utilisateurs des mathématiques.

Remerciements

Merci à Raphaël, Rosalie et Elvire pour leurs simulations innocentes, de même que Rémi Bardenet et Guillaume Gautier. Nous tenons à remercier Sophie Grivaux pour sa relecture attentive d’une première version du texte et pour sa patience

Bibliographie

[1] G. W. Anderson, A. Guionnet, and O. Zeitouni. An introduction to random matrices, volume 118 of Cambridge Studies in Advanced Mathematics. Cambridge University Press, Cambridge, 2010.
[2] J. Baik, P. Deift, and K. Johansson. On the distribution of the length of the longest increasing subsequence of random permutations. J. Amer. Math. Soc., 12(4):1119–1178, 1999.
[3] A. Borodin, A. Okounkov, and G. Olshanski. Asymptotics of Plancherel measures for symmetric groups. J. Amer. Math. Soc., 13(3):481–515, 2000.
[4] A. Borodin, P. Diaconis, and J. Fulman. On adding a list of numbers (and other onedependent determinantal processes). Bull. Amer. Math. Soc. (N.S.), 47(4):639–670, 2010.
[5] J. B. Hough, M. Krishnapur, Y. Peres, and B. Virág. Determinantal processes and independence. Probab. Surv., 3:206–229, 2006.
[6] K. Johansson. Random matrices and determinantal processes. In Mathematical statistical physics, pages 1–55. Elsevier B. V., Amsterdam, 2006.
[7] A. Kulesza and B. Taskar. Determinantal point processes for machine learning. Foudations and Trends in Machine Learning, 16, 2012.
[8] F. Lavancier, J. Møller, and E. Rubak. Determinantal point process models and statistical inference. Journal of the Royal Statistical Society. Series B: Statistical Methodology, 77 (4):853–877, 2015.
[9] D. S. Lubinsky. A new approach to universality limits involving orthogonal polynomials. Ann. of Math. (2), 170(2):915–939, 2009.
[10] R. Lyons. Determinantal probability measures. Publications Mathématiques de l’Institut des Hautes Etudes Scientifiques, 2003.
[11] A. Soshnikov. Determinantal random point fields. Uspekhi Mat. Nauk, 55(5(335)):107–160, 2000.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Créez un site ou un blog sur WordPress.com

Retour en haut ↑

Créer un nouveau site sur WordPress.com
Commencer
%d blogueurs aiment cette page :