# Appendice B: Metodologie Statistiche Dettagliate ## B.1 Analisi Statistica e Modelli di Distribuzione ### B.1.1 Analisi Statistica dei Singoli Attributi Per ciascuno degli attributi selezionati è stata condotta un'analisi statistica **univariata** finalizzata a modellarne la distribuzione di probabilità. La modellazione è stata effettuata separatamente per due regioni: * **Corpo della distribuzione:** Stimato con la **Empirical Cumulative Distribution Function (ECDF)**. * **Coda (valori estremi):** Stimata con la **Generalized Pareto Distribution (GPD)**. #### B.1.1.1 Determinazione della Soglia (Peak Over Threshold - POT) La soglia che separa queste due regioni (corpo e coda) è stata determinata tramite un'analisi diagnostica **Peak Over Threshold (POT)** multi-criterio. La soglia finale è stata selezionata bilanciando due esigenze contrapposte: 1. Minimizzare il *bias* (utilizzando soglie sufficientemente alte). 2. Mantenere un numero sufficiente di eventi estremi per una stima robusta dei parametri GPD. I **criteri essenziali** utilizzati per la validazione della soglia e l'adeguatezza del *fit* GPD includono: * La stabilità del parametro di forma ($\xi$). * La linearità della Mean Residual Life. * L'aderenza statistica valutata con test **KS** (Kolmogorov–Smirnov). Questo processo ha garantito che i parametri, stimati sui dati in eccesso, fossero robusti e rappresentativi del comportamento estremo degli attributi. | Criterio | Metodo/Riferimento | Obiettivo | | :--- | :--- | :--- | | **Stabilità del Parametro di Forma** | *Grafico della stabilità rispetto al valore soglia.* | Assicurare che il parametro di forma ($\xi$) non sia influenzato da piccole variazioni della soglia. | | **Linearità della MRL (Mean Residual Life)** | *Grafico della MRL.* | Verificare che la GPD sia un modello appropriato per i dati in eccesso. | | **Test KS** (Kolmogorov–Smirnov) | *Confronto tra Funzione di Ripartizione (CDF) empirica e teorica.* | Valutare l'aderenza statistica del fit GPD alla distribuzione dei dati estremi. | | **Test QQ (Quantile-Quantile)** | *Confronto tra quantili empirici e teorici.* | Analisi visiva per confermare l'adeguatezza del modello sui quantili estremi. | | **Test PP (Probability-Probability)** | *Confronto tra probabilità empiriche e teoriche.* | Analisi visiva per confermare l'adeguatezza del modello sulla distribuzione di probabilità. | #### B.1.1.2 Modello Ibrido e Popolazione Estrema Una volta definito il valore soglia più opportuno, è stata creata la **popolazione degli eventi estremi**, che include tutti gli eventi che superano la soglia per **almeno un attributo** (*filtro OR*). Di conseguenza, è stata definita la **matrice M** degli attributi degli eventi estremi, composta da **1702 elementi**. Per modellare la distribuzione completa di ciascuna variabile, è stato adottato un **approccio ibrido** per le distribuzioni marginali: | Porzione della Distribuzione | Metodo di Modellazione | Obiettivo | | :--- | :--- | :--- | | **Corpo** (porzione centrale e più densa) | **ECDF** (non parametrico) | Massima aderenza ai dati osservati. | | **Coda** (valori estremi) | **GPD** (metodo POT) | Stima robusta e possibilità di estrapolare eventi estremi. | Questa combinazione assicura che il modello sia statisticamente robusto su tutto il *range* di valori, riuscendo a descrivere in maniera accurata la distribuzione degli eventi sotto-soglia, più frequenti, ma permettendo comunque di estrapolare eventi estremi dal campione tramite la GPD. --- ## B.2 Modellazione della Dipendenza Multivariata (Vine Copula) Per modellare in modo accurato la distribuzione multivariata degli eventi estremi, è fondamentale catturare la complessa **struttura di dipendenza** tra gli attributi nella **Matrice M**. A causa della non-linearità e dell'asimmetria tipiche dei fenomeni estremi, non è efficace utilizzare modelli multivariati tradizionali. Si è quindi fatto ricorso alla **Vine Copula (R-Vine)**, un modello gerarchico flessibile. ### B.2.1 Fasi del Processo di Modellazione 1. **Trasformazione Spaziale Uniforme:**     * Il primo passo è la **trasformazione nello spazio uniforme $[0, 1]$** di ciascun attributo estremo.     * Questa operazione viene effettuata utilizzando la rispettiva **distribuzione marginale**.     * L'obiettivo è standardizzare i dati, consentendo alla Copula di modellare esclusivamente la **dipendenza di rango**. 2. **Scomposizione Gerarchica (R-Vine):**     * La Vine Copula scompone la dipendenza tra $N$ attributi in una serie di **copule binarie** attraverso **$N-1$ alberi gerarchici** ($T_1, T_2, \dots, T_{N-1}$). ### B.2.2 Struttura degli Alberi * **Albero Iniziale ($T_1$):** Le copule binarie sono modellate direttamente tra le **coppie di variabili trasformate**. * **Alberi Successivi:** I nodi rappresentano le densità di copula **condizionate** stimate nel livello precedente. Gli archi modellano la **dipendenza residua** condizionata da un sottoinsieme di altre variabili. Questo approccio permette di ottimizzare la selezione della **famiglia di copula** (es. Gumbel, Clayton, Gaussiana, t) più appropriata per ogni specifica coppia di variabili condizionate/incondizionate. L'uso di copule **asimmetriche** (come Gumbel e Clayton) è utile in questo contesto, poiché permette di catturare la **dipendenza di coda** tra le variabili. --- ## B.3 Generazione della Popolazione Sintetica di Eventi Estremi Per ottenere un campione robusto che copra l'intera regione di interesse multivariata e consenta una stima stabile del **Tempo di Ritorno ($\text{T}_r$)**, è stata eseguita una simulazione **Monte Carlo** sulla struttura di dipendenza stimata. Sono stati estratti **2 milioni di campioni** dalla Vine Copula precedentemente fittata. Il processo si articola in due fasi chiave: * **1. Estrazione dallo Spazio Uniforme:** La Vine Copula, che opera nello spazio uniforme $[0, 1]$, viene campionata per generare una matrice di valori $(u_1, u_2, \dots, u_i)$. Questa matrice codifica la probabilità congiunta delle variabili, rispettando la complessa **struttura di dipendenza di coda**. * **2. Trasformazione Inversa (Matrice M'):** I campioni uniformi vengono quindi trasformati nello spazio fisico originale (la **Matrice M'**, che rappresenta gli attributi simulati) attraverso la **Funzione di Distribuzione Cumulativa Inversa** di ciascuna distribuzione marginale ibrida (ECDF + GPD). Questa trasformazione inversa è condizionale: i valori $u$ che cadono **sotto la soglia** vengono riportati nello spazio fisico utilizzando il corrispondente quantile dell'**ECDF**, mentre quelli **estremi** vengono trasformati utilizzando il corrispondente quantile della **GPD**. Il risultato è la Matrice M', una popolazione sintetica di 2 milioni di eventi che replica fedelmente sia le distribuzioni individuali degli attributi che la loro interdipendenza multivariata, estendendosi oltre la dimensione del campione osservato, e permettendo di stimare il Tempo di Ritorno basandosi su un lungo periodo virtuale di osservazione. --- ## B.4 Definizione della Regione dello Spazio su cui Calcolare T$_r$ L'obiettivo di questa fase è proiettare sia gli eventi osservati che quelli simulati nel **dominio dei Fattori**, in modo da definire una regione dello spazio multivariato su cui valutare la probabilità di superamento. ### B.4.1 Analisi Fattoriale e Calcolo dei Pesi W La fase inizia con l'applicazione dell'**Analisi Fattoriale Esplorativa (EFA)** sulla Matrice degli Attributi **M** (eventi estremi originali). Per l'estrazione dei Fattori è stato impiegato il metodo di **Fattorizzazione Assiale Principale (Principal Axis Factoring - PAF)**, eseguito utilizzando la libreria *factor\_analyzer*. Dopo l'estrazione iniziale dei Fattori tramite il metodo PAF, che assicura che i fattori siano ortogonali tra loro, è stata applicata la **Rotazione Varimax** per ottimizzare la struttura fattoriale e facilitarne l'interpretazione. La Rotazione Varimax è una tecnica di rotazione ortogonale che ha come obiettivo la massimizzazione della varianza dei *factor loadings* al quadrato per ciascun fattore. Poiché è una rotazione ortogonale, mantiene l'indipendenza lineare tra i fattori. Il suo ruolo primario è: * **Massima Semplificazione:** La rotazione ridefinisce gli assi dei fattori 1 e 2 in modo che ogni variabile originale (attributo) tenda ad avere *loadings* (pesi) **elevati solo su un singolo fattore** e *loadings* prossimi a zero sugli altri. * **Migliore Interpretabilità:** Questo processo crea una struttura dei fattori più pulita (**Simple Structure**), rendendo immediato capire quali attributi contribuiscono a definire in modo univoco un dato fattore (es. gli attributi di Intensità su Factor 1 e quelli di Estensione/Durata su Factor 2, come si evince dalla Tabella B.4.1). | Attributo | Factor\_1 | Factor\_2 | | :--- | :--- | :--- | | **$\text{Vol}_P$** | 0.899 | 0.180 | | **$\text{Vol}_{1\text{mm}}$** | 0.418 | 0.885 | | **Area** | 0.038 | 0.820 | | **durata** | -0.265 | 0.690 | | **$\text{Area}_{P\text{max}}$** | 0.732 | 0.162 | | **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.571 | 0.501 | | **$\text{P}_{1\text{h}}$** | 0.844 | -0.010 | | **$\text{P}_{3\text{h}}$** | 0.733 | 0.235 | | **$a_{\text{VOL}}$** | 0.341 | 0.908 | | **$\text{P}_{\text{max}}$** | 0.880 | -0.123 | | *Tabella B.4.1. Factor loadings* | | | Questo metodo calcola la **Matrice dei Pesi del Punteggio Fattoriale W** tramite un'analisi di regressione che fornisce la migliore stima lineare dei Fattori, utilizzando la struttura fattoriale ruotata. La Matrice $W$ è definita dalla seguente equazione: $$ W = R^{-1} L (L^T R^{-1} L + U^2)^{-1} L^T R^{-1} $$ Dove: * $L$: è la Matrice dei **Factor Loadings** ruotati. * $R$: è la **Matrice di Correlazione** tra le variabili originali standardizzate. * $U^2$: è la **Matrice Diagonale delle Unicità**. L'**Unicità** ($u_{i}^{2}$) di una variabile viene calcolata come la differenza tra la sua varianza totale, che in forma standardizzata vale $1$, e la sua **Comunalità** ($h_{i}^{2}$): $$ u_{i}^{2} = 1 - h_{i}^{2} $$ Dove $h_{i}^{2}$ è la somma dei quadrati dei *loadings* della variabile $i$ sui $k$ fattori: $$ h_{i}^{2} = \sum_{j=1}^{k} l_{ij}^{2} $$ La forte **collinearità** tra alcune variabili originali (come evidenziato dalla Matrice di Correlazione $R$) può portare alla singolarità o all'instabilità della matrice $R^{-1}$ e, di conseguenza, rendere la stima della Matrice dei Pesi $W$ instabile e non robusta. Per mitigare questo effetto, la lista originale di variabili è stata ridotta ai **10 attributi** che mostrano un equilibrio tra rilevanza fisica e intercorrelazione gestibile per l'analisi fattoriale. La Matrice $W$ risultante, che proietta lo spazio delle 10 variabili nello spazio bidimensionale dei Fattori, è indicata in Tabella B.4.2. | Attributo | Factor\_1 | Factor\_2 | | :--- | :--- | :--- | | **$\text{Vol}_P$** | 0.229 | -0.027 | | **$\text{Vol}_{1\text{mm}}$** | 0.026 | 0.273 | | **Area** | -0.072 | 0.288 | | **durata** | -0.143 | 0.272 | | **$\text{Area}_{P\text{max}}$** | 0.185 | -0.016 | | **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.107 | 0.121 | | **$\text{P}_{1\text{h}}$** | 0.233 | -0.089 | | **$\text{P}_{3\text{h}}$** | 0.178 | 0.010 | | **$a_{\text{VOL}}$** | 0.002 | 0.289 | | **$\text{P}_{\text{max}}$** | 0.255 | -0.133 | | *Tabella B.4.2. Pesi complessivi dei punteggi fattoriali* | | | | Attributo | Unicità ($u_{i}^{2}$) | | :--- | :--- | | **$\text{Vol}_P$** | 0.160 | | **$\text{Vol}_{1\text{mm}}$** | 0.043 | | **Area** | 0.327 | | **durata** | 0.453 | | **$\text{Area}_{P\text{max}}$** | 0.438 | | **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.423 | | **$\text{P}_{1\text{h}}$** | 0.288 | | **$\text{P}_{3\text{h}}$** | 0.407 | | **$a_{\text{VOL}}$** | 0.059 | | **$\text{P}_{\text{max}}$** | 0.210 | | *Tabella B.4.3. Unicità* | | ### B.4.2 Calcolo degli Score Fattoriali F e F' La stessa matrice dei pesi $W$ viene utilizzata sia sugli eventi originali ($\mathbf{M}$) che sulla popolazione simulata ($\mathbf{M'}$): $$ \mathbf{F} = \mathbf{M} \cdot \mathbf{W} \quad \text{e} \quad \mathbf{F'} = \mathbf{M'} \cdot \mathbf{W} $$ Questa proiezione nel piano bidimensionale dei Fattori ($\mathbf{F'}$) crea la regione di eventi estremi simulata in uno spazio di due variabili indipendenti. Questo rende possibile calcolare, per ciascun evento originale (con score $\mathbf{F}$), la **probabilità di superamento $p$** dei due fattori tramite confronto campionario (*rank-based*) con la popolazione simulata $\mathbf{F'}$. Vista l’indipendenza dei fattori, la probabilità di superamento congiunta $p_{c}$ risulta essere pari al prodotto delle probabilità di superamento dei singoli fattori: $p_{c} = p(F_{1}) \cdot p(F_{2})$. Una volta calcolata la probabilità di superamento congiunta $p(\mathbf{F})$ per ciascun evento estremo, il **Tempo di Ritorno Multivariato $\text{T}_r$** (espresso in anni) viene calcolato tenendo conto della probabilità e del tasso di occorrenza degli eventi estremi nella serie storica. L'equazione utilizzata per convertire la probabilità di superamento congiunta e campionaria in Tempo di Ritorno è la seguente: $$ T_r(\mathbf{F}) = \frac{1}{\lambda_{\text{ext}} \cdot p(\mathbf{F})} $$ Dove: * $T_r(\mathbf{F})$: è il Tempo di Ritorno in anni per l'evento caratterizzato dai punteggi fattoriali $\mathbf{F}$. * $\lambda_{\text{ext}}$: è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi**, calcolato come il numero totale di eventi estremi osservati nella matrice $\mathbf{M}$ diviso per il numero totale di anni di osservazione nella serie storica. Questo valore è la probabilità marginale di osservare almeno un evento estremo in un anno. * $p(\mathbf{F})$: è la **Probabilità di Superamento Congiunto** dell'evento, stimata tramite il confronto campionario (*rank-based*) degli Score $\mathbf{F}$ con la popolazione sintetica $\mathbf{F'}$. --- ## B.5 Analisi di Sensitività Spaziale del Tempo di Ritorno ($\text{T}_r$) Nei modelli idrologici tradizionali, il Tempo di Ritorno ($\mathbf{T}_r$) viene stimato localmente, utilizzando la serie storica di un singolo pluviometro. Questo studio, basato su eventi areali descritti da attributi multivariati e campionati su un'intera regione geografica (la Toscana), estende il concetto di $\mathbf{T}_r$ da puntuale a spaziale/multivariato. Questo approccio solleva il **Problema del Campionamento Spaziale**: come è influenzato il valore (e il significato) del $\mathbf{T}_r$ quando la popolazione di eventi estremi di riferimento viene definita su scale spaziali diverse? L'obiettivo di questa analisi di sensitività è quantificare questa influenza. Il $\mathbf{T}_r$ di un evento estremo può infatti variare drasticamente a seconda che sia confrontato con la popolazione di eventi estremi di tutta la regione (un contesto globale) o solo con la popolazione estratta da un contesto locale (un'area ristretta attorno al suo baricentro). ### B.5.1 Procedura di Analisi Spaziale Iterativa Per un generico evento estremo osservato $\mathbf{e}$ con coordinate note del baricentro ($x_{Gp}, y_{Gp}$), il $\mathbf{T}_r$ viene testato iterativamente su una serie crescente di **raggi spaziali $R$**. 1. Si definisce una lista di raggi $R$ crescenti che fungono da *proxy* per la scala spaziale dell'analisi. 2. A ciascun elemento simulato in $\mathbf{M'}$ (i 2 milioni di eventi) viene associata una coordinata spaziale del baricentro in modo casuale all'interno dell'area di studio. 3. Per ogni raggio $R$, viene selezionato un $\mathbf{M''}$, sottoinsieme di $\mathbf{M'}$, composto solo dagli eventi simulati la cui distanza dal baricentro dell'evento di interesse $\mathbf{e}$ è minore di $R$ ($\text{dist}(\mathbf{e} - \mathbf{M''}) < R$). 4. Gli score fattoriali per l'evento osservato $\mathbf{e}$ ($\mathbf{F}(\mathbf{e})$) sono calcolati utilizzando la matrice dei pesi $W$ derivata da $\mathbf{M}$. Gli score simulati ($\mathbf{F''}$) sono calcolati applicando la stessa matrice $W$ al sottocampione spaziale $\mathbf{M''}$. 5. La probabilità di superamento congiunta $p(\mathbf{F})$ dell'evento $\mathbf{e}$ viene ricalcolata tramite confronto campionario (*rank-based*) tra $\mathbf{F}(\mathbf{e})$ e $\mathbf{F''}$. Il Tempo di Ritorno Multivariato $\text{T}_r$ viene calcolato in funzione di $R$ utilizzando l'equazione: $$ T_r(\mathbf{F}, R) = \frac{1}{\lambda_{\text{ext}}(R) \cdot p(\mathbf{F})} $$ Dove $\lambda_{\text{ext}}(R)$ è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi** stimato entro il raggio $R$. Questa procedura viene iterata su ciascun evento estremo $\mathbf{e}$ in $\mathbf{M}$ per diversi valori del raggio $R$. Le figure 2 e 3 mostrano l'andamento del $T_r$ in funzione della scala spaziale dell’analisi per due eventi distinti della Toscana.