Fabio Castelli · 5c47cd51
--- a/guida/Costruzione-degli-eventi-di-progetto.md
+++ b/guida/Costruzione-degli-eventi-di-progetto.md
-# Appendice B: Metodologie Statistiche Dettagliate
+# Appendice B: Metodologie per  l'identificazione e la caratterizzazione degli eventi *what if* di progetto

-## B.1 Analisi Statistica e Modelli di Distribuzione
+Gli eventi di pioggia sono ricostruiti a partire dalle serie di dati pluviometrici raccolti dal SIR Toscana, che riportano valori di precipitazione cumulata registrati ad intervalli di **15 minuti** in **273 stazioni** tra il 1999 e il 2024. Ciascun record di pioggia è di conseguenza associato ad una coordinata temporale e alle due coordinate spaziali relative alla stazione, espresse secondo l’EPSG 3003. 

-### B.1.1 Analisi Statistica dei Singoli Attributi
+I file riconducibili ad uno stesso evento vengono raggruppati in base a criteri di aggregazione spaziale e temporale, utilizzando un **grafo** i cui nodi rappresentano i singoli record. 
+In particolare, due misure contemporanee vengono considerate parte dello stesso evento se le stazioni distano tra loro **meno di 20 km**, e i rispettivi nodi vengono collegati; la distanza è stata scelta in base alla densità della rete pluviometrica e alla completezza temporale delle serie, in modo da assicurare che ciascuna stazione utilizzata avesse sempre almeno una stazione vicina attiva. Questo ha portato a ridurre il numero di stazioni a **268**, scartando alcune tra quelle nelle isole. 
+
+Ipotizzando che la distanza temporale tra eventi di pioggia consecutivi segua un processo di Poisson, l'efficacia delle aggregazioni basate su diversi tempi di decorrelazione (o soglie inter-evento) può essere valutata confrontando l'aderenza (*goodness-of-fit*) della distribuzione temporale risultante a una distribuzione esponenziale.
+
+<figure>
+  <img src="uploads/6de3788d11dc80f0e5298eb18aa1e389/image.png" alt="Mappa dei tempi di decorrelazione stimati per le stazioni" style="display: block; margin: 0 auto; max-width: 100%;">
+  <figcaption style="text-align: center; font-style: italic; font-size: 0.9em;">
+    Tempi di decorrelazione stimati per le diverse stazioni.
+  </figcaption>
+</figure>
+
+Come si evince dai risultati mostrati nella mappa, il tempo di decorrelazione stimato ha una forte variabilità spaziale. Data la necessità di scegliere un criterio temporale unico per tutte le stazioni, sono state testate diverse regole di aggregazione. La scelta finale è ricaduta su questa:
+
+> **Criterio di aggreazione temporale:**
+> Due record $p_1$ e $p_2$ sono parte dello stesso evento se sono relativi allo stesso pluviometro e soddisfano almeno una delle seguenti condizioni:
+
+* $p_1 \ge 1 \text{ mm}$ e $p_2 \ge 1 \text{ mm}$, con una **distanza temporale non maggiore di 6 ore**.
+* $p_1 \ge 0.2 \text{ mm}$ e $p_2 \ge 0.2 \text{ mm}$, con una **distanza temporale non maggiore di 1 ora**.
+
+I collegamenti creati secondo i criteri di aggregazione spaziale e temporale fanno sì che ciascun record sia associato ad un unico evento, il quale è rappresentato tramite una serie di **reti di punti nello spazio, per istanti temporali consecutivi**.
+
+
+## B.1 Scelta degli Attributi
+
+Per descrivere gli eventi sono stati definiti una serie di attributi ricavati dai raster interpolati o dalle misure pluviometriche:
+
+* **Vol<sub>P</sub>**: volume dello Scroscio Principale [mm$\cdot$km²], ovvero del più grande volume connesso (nello spazio e nel tempo) ottenuto rimuovendo tutti i pixel per i quali $p < 4 \text{ mm}$;
+
+* **Vol<sub>4mm</sub>, Vol<sub>3mm</sub>, Vol<sub>2mm</sub>, Vol<sub>1mm</sub>, Vol<sub>0.1mm</sub>**: volume totale dell’evento [mm$\cdot$km²], trascurando tutti i pixel per i quali la pioggia cumulata in 15 minuti non supera il valore espresso nel pedice;
+
+* **P<sub>1h</sub>**: massima pioggia cumulata in un punto del raster su una finestra mobile di 1 ora [mm];
+
+* **P<sub>3h</sub>**: massima pioggia cumulata in un punto del raster su una finestra mobile di 3 ore [mm];
+
+* **a<sub>VOL</sub>**: coefficiente dell’equazione $V = a \cdot S^b$, dove $V$ è il volume totale dell’evento se si considerano solo i pixel per i quali la pioggia cumulata in 15 minuti supera il valore soglia $S$. I valori di $a$ e $b$ vengono ricavati tramite regressione;
+
+* **durata**: tempo intercorso (in ore) tra l’inizio e la fine dell’evento. Data la risoluzione temporale delle misure, è sempre un multiplo di 15 minuti;
+
+* **Area<sub>Pmax</sub>**: massima estensione raggiunta dallo scroscio principale nel tempo [km²];
+
+* **Area<sub>max\_2mm</sub>**: massima estensione [km²] raggiunta nel tempo dal sub evento ottenuto considerando solo i pixel per i quali la pioggia cumulata in 15 minuti supera $2 \text{ mm}$;
+
+* **Area**: estensione areale media dell’evento [km²], valutata considerato tutti i pixel per i quali $P \ge 0.1 \text{ mm}$;
+
+* **P<sub>max</sub>**: massimo valore misurato di pioggia cumulata in 15 minuti [mm];
+
+* **x<sub>Gp</sub>, y<sub>Gp</sub>**: coordinate spaziali del baricentro dello scroscio principale (EPSG.3003).
+
+
+## B.2 Analisi Statistica e Modelli di Distribuzione
+
+### B.2.1 Analisi Statistica dei Singoli Attributi

 Per ciascuno degli attributi selezionati è stata condotta un'analisi statistica **univariata** finalizzata a modellarne la distribuzione di probabilità.

@@ -11,7 +63,7 @@ La modellazione è stata effettuata separatamente per due regioni:
 * **Corpo della distribuzione:** Stimato con la **Empirical Cumulative Distribution Function (ECDF)**.
 * **Coda (valori estremi):** Stimata con la **Generalized Pareto Distribution (GPD)**.

-#### B.1.1.1 Determinazione della Soglia (Peak Over Threshold - POT)
+#### B.2.1.1 Determinazione della Soglia (Peak Over Threshold - POT)

 La soglia che separa queste due regioni (corpo e coda) è stata determinata tramite un'analisi diagnostica **Peak Over Threshold (POT)** multi-criterio.

@@ -34,7 +86,7 @@ Questo processo ha garantito che i parametri, stimati sui dati in eccesso, fosse
 | **Test QQ (Quantile-Quantile)** | *Confronto tra quantili empirici e teorici.* | Analisi visiva per confermare l'adeguatezza del modello sui quantili estremi. |
 | **Test PP (Probability-Probability)** | *Confronto tra probabilità empiriche e teoriche.* | Analisi visiva per confermare l'adeguatezza del modello sulla distribuzione di probabilità. |

-#### B.1.1.2 Modello Ibrido e Popolazione Estrema
+#### B.2.1.2 Modello Ibrido e Popolazione Estrema

 Una volta definito il valore soglia più opportuno, è stata creata la **popolazione degli eventi estremi**, che include tutti gli eventi che superano la soglia per **almeno un attributo** (*filtro OR*). Di conseguenza, è stata definita la **matrice M** degli attributi degli eventi estremi, composta da **1702 elementi**.

@@ -49,13 +101,13 @@ Questa combinazione assicura che il modello sia statisticamente robusto su tutto

 ---

-## B.2 Modellazione della Dipendenza Multivariata (Vine Copula)
+## B.3 Modellazione della Dipendenza Multivariata (Vine Copula)

 Per modellare in modo accurato la distribuzione multivariata degli eventi estremi, è fondamentale catturare la complessa **struttura di dipendenza** tra gli attributi nella **Matrice M**. A causa della non-linearità e dell'asimmetria tipiche dei fenomeni estremi, non è efficace utilizzare modelli multivariati tradizionali.

 Si è quindi fatto ricorso alla **Vine Copula (R-Vine)**, un modello gerarchico flessibile.

-### B.2.1 Fasi del Processo di Modellazione
+### B.3.1 Fasi del Processo di Modellazione

 1. **Trasformazione Spaziale Uniforme:**
    * Il primo passo è la **trasformazione nello spazio uniforme $[0, 1]$** di ciascun attributo estremo.
@@ -65,7 +117,7 @@ Si è quindi fatto ricorso alla **Vine Copula (R-Vine)**, un modello gerarchico
 2. **Scomposizione Gerarchica (R-Vine):**
    * La Vine Copula scompone la dipendenza tra $N$ attributi in una serie di **copule binarie** attraverso **$N-1$ alberi gerarchici** ($T_1, T_2, \dots, T_{N-1}$).

-### B.2.2 Struttura degli Alberi
+### B.3.2 Struttura degli Alberi

 * **Albero Iniziale ($T_1$):** Le copule binarie sono modellate direttamente tra le **coppie di variabili trasformate**.
 * **Alberi Successivi:** I nodi rappresentano le densità di copula **condizionate** stimate nel livello precedente. Gli archi modellano la **dipendenza residua** condizionata da un sottoinsieme di altre variabili.
@@ -74,7 +126,7 @@ Questo approccio permette di ottimizzare la selezione della **famiglia di copula

 ---

-## B.3 Generazione della Popolazione Sintetica di Eventi Estremi
+## B.4 Generazione della Popolazione Sintetica di Eventi Estremi

 Per ottenere un campione robusto che copra l'intera regione di interesse multivariata e consenta una stima stabile del **Tempo di Ritorno ($\text{T}_r$)**, è stata eseguita una simulazione **Monte Carlo** sulla struttura di dipendenza stimata.

@@ -88,11 +140,11 @@ Questa trasformazione inversa è condizionale: i valori $u$ che cadono **sotto l

 ---

-## B.4 Definizione della Regione dello Spazio su cui Calcolare T$_r$
+## B.5 Definizione della Regione dello Spazio su cui Calcolare T$_r$

 L'obiettivo di questa fase è proiettare sia gli eventi osservati che quelli simulati nel **dominio dei Fattori**, in modo da definire una regione dello spazio multivariato su cui valutare la probabilità di superamento.

-### B.4.1 Analisi Fattoriale e Calcolo dei Pesi W
+### B.5.1 Analisi Fattoriale e Calcolo dei Pesi W

 La fase inizia con l'applicazione dell'**Analisi Fattoriale Esplorativa (EFA)** sulla Matrice degli Attributi **M** (eventi estremi originali). Per l'estrazione dei Fattori è stato impiegato il metodo di **Fattorizzazione Assiale Principale (Principal Axis Factoring - PAF)**, eseguito utilizzando la libreria *factor\_analyzer*.

@@ -175,7 +227,7 @@ La Matrice $W$ risultante, che proietta lo spazio delle 10 variabili nello spazi
 | **$\text{P}_{\text{max}}$** | 0.210 |
 | *Tabella B.4.3. Unicità* | |

-### B.4.2 Calcolo degli Score Fattoriali F e F'
+### B.5.2 Calcolo degli Score Fattoriali F e F'

 La stessa matrice dei pesi $W$ viene utilizzata sia sugli eventi originali ($\mathbf{M}$) che sulla popolazione simulata ($\mathbf{M'}$):

@@ -203,7 +255,7 @@ Dove:

 ---

-## B.5 Analisi di Sensitività Spaziale del Tempo di Ritorno ($\text{T}_r$)
+## B.6 Analisi di Sensitività Spaziale del Tempo di Ritorno ($\text{T}_r$)

 Nei modelli idrologici tradizionali, il Tempo di Ritorno ($\mathbf{T}_r$) viene stimato localmente, utilizzando la serie storica di un singolo pluviometro. Questo studio, basato su eventi areali descritti da attributi multivariati e campionati su un'intera regione geografica (la Toscana), estende il concetto di $\mathbf{T}_r$ da puntuale a spaziale/multivariato.

@@ -211,7 +263,7 @@ Questo approccio solleva il **Problema del Campionamento Spaziale**: come è inf

 L'obiettivo di questa analisi di sensitività è quantificare questa influenza. Il $\mathbf{T}_r$ di un evento estremo può infatti variare drasticamente a seconda che sia confrontato con la popolazione di eventi estremi di tutta la regione (un contesto globale) o solo con la popolazione estratta da un contesto locale (un'area ristretta attorno al suo baricentro).

-### B.5.1 Procedura di Analisi Spaziale Iterativa
+### B.6.1 Procedura di Analisi Spaziale Iterativa

 Per un generico evento estremo osservato $\mathbf{e}$ con coordinate note del baricentro ($x_{Gp}, y_{Gp}$), il $\mathbf{T}_r$ viene testato iterativamente su una serie crescente di **raggi spaziali $R$**.