Skip to content
GitLab
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in
  • M MenoRischio-Progettazione
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 0
    • Issues 0
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Packages and registries
    • Packages and registries
    • Package Registry
    • Container Registry
    • Infrastructure Registry
  • Monitor
    • Monitor
    • Metrics
    • Incidents
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • menorischio
  • MenoRischio-Progettazione
  • Wiki
  • Guida
  • AppendiceB

AppendiceB · Changes

Page history
Update AppendiceB authored Nov 20, 2025 by Mario Di Bacco's avatar Mario Di Bacco
Hide whitespace changes
Inline Side-by-side
guida/AppendiceB.md
View page @ f5ac5d2c
Appendice B
# Appendice A: Metodologie Statistiche Dettagliate
## 2.4 Analisi Statistica e Modelli di Distribuzione
## A.1 Analisi Statistica e Modelli di Distribuzione
### 2.4.1 Analisi Statistica dei Singoli Attributi
### A.1.1 Analisi Statistica dei Singoli Attributi
Per ciascuno degli attributi selezionati è stata condotta un'analisi statistica **univariata** finalizzata a modellarne la distribuzione di probabilità.
......@@ -11,13 +11,13 @@ La modellazione è stata effettuata separatamente per due regioni:
* **Corpo della distribuzione:** Stimato con la **Empirical Cumulative Distribution Function (ECDF)**.
* **Coda (valori estremi):** Stimata con la **Generalized Pareto Distribution (GPD)**.
#### Determinazione della Soglia (Peak Over Threshold - POT)
#### A.1.1.1 Determinazione della Soglia (Peak Over Threshold - POT)
La soglia che separa queste due regioni (corpo e coda) è stata determinata tramite un'analisi diagnostica **Peak Over Threshold (POT)** multi-criterio.
La soglia finale è stata selezionata bilanciando due esigenze contrapposte:
1. Minimizzare il *bias* (utilizzando soglie sufficientemente alte).
2. Mantenere un numero sufficiente di eventi estremi per una stima robusta dei parametri GPD.
1. Minimizzare il *bias* (utilizzando soglie sufficientemente alte).
2. Mantenere un numero sufficiente di eventi estremi per una stima robusta dei parametri GPD.
I **criteri essenziali** utilizzati per la validazione della soglia e l'adeguatezza del *fit* GPD includono:
* La stabilità del parametro di forma ($\xi$).
......@@ -49,23 +49,23 @@ Questa combinazione assicura che il modello sia statisticamente robusto su tutto
---
## 2.5 Modellazione della Dipendenza Multivariata (Vine Copula)
## A.2 Modellazione della Dipendenza Multivariata (Vine Copula)
Per modellare in modo accurato la distribuzione multivariata degli eventi estremi, è fondamentale catturare la complessa **struttura di dipendenza** tra gli attributi nella **Matrice M**. A causa della non-linearità e dell'asimmetria tipiche dei fenomeni estremi, non è efficace utilizzare modelli multivariati tradizionali.
Si è quindi fatto ricorso alla **Vine Copula (R-Vine)**, un modello gerarchico flessibile.
### 2.5.1 Fasi del Processo di Modellazione
### A.2.1 Fasi del Processo di Modellazione
1. **Trasformazione Spaziale Uniforme:**
* Il primo passo è la **trasformazione nello spazio uniforme [0, 1]** di ciascun attributo estremo.
* Questa operazione viene effettuata utilizzando la rispettiva **distribuzione marginale**.
* L'obiettivo è standardizzare i dati, consentendo alla Copula di modellare esclusivamente la **dipendenza di rango**.
    * Il primo passo è la **trasformazione nello spazio uniforme $[0, 1]$** di ciascun attributo estremo.
    * Questa operazione viene effettuata utilizzando la rispettiva **distribuzione marginale**.
    * L'obiettivo è standardizzare i dati, consentendo alla Copula di modellare esclusivamente la **dipendenza di rango**.
2. **Scomposizione Gerarchica (R-Vine):**
* La Vine Copula scompone la dipendenza tra $N$ attributi in una serie di **copule binarie** attraverso **$N-1$ alberi gerarchici** ($T_1, T_2, \dots, T_{N-1}$).
    * La Vine Copula scompone la dipendenza tra $N$ attributi in una serie di **copule binarie** attraverso **$N-1$ alberi gerarchici** ($T_1, T_2, \dots, T_{N-1}$).
### 2.5.2 Struttura degli Alberi
### A.2.2 Struttura degli Alberi
* **Albero Iniziale ($T_1$):** Le copule binarie sono modellate direttamente tra le **coppie di variabili trasformate**.
* **Alberi Successivi:** I nodi rappresentano le densità di copula **condizionate** stimate nel livello precedente. Gli archi modellano la **dipendenza residua** condizionata da un sottoinsieme di altre variabili.
......@@ -74,9 +74,9 @@ Questo approccio permette di ottimizzare la selezione della **famiglia di copula
---
## 2.6 Generazione della Popolazione Sintetica di Eventi Estremi
## A.3 Generazione della Popolazione Sintetica di Eventi Estremi
Per ottenere un campione robusto che copra l'intera regione di interesse multivariata e consenta una stima stabile del **Tempo di Ritorno (T<sub>r</sub>)**, è stata eseguita una simulazione **Monte Carlo** sulla struttura di dipendenza stimata.
Per ottenere un campione robusto che copra l'intera regione di interesse multivariata e consenta una stima stabile del **Tempo di Ritorno ($\text{T}_r$)**, è stata eseguita una simulazione **Monte Carlo** sulla struttura di dipendenza stimata.
Sono stati estratti **2 milioni di campioni** dalla Vine Copula precedentemente fittata. Il processo si articola in due fasi chiave:
......@@ -88,11 +88,11 @@ Questa trasformazione inversa è condizionale: i valori $u$ che cadono **sotto l
---
## 2.7 Definizione della Regione dello Spazio su cui Calcolare T<sub>r</sub>
## A.4 Definizione della Regione dello Spazio su cui Calcolare T$_r$
L'obiettivo di questa fase è proiettare sia gli eventi osservati che quelli simulati nel **dominio dei Fattori**, in modo da definire una regione dello spazio multivariato su cui valutare la probabilità di superamento.
### 2.7.1 Analisi Fattoriale e Calcolo dei Pesi W
### A.4.1 Analisi Fattoriale e Calcolo dei Pesi W
La fase inizia con l'applicazione dell'**Analisi Fattoriale Esplorativa (EFA)** sulla Matrice degli Attributi **M** (eventi estremi originali). Per l'estrazione dei Fattori è stato impiegato il metodo di **Fattorizzazione Assiale Principale (Principal Axis Factoring - PAF)**, eseguito utilizzando la libreria *factor\_analyzer*.
......@@ -101,21 +101,21 @@ Dopo l'estrazione iniziale dei Fattori tramite il metodo PAF, che assicura che i
La Rotazione Varimax è una tecnica di rotazione ortogonale che ha come obiettivo la massimizzazione della varianza dei *factor loadings* al quadrato per ciascun fattore. Poiché è una rotazione ortogonale, mantiene l'indipendenza lineare tra i fattori. Il suo ruolo primario è:
* **Massima Semplificazione:** La rotazione ridefinisce gli assi dei fattori 1 e 2 in modo che ogni variabile originale (attributo) tenda ad avere *loadings* (pesi) **elevati solo su un singolo fattore** e *loadings* prossimi a zero sugli altri.
* **Migliore Interpretabilità:** Questo processo crea una struttura dei fattori più pulita (**Simple Structure**), rendendo immediato capire quali attributi contribuiscono a definire in modo univoco un dato fattore (es. gli attributi di Intensità su Factor 1 e quelli di Estensione/Durata su Factor 2, come si evince dalla Tabella 1).
* **Migliore Interpretabilità:** Questo processo crea una struttura dei fattori più pulita (**Simple Structure**), rendendo immediato capire quali attributi contribuiscono a definire in modo univoco un dato fattore (es. gli attributi di Intensità su Factor 1 e quelli di Estensione/Durata su Factor 2, come si evince dalla Tabella A.4.1).
| Attributo | Factor\_1 | Factor\_2 |
| :--- | :--- | :--- |
| **Vol<sub>P</sub>** | 0.899 | 0.180 |
| **Vol<sub>1mm</sub>** | 0.418 | 0.885 |
| **$\text{Vol}_P$** | 0.899 | 0.180 |
| **$\text{Vol}_{1\text{mm}}$** | 0.418 | 0.885 |
| **Area** | 0.038 | 0.820 |
| **durata** | -0.265 | 0.690 |
| **Area<sub>Pmax</sub>** | 0.732 | 0.162 |
| **Area<sub>max\_2mm</sub>** | 0.571 | 0.501 |
| **P<sub>1h</sub>** | 0.844 | -0.010 |
| **P<sub>3h</sub>** | 0.733 | 0.235 |
| **a<sub>VOL</sub>** | 0.341 | 0.908 |
| **P<sub>max</sub>** | 0.880 | -0.123 |
| *Tabella 1. Factor loadings* | | |
| **$\text{Area}_{P\text{max}}$** | 0.732 | 0.162 |
| **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.571 | 0.501 |
| **$\text{P}_{1\text{h}}$** | 0.844 | -0.010 |
| **$\text{P}_{3\text{h}}$** | 0.733 | 0.235 |
| **$a_{\text{VOL}}$** | 0.341 | 0.908 |
| **$\text{P}_{\text{max}}$** | 0.880 | -0.123 |
| *Tabella A.4.1. Factor loadings* | | |
Questo metodo calcola la **Matrice dei Pesi del Punteggio Fattoriale W** tramite un'analisi di regressione che fornisce la migliore stima lineare dei Fattori, utilizzando la struttura fattoriale ruotata.
......@@ -145,37 +145,37 @@ $$
La forte **collinearità** tra alcune variabili originali (come evidenziato dalla Matrice di Correlazione $R$) può portare alla singolarità o all'instabilità della matrice $R^{-1}$ e, di conseguenza, rendere la stima della Matrice dei Pesi $W$ instabile e non robusta. Per mitigare questo effetto, la lista originale di variabili è stata ridotta ai **10 attributi** che mostrano un equilibrio tra rilevanza fisica e intercorrelazione gestibile per l'analisi fattoriale.
La Matrice $W$ risultante, che proietta lo spazio delle 10 variabili nello spazio bidimensionale dei Fattori, è indicata in Tabella 2.
La Matrice $W$ risultante, che proietta lo spazio delle 10 variabili nello spazio bidimensionale dei Fattori, è indicata in Tabella A.4.2.
| Attributo | Factor\_1 | Factor\_2 |
| :--- | :--- | :--- |
| **Vol<sub>P</sub>** | 0.229 | -0.027 |
| **Vol<sub>1mm</sub>** | 0.026 | 0.273 |
| **$\text{Vol}_P$** | 0.229 | -0.027 |
| **$\text{Vol}_{1\text{mm}}$** | 0.026 | 0.273 |
| **Area** | -0.072 | 0.288 |
| **durata** | -0.143 | 0.272 |
| **Area<sub>Pmax</sub>** | 0.185 | -0.016 |
| **Area<sub>max\_2mm</sub>** | 0.107 | 0.121 |
| **P<sub>1h</sub>** | 0.233 | -0.089 |
| **P<sub>3h</sub>** | 0.178 | 0.010 |
| **a<sub>VOL</sub>** | 0.002 | 0.289 |
| **P<sub>max</sub>** | 0.255 | -0.133 |
| *Tabella 2. Pesi complessivi dei punteggi fattoriali* | | |
| **$\text{Area}_{P\text{max}}$** | 0.185 | -0.016 |
| **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.107 | 0.121 |
| **$\text{P}_{1\text{h}}$** | 0.233 | -0.089 |
| **$\text{P}_{3\text{h}}$** | 0.178 | 0.010 |
| **$a_{\text{VOL}}$** | 0.002 | 0.289 |
| **$\text{P}_{\text{max}}$** | 0.255 | -0.133 |
| *Tabella A.4.2. Pesi complessivi dei punteggi fattoriali* | | |
| Attributo | Unicità ($u_{i}^{2}$) |
| :--- | :--- |
| **Vol<sub>P</sub>** | 0.160 |
| **Vol<sub>1mm</sub>** | 0.043 |
| **$\text{Vol}_P$** | 0.160 |
| **$\text{Vol}_{1\text{mm}}$** | 0.043 |
| **Area** | 0.327 |
| **durata** | 0.453 |
| **Area<sub>Pmax</sub>** | 0.438 |
| **Area<sub>max\_2mm</sub>** | 0.423 |
| **P<sub>1h</sub>** | 0.288 |
| **P<sub>3h</sub>** | 0.407 |
| **a<sub>VOL</sub>** | 0.059 |
| **P<sub>max</sub>** | 0.210 |
| *Tabella 3. Unicità* | |
| **$\text{Area}_{P\text{max}}$** | 0.438 |
| **$\text{Area}_{\text{max\_}2\text{mm}}$** | 0.423 |
| **$\text{P}_{1\text{h}}$** | 0.288 |
| **$\text{P}_{3\text{h}}$** | 0.407 |
| **$a_{\text{VOL}}$** | 0.059 |
| **$\text{P}_{\text{max}}$** | 0.210 |
| *Tabella A.4.3. Unicità* | |
### 2.7.2 Calcolo degli Score Fattoriali F e F'
### A.4.2 Calcolo degli Score Fattoriali F e F'
La stessa matrice dei pesi $W$ viene utilizzata sia sugli eventi originali ($\mathbf{M}$) che sulla popolazione simulata ($\mathbf{M'}$):
......@@ -187,46 +187,46 @@ Questa proiezione nel piano bidimensionale dei Fattori ($\mathbf{F'}$) crea la r
Vista l’indipendenza dei fattori, la probabilità di superamento congiunta $p_{c}$ risulta essere pari al prodotto delle probabilità di superamento dei singoli fattori: $p_{c} = p(F_{1}) \cdot p(F_{2})$.
Una volta calcolata la probabilità di superamento congiunta $p(\mathbf{F})$ per ciascun evento estremo, il **Tempo di Ritorno Multivariato T<sub>r</sub>** (espresso in anni) viene calcolato tenendo conto della probabilità e del tasso di occorrenza degli eventi estremi nella serie storica.
Una volta calcolata la probabilità di superamento congiunta $p(\mathbf{F})$ per ciascun evento estremo, il **Tempo di Ritorno Multivariato $\text{T}_r$** (espresso in anni) viene calcolato tenendo conto della probabilità e del tasso di occorrenza degli eventi estremi nella serie storica.
L'equazione utilizzata per convertire la probabilità di superamento congiunta e campionaria in Tempo di Ritorno è la seguente:
$$
T_r(\mathbf{F}) = \frac{1}{\lambda_{ext} \cdot p(\mathbf{F})}
T_r(\mathbf{F}) = \frac{1}{\lambda_{\text{ext}} \cdot p(\mathbf{F})}
$$
Dove:
* $T_r(\mathbf{F})$: è il Tempo di Ritorno in anni per l'evento caratterizzato dai punteggi fattoriali $\mathbf{F}$.
* $\lambda_{ext}$: è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi**, calcolato come il numero totale di eventi estremi osservati nella matrice $\mathbf{M}$ diviso per il numero totale di anni di osservazione nella serie storica. Questo valore è la probabilità marginale di osservare almeno un evento estremo in un anno.
* $\lambda_{\text{ext}}$: è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi**, calcolato come il numero totale di eventi estremi osservati nella matrice $\mathbf{M}$ diviso per il numero totale di anni di osservazione nella serie storica. Questo valore è la probabilità marginale di osservare almeno un evento estremo in un anno.
* $p(\mathbf{F})$: è la **Probabilità di Superamento Congiunto** dell'evento, stimata tramite il confronto campionario (*rank-based*) degli Score $\mathbf{F}$ con la popolazione sintetica $\mathbf{F'}$.
---
## 2.8 Analisi di Sensitività Spaziale del Tempo di Ritorno (T<sub>r</sub>)
## A.5 Analisi di Sensitività Spaziale del Tempo di Ritorno ($\text{T}_r$)
Nei modelli idrologici tradizionali, il Tempo di Ritorno (**T<sub>r</sub>**) viene stimato localmente, utilizzando la serie storica di un singolo pluviometro. Questo studio, basato su eventi areali descritti da attributi multivariati e campionati su un'intera regione geografica (la Toscana), estende il concetto di **T<sub>r</sub>** da puntuale a spaziale/multivariato.
Nei modelli idrologici tradizionali, il Tempo di Ritorno ($\mathbf{T}_r$) viene stimato localmente, utilizzando la serie storica di un singolo pluviometro. Questo studio, basato su eventi areali descritti da attributi multivariati e campionati su un'intera regione geografica (la Toscana), estende il concetto di $\mathbf{T}_r$ da puntuale a spaziale/multivariato.
Questo approccio solleva il **Problema del Campionamento Spaziale**: come è influenzato il valore (e il significato) del **T<sub>r</sub>** quando la popolazione di eventi estremi di riferimento viene definita su scale spaziali diverse?
Questo approccio solleva il **Problema del Campionamento Spaziale**: come è influenzato il valore (e il significato) del $\mathbf{T}_r$ quando la popolazione di eventi estremi di riferimento viene definita su scale spaziali diverse?
L'obiettivo di questa analisi di sensitività è quantificare questa influenza. Il **T<sub>r</sub>** di un evento estremo può infatti variare drasticamente a seconda che sia confrontato con la popolazione di eventi estremi di tutta la regione (un contesto globale) o solo con la popolazione estratta da un contesto locale (un'area ristretta attorno al suo baricentro).
L'obiettivo di questa analisi di sensitività è quantificare questa influenza. Il $\mathbf{T}_r$ di un evento estremo può infatti variare drasticamente a seconda che sia confrontato con la popolazione di eventi estremi di tutta la regione (un contesto globale) o solo con la popolazione estratta da un contesto locale (un'area ristretta attorno al suo baricentro).
### 2.8.1 Procedura di Analisi Spaziale Iterativa
### A.5.1 Procedura di Analisi Spaziale Iterativa
Per un generico evento estremo osservato $\mathbf{e}$ con coordinate note del baricentro (x<sub>Gp</sub>, y<sub>Gp</sub>), il **T<sub>r</sub>** viene testato iterativamente su una serie crescente di **raggi spaziali $R$**.
Per un generico evento estremo osservato $\mathbf{e}$ con coordinate note del baricentro ($x_{Gp}, y_{Gp}$), il $\mathbf{T}_r$ viene testato iterativamente su una serie crescente di **raggi spaziali $R$**.
1. Si definisce una lista di raggi $R$ crescenti che fungono da proxy per la scala spaziale dell'analisi.
2. A ciascun elemento simulato in $\mathbf{M'}$ (i 2 milioni di eventi) viene associata una coordinata spaziale del baricentro in modo casuale all'interno dell'area di studio.
3. Per ogni raggio $R$, viene selezionato un $\mathbf{M''}$, sottoinsieme di $\mathbf{M'}$, composto solo dagli eventi simulati la cui distanza dal baricentro dell'evento di interesse $\mathbf{e}$ è minore di $R$ ($\text{dist}(\mathbf{e} - \mathbf{M''}) < R$).
4. Gli score fattoriali per l'evento osservato $\mathbf{e}$ ($\mathbf{F}(\mathbf{e})$) sono calcolati utilizzando la matrice dei pesi $W$ derivata da $\mathbf{M}$. Gli score simulati ($\mathbf{F''}$) sono calcolati applicando la stessa matrice $W$ al sottocampione spaziale $\mathbf{M''}$.
5. La probabilità di superamento congiunta $p(\mathbf{F})$ dell'evento $\mathbf{e}$ viene ricalcolata tramite confronto campionario (*rank-based*) tra $\mathbf{F}(\mathbf{e})$ e $\mathbf{F''}$.
1. Si definisce una lista di raggi $R$ crescenti che fungono da *proxy* per la scala spaziale dell'analisi.
2. A ciascun elemento simulato in $\mathbf{M'}$ (i 2 milioni di eventi) viene associata una coordinata spaziale del baricentro in modo casuale all'interno dell'area di studio.
3. Per ogni raggio $R$, viene selezionato un $\mathbf{M''}$, sottoinsieme di $\mathbf{M'}$, composto solo dagli eventi simulati la cui distanza dal baricentro dell'evento di interesse $\mathbf{e}$ è minore di $R$ ($\text{dist}(\mathbf{e} - \mathbf{M''}) < R$).
4. Gli score fattoriali per l'evento osservato $\mathbf{e}$ ($\mathbf{F}(\mathbf{e})$) sono calcolati utilizzando la matrice dei pesi $W$ derivata da $\mathbf{M}$. Gli score simulati ($\mathbf{F''}$) sono calcolati applicando la stessa matrice $W$ al sottocampione spaziale $\mathbf{M''}$.
5. La probabilità di superamento congiunta $p(\mathbf{F})$ dell'evento $\mathbf{e}$ viene ricalcolata tramite confronto campionario (*rank-based*) tra $\mathbf{F}(\mathbf{e})$ e $\mathbf{F''}$.
Il Tempo di Ritorno Multivariato $T_r$ viene calcolato in funzione di $R$ utilizzando l'equazione:
Il Tempo di Ritorno Multivariato $\text{T}_r$ viene calcolato in funzione di $R$ utilizzando l'equazione:
$$
T_r(\mathbf{F}, R) = \frac{1}{\lambda_{ext}(R) \cdot p(\mathbf{F})}
T_r(\mathbf{F}, R) = \frac{1}{\lambda_{\text{ext}}(R) \cdot p(\mathbf{F})}
$$
Dove $\lambda_{ext}(R)$ è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi** stimato entro il raggio $R$.
Dove $\lambda_{\text{ext}}(R)$ è il **Tasso Medio Annuale di Occorrenza degli Eventi Estremi** stimato entro il raggio $R$.
Questa procedura viene iterata su ciascun evento estremo $\mathbf{e}$ in $\mathbf{M}$ per diversi valori del raggio $R$. Le figure 2 e 3 mostrano l'andamento del $T_r$ in funzione della scala spaziale dell’analisi per due eventi distinti della Toscana.
\ No newline at end of file
Clone repository
  • _sidebar
  • guida
    • AppendiceA.md
    • AppendiceB
    • Bibliografia.md
    • Introduzione.md
    • Sezione1.md
    • Sezione1_3.md
    • Sezione1_4.md
    • Sezione2.md
    • Sezione3.md
    • Sezione3_1.md
    • Sezione3_2.md
    • Sezione4.md
  • Home