2025-09-15

Benchmarking Tree-Based Ensemble Methods for Multi-Year Daily Precipitation Forecasting Across the Contiguous United States (2000–2023)

Description

This study presents a comparative evaluation of the LightGBM and XGBoost algorithms for the task of next-day (J+1) daily precipitation forecasting. The analysis utilizes a comprehensive dataset of 8,765 daily meteorological observations spanning the entire continental United States over a 24-year period (2000–2023). The research focuses on assessing predictive performance in relation to seasonal climatic variables and evaluates model robustness against interannual variability. With a pedagogical objective , the study aims to identify the most influential climatic determinants for short-term hydrometeorological prediction.






馃幆 The detailed methodology and results can be accessed through this link:

馃憠Click here now! :  https://github.com/abdibasidadan-byte


Abdi-Basid ADAN, 2025


2025-09-14

Analysis and Downscaling of Precipitation over East Africa and Djibouti: Observed Data, GCM-CMIP6, and CORDEX

This study provides a multi-scale comparison of simulated and observed precipitation. Global simulations from the CanESM5 model (CMIP6, 282 km) are contrasted with results obtained through stochastic downscaling at 3.5 km using CSTools. Observed rainfall for 1981 is spatially interpolated using Inverse Distance Weighting (IDW).

In addition, climate projections from the EC-Earth3-Veg model (CMIP6) under the SSP585 scenario are analyzed for the period 2021–2040, focusing on both the Republic of Djibouti and the wider East Africa region. Finally, downscaled daily precipitation from CORDEX (1981–1985) is generated using Nearest Neighbor and Bilinear interpolation, allowing an assessment of the sensitivity of results to methodological choices.




Figure 0.
Comparison of rainfall variability from satellite products versus observation in situ from 1980 to 2021.


Figure 1. CMIP6 GCM CanESM5 precipitation for 1981 (spatial resolution: 282 km).


Figure 2. CMIP6 GCM CanESM5 precipitation for 1981 downscaled to 3.5 km using stochastic methods with CSTools.



Figure 3. Spatial distribution of observed rainfall in 1981 using Inverse Distance Weighting (IDW) interpolation




Figure 4. Projected total monthly precipitation (mm) from the EC-Earth3-Veg model (GCM-CMIP6), based on the ssp585 scenario Over the Republic of Djibouti during 2021-2040.



Figure 5. Projected total monthly precipitation (mm) from the EC-Earth3-Veg model (GCM-CMIP6), based on the ssp585 scenario Over the Eastern of Africa during 2021-2040.


Figure 6. Downscaled daily precipitation from CORDEX (1981–1985) using (a) Nearest Neighbor interpolation, (b) Bilinear interpolation, and (c) original CORDEX data for comparison.



Figure 7. Performance comparison of the occurrence, duration and intensity of rainfall simulated by Canadian global and regional climate models against the observed rainfall at the airport station.





The Abdi-Basid Courses Institute (tABCi)

@ 2023 Abdi-Basid ADAN

2025-09-13

Predictive Analysis of Customer Behavior in E-Commerce: Prediction of Average Order Value and Identification of High-Value Customers

Description:

This data analysis project explores customer behavior on an e-commerce platform using a dataset containing key metrics such as session duration, product detail views, app transactions, add-to-cart rate per session, discount rate per visited products, credit card info saving, average order value (“avg order value”), and a high-value customer indicator (“high_value_customer”). The code is structured in several steps:

Data Preparation: Loading from the clipboard, cleaning (replacing commas with periods for decimals), numeric conversion, and encoding of categorical variables (e.g., yes/no via LabelEncoder). 

Regression Modeling: Use of an XGBoost model to predict average order value, with evaluation via RMSE and R² on a test set (30% of the data). Visualizations include a scatter plot of predictions vs. actual values, a correlation matrix, a boxplot of average basket by card saving, and a histogram of prediction errors. 

Classification Modeling: Logistic regression with L2 regularization to identify high-value customers, based on selected features (session duration, product views, etc.). Evaluation via ROC-AUC score and ROC curve.







Abdi-Basid ADAN, 09–2025

馃幆 The detailed methodology and results can be accessed through this link:

馃憠Click here now! : https://github.com/abdibasidadan-byte

2025-09-08

Facteurs Climatiques et Environnementaux Influen莽ant la Dynamique du NDVI dans une R茅gion Aride : Importance des Pr茅dicteurs, Corr茅lation Partielle et Analyse des Tendances (1987–2022)

Compr茅hension des changements dans les 茅cosyst猫mes de mangroves

La compr茅hension des changements dans les 茅cosyst猫mes de mangroves, induits par les activit茅s humaines, le changement climatique et les variations environnementales, est essentielle pour une gestion 茅cologique efficace. Cette 茅tude se concentre sur la variabilit茅 spatiotemporelle de l'Indice de V茅g茅tation par Diff茅rence Normalis茅e (NDVI) et examine ses r茅ponses 脿 des param猫tres tels que le niveau de la mer (SL), l'脡vapotranspiration Potentielle (PET), les pr茅cipitations (RF), l'Indice Standardis茅 de Pr茅cipitation (SPI-1 mois), l'humidit茅 du sol (SM), la temp茅rature minimale (TN) et la temp茅rature maximale (TX) dans la zone d'茅tude.

Les tendances, les influences relatives, l'autocorr茅lation spatiale et les relations entre le NDVI et les variables climatiques et environnementales, ainsi que les corr茅lations partielles, ont 茅t茅 analys茅es 脿 l'aide du test de tendance monotone de Mann-Kendall (MKMT), de l'Analyse de Pond茅ration Relative (RWA), des coefficients de corr茅lation partielle (PCC) et des m茅thodes de R茅gression Lin茅aire Multiple (MLR).

Les sch茅mas spatiotemporels du NDVI r茅v猫lent une r茅duction des sols nus et une augmentation de la v茅g茅tation 茅parse et dense entre 1987 et 2022. N茅anmoins, des zones de d茅gradation ont 茅t茅 observ茅es, notamment dans le sud de Godoria en 2022 par rapport 脿 1987, comme l'indique le NDVI. Une d茅t茅rioration notable du NDVI (> 0,2) a 茅t茅 enregistr茅e entre 2000 et 2012, tandis que la tendance interannuelle globale montre un l茅ger d茅clin.

De plus, les analyses avec Mann-Kendall et la pente de Theil-Sen r茅v猫lent que TN, TX, PET et SPI-1 montrent des tendances 脿 la hausse, bien que non statistiquement significatives, tandis que SM et LST affichent des tendances 脿 la baisse. Pour les variables environnementales, SL indique une tendance 脿 la hausse. En outre, l'analyse de corr茅lation partielle identifie SL, TN, SPI-1, TX et PET comme les principaux facteurs climatiques contr么lant la dynamique de la v茅g茅tation pendant la saison JJAS, avec des valeurs PCC de -0,89, 0,87, 0,77, -0,76, -0,75 et 0,86 avec le NDVI, respectivement.

 

2.1.1.Calcul de superficie 脿 partir d'un raster et shapefile :

          Objectif : D茅terminer le nombre de pixels d'une image raster situ茅s dans une zone d茅finie par un shapefile, puis calculer la superficie correspondante en m² et hectares.

           Superficie (m²) = N × (R茅solution_x × R茅solution_y)

          Superficie (ha) = [N × (R茅solution_x × R茅solution_y)] ÷ 10 000

          Nombre de pixels (N) : 12 500 pixels. R茅solution : 20 m × 20 m (pixels carr茅s):

         Calcul : Superficie_m² = 12 500 × (20 × 20) = 12 500 × 400 = 5 000 000 m² ou Superficie_ha = 5 000 000 ÷ 10 000 = 500 ha


             Correlation Partiel

Les coefficients de corr茅lation bivari茅s peuvent ne pas repr茅senter efficacement les relations complexes entre les variables dans une analyse de corr茅lation multivari茅e, 茅tant donn茅 que de multiples facteurs peuvent influencer ces relations. Par cons茅quent, des coefficients de corr茅lation partielle ont 茅t茅 calcul茅s pour 茅valuer la force et la direction spatiotemporelles de la relation lin茅aire entre le NDVI et chaque variable climatique, tout en contr么lant les effets des autres variables climatiques (c'est-脿-dire le niveau de la mer, PET, SM, SPI, LST, TN et TX). La corr茅lation la plus forte est proche de 1, tandis que la plus faible est inf茅rieure 脿 0,5. Ainsi, la corr茅lation partielle peut 锚tre calcul茅e comme suit (Cheng et al., 2017) :

                                                                                                 

(1)
O霉 :
Rxy·Z = coefficient de corr茅lation partielle entre x et y, en contr么lant Z
Rxy = corr茅lation bivari茅e entre x et y
Rxz = corr茅lation bivari茅e entre x et z
Ryz = corr茅lation bivari茅e entre y et z
Z = ensemble des variables de contr么le (autres variables climatiques)

En d'autre termes :

x = NDVI
y = une variable climatique sp茅cifique (par exemple, TN)
Z = les autres variables climatiques (SL, PET, SM, SPI, LST, TX, etc.)
Cette approche permet d'isoler l'effet sp茅cifique de chaque variable climatique sur le NDVI, ind茅pendamment des influences confondantes des autres facteurs climatiques.
 (3)


Pour explorer l'autocorr茅lation spatiale des donn茅es NDVI, nous avons utilis茅 "l'analyse d'autocorr茅lation globale et locale bas茅e sur les statistiques de Moran I". Cette m茅thode permet d'茅valuer les diff茅rences spatiales moyennes entre les cellules individuelles et leurs voisines adjacentes, caract茅risant ainsi les attributs spatiaux d'une propri茅t茅 sp茅cifique 脿 travers toute la zone d'茅tude via l'analyse d'autocorr茅lation spatiale globale.

Dans les statistiques de Moran, le z-score normalis茅 peut varier de -1 脿 +1. Une valeur de Moran I sup茅rieure 脿 0 indique une corr茅lation positive, sugg茅rant un mod猫le de regroupement (clustering), tandis qu'une valeur inf茅rieure 脿 0 indique une corr茅lation n茅gative, refl茅tant un arrangement dispers茅.

Le calcul des statistiques de Moran I pour examiner l'autocorr茅lation spatiale est fourni par Xu et al. (2015) :


 (2)

 O霉 :

n = nombre total d'observations spatiales

x_i et x_j = valeurs du NDVI aux locations i et j

x̄ = moyenne des valeurs du NDVI

w_ij = poids spatiaux entre les locations i et j (matrice de contigu茂t茅)

S² = variance des valeurs du NDVI

∑∑ = double sommation sur toutes les paires i et j

Interpr茅tation :

I > 0 : autocorr茅lation positive (valeurs similaires se regroupent)

I < 0 : autocorr茅lation n茅gative (valeurs diff茅rentes se m茅langent)

I ≈ 0 : pas d'autocorr茅lation spatiale (distribution al茅atoire).


Tandis que l'autocorr茅lation spatiale globale via les statistiques de Moran I r茅v猫le le sch茅ma global de regroupement, elle ne permet pas d'茅valuer les mod猫les d'association spatiale 脿 travers de multiples localisations. En revanche, l'Autocorr茅lation Spatiale Locale se concentre sur la significativit茅 des statistiques locales 脿 chaque localisation individuelle et identifie la pr茅sence de clusters spatiaux, une capacit茅 que l'autocorr茅lation spatiale globale ne poss猫de pas.

L'茅quation math茅matique de l'autocorr茅lation spatiale locale utilisant l'indice de Moran local (souvent appel茅 LISA - Local Indicators of Spatial Association) est d茅crite par Anselin (2010) :


o霉 :

I_i = indice de Moran local pour la localisation i

z_i = valeur standardis茅e de l'attribut 脿 la localisation i : (x_i - x̄) / 蟽

z_j = valeur standardis茅e de l'attribut 脿 la localisation j voisine

w_ij = 茅l茅ment de la matrice de poids spatiaux entre les localisations i et j

x_i = valeur du NDVI 脿 la localisation i

x̄ = moyenne des valeurs du NDVI sur toutes les localisations

蟽 = 茅cart-type des valeurs du NDVI

∑ = somme sur tous les voisins j de i

Interpr茅tation des quatre types de clusters locaux :

High-High (HH) : Localisation avec valeur 茅lev茅e entour茅e de voisins avec valeurs 茅lev茅es

z_i > 0 et ∑w_ij × z_j > 0

Low-Low (LL) : Localisation avec valeur faible entour茅e de voisins avec valeurs faibles

z_i < 0 et ∑w_ij × z_j < 0

High-Low (HL) : Localisation avec valeur 茅lev茅e entour茅e de voisins avec valeurs faibles

z_i > 0 et ∑w_ij × z_j < 0

Low-High (LH) : Localisation avec valeur faible entour茅e de voisins avec valeurs 茅lev茅es

z_i < 0 et ∑w_ij × z_j > 0

Test de significativit茅 :
Pour chaque I_i, un test de permutation (g茅n茅ralement 999 permutations) est utilis茅 pour calculer une pseudo-valeur p et d茅terminer si l'autocorr茅lation locale est statistiquement significative.

Cette analyse permet d'identifier :

Les "hot spots" de NDVI (clusters HH) : zones de v茅g茅tation dense des mangroves

Les "cold spots" de NDVI (clusters LL) : zones de d茅gradation ou faible v茅g茅tation

Les anomalies spatiales (HL et LH) : zones isol茅es n茅cessitant une attention particuli猫re

L'approche LISA fournit ainsi une cartographie d茅taill茅e des sch茅mas de distribution spatiale du NDVI, compl茅mentaire 脿 l'analyse globale de Moran.







 

(a)

 

(b)

 

Fig. 1. (a)Estimation of relative importance of climate variables as predictors of NDVI. (b) Pearson correlation coefficient between NDVI and climate variables.

 

 

Table 1. Mann Kendall Trend and Theil-sen slope statistics of NDVI and climate variables from 1987 to 2022.


Theil-sen slope

p.value

Mann kendall tau (蟿)

p.value

NDVI

-0.001

0.858

-0.023

0.859

Sea level

0.001

0.646

0.057

0.646

Rainfall

0.000

NA

0.000

NA

SPI

0.000

0.917

0.000

0.917

Temp Min

0.057

0.109

0.194

0.109

Temp Max

0.072

0.173

0.166

0.172

Soil Moisture

-0.030

0.739

-0.057

0.739

PET

0.046

0.649

0.085

0.649

LST

-0.222

0.720

-0.111

0.720

 











Abdi-Basid ADAN, 2024



The Abdi-Basid Courses Institute (TABCI)