Qualité & Traitement des données

Téléchargement de la base de données

Pour notre projet, nous avons mené diverses analyses en nous basant sur des graphiques réalisés avec l’aide de Python. Afin d’obtenir l’ensemble des chiffres utilisés, nous avons principalement utilisé l’API mise à disposition par le Global Footprint Network (Global Footprint Network, n.d.). Cette API est gratuite et requiert seulement le remplissage d’un formulaire pour l’envoi de la clé de connexion par mail.

L’intégralité des extraits de code montrés sur ce site est issue du Notebook Jupyter utilisé par notre groupe pour importer et analyser les données sur le Jour du Dépassement. Ce Notebook Jupyter peut être visualisé ici ou téléchargé. De plus, tous les graphiques présents sur ce site ont été réalisés avec Plotly, permettant ainsi d’augmenter l’interactivité du rendu.

# Fonction pour faire des requêtes à l'API
def api_request(url):

    user_name = 'praillard'
    api_key = '1Gaqals641cOlr80cL50r7h0p176G00Lrq6b3D0lc6i0c9EnpatS'
    headers = {"HTTP_ACCEPT":"application/json"}

    response = requests.get(url, auth=(user_name, api_key), headers=headers)

    if response.status_code==200:
        try:
            df = pd.json_normalize(response.json())
        except:
            df = pd.DataFrame()
        return df
    else:
        return pd.DataFrame()

# Fonction pour récupérer les noms des pays
def get_all_country_names():

    url = 'https://api.footprintnetwork.org/v1/countries'
    df_country = api_request(url)

    return df_country


# Fonction pour récupérer les données pour tous les pays (et toutes les régions)
# et pour toutes les années (entre 1961 et 2022)
def data_all_years():

    country_codes = list(get_all_country_names()['countryCode'])

    df_total = pd.DataFrame()

    for code in tqdm(country_codes):

        if code!="all":
            url = f"https://api.footprintnetwork.org/v1/data/{code}/all"
            df_inter = api_request(url)
            df_total = pd.concat([df_total, df_inter])

    return df_total


df = data_all_years()

# Sauvegarde de la base de données sous Python
df.to_csv("all_data.csv", index=False)

Code utilisé pour télécharger les données du Global Footprint Network sur le Jour du Dépassement

Pour nos analyses, nous nous sommes limités aux colonnes suivantes de la table de données df issue de la fonction data_all_years :

LabelDescription
recordNom de la variable d'intérêt (Empreinte carbone de la production, des exportations, des importations et totale, IDH, population, etc.) Les empreintes carbone sont exprimées en hectares équivalents totaux ou par personne.
valueValeur de la variable d'intérêt précédemment évoquée.
isoa2Code ISO 3166-1 alpha-2 désignant chaque pays par 2 lettres (par exemple FR pour la France)
scoreScore de qualité de la donnée
yearAnnée d'enregistrement de la valeur d'intérêt (de 1961 à 2022)

Qualité de la base de données

Les données du Global Footprint Network sont issues de différentes antennes des Nations Unies (Global Footprint Network, n.d.) :

  • de la Food and Agriculture Organization of the United Nations (FAO) ;
  • de la United Nations Commodity Trade Statistics Database ;
  • de la UN Statistics Division ;
  • de la International Energy Agency.

Ces données sont ensuite validées par un comité scientifique (Global Footprint Network, n.d.), qui travaille avec les différents gouvernements pour améliorer les standards de qualité. Ce comité s’implique également dans la méthodologie de calcul des indicateurs.

Ces chercheurs attribuent également un score de qualité qui est attribué à chaque valeur enregistrée, allant de 3A pour le meilleur score à 1D pour le pire score. Ce score est composé de deux éléments :

  • une note globale sur la série temporelle allant de 1 à 3 ;
  • une note sur la qualité des résultats pour la dernière année allant de A à D.

Ainsi, selon le Global Footprint Network, un score de 1D correspond à des séries de valeurs telles qu’il est impossible d’en tirer des conclusions (Global Footprint Network, n.d.). Nous affichons ci-dessous la répartition des scores de qualité pour chaque région du monde, et il apparaît que l’Océanie est celle ayant les plus mauvais scores. Ceci est notamment dû aux nombreux micro-États qui possèdent des bilans carbone incomplets, comme sur l’empreinte de l’agriculture ou de la pêche.

Score de qualité de la base de données du Global Footprint Network

Bibliographie

  1. Global Footprint Network. API How To. https://data.footprintnetwork.org/#/api
  2. Global Footprint Network. Data and Methodology. https://www.footprintnetwork.org/resources/data/
  3. Global Footprint Network. Standards and National Accounts Committee. https://www.footprintnetwork.org/resources/reviews/
  4. Global Footprint Network. Data Quality Score. https://www.footprintnetwork.org/data-quality-scores/