Auteur : ORCID Dusan Bozalka
FR | EN

Cette base de données se compose de deux fichiers CSV résultant d’une collecte itérative de données provenant de 80 chaînes de la plateforme Odysee. Créée le 28 septembre 2020 par le libertarien américain Jeremy Kauffman, la plateforme se définit sur son site Internet comme un dépôt pour un large éventail de contenus, bien qu'elle soit « principalement reconnue pour ses capacités d'hébergement vid...éo ». Contrairement à YouTube, Odysee utilise un échange de données peer-to-peer (une architecture client-serveur), ce qui lui permet d'éviter les juridictions nationales imposées par l’utilisation - circonscrite géographiquement - de serveurs centralisés. Cette configuration permet à la plateforme d’échapper à toute forme de modération et fait d’elle un espace numérique privilégié pour les communautés aux positions les plus extrêmes.

Les fichiers CSV ont été obtenus en utilisant l’API de la plateforme Odysee afin d’obtenir les données et les métadonnées relatives à la création des chaînes et à la publication des utilisateurs recensés. Une liste initiale de 80 chaînes a permis d’identifier un nouveau groupement de chaînes, dont les données et métadonnées ont été également collectées. Odysee permet en effet le partage de vidéos, créant une relation entre une chaîne source et une chaîne réceptrice, similaire aux partages sur Twitter. Ce processus est répété automatiquement cinq fois, à travers différents niveaux de profondeur, pour collecter chaque groupement identifié et élargir le nombre total de chaînes par effet de vidéos partagées. Ainsi, la cinquième profondeur permet de passer de 80 chaînes et 38 906 vidéos à un échantillon total de 13 436 chaînes, 4 937 385 vidéos et documents et 516 810 partages.

Un premier fichier CSV de 6,9 MB recense les données et métadonnées relatives aux chaînes stricto sensu, à travers différentes catégories : l’identifiant de la chaîne (channel id), la date de création, le nombre d’abonnés, la description (si présente), un lien vers l’image du profil, un lien vers l’image de couverture et le pseudo de la chaîne. Un second fichier CSV de 6,5 GB concerne les données et métadonnées des contenus publiés, incluant l’URL canonique, le type de contenu (vidéos ou autres, tels que des fichiers PDF), le code d’identification de la vidéo (claim_id), la date de création choisie par l’utilisateur, le titre, le nombre de vues, l’identifiant et le nom de la chaîne, la durée de la vidéo, la langue choisie par l’utilisateur, les tags, les likes, les dislikes, la date réelle (retrouvée en scrappant les dates de publication sur le site https://explorer.lbry.com), et la date formatée sans les heures.

Les données sont multilingues, alors que la première liste de chaînes initiales comprenait 80 chaînes complotistes, affiliées au mouvement QAnon, francophones, germanophones et italophones. Progressivement, au fil de la collecte itérative, des chaînes et des contenus hispanophones, russophones et autres sont également apparus.

Cette base de données, la première jamais consacrée à Odysee, vise à permettre aux chercheurs de s’intéresser aux nouvelles possibilités offertes par cette plateforme, alors que les API d’autres plateformes traditionnelles ne sont plus accessibles. Les possibilités sont nombreuses quant à l’étude des réseaux sociaux, des communautés politisées ou extrêmes, des interactions en ligne entre utilisateurs ou des corpus audiovisuels.

Fichiers  
Visualisation

ID : 10.34847/nkl.393cvkd4/69368b4dac16655ad1deac22b13fb3371f52c550

Url d'intégration : https://api.nakala.fr/embed/10.34847/nkl.393cvkd4/69368b4dac16655ad1deac22b13fb3371f52c550

Url de téléchargement : https://api.nakala.fr/data/10.34847/nkl.393cvkd4/69368b4dac16655ad1deac22b13fb3371f52c550

Nom du fichier : Odysee_channels_dataset.csv
Extension : csv
Taille : 6.5 Mo

ID : 10.34847/nkl.393cvkd4/8128e42c425397088a11c5f4e75f04f97758426f

Url d'intégration : https://api.nakala.fr/embed/10.34847/nkl.393cvkd4/8128e42c425397088a11c5f4e75f04f97758426f

Url de téléchargement : https://api.nakala.fr/data/10.34847/nkl.393cvkd4/8128e42c425397088a11c5f4e75f04f97758426f

Nom du fichier : Odysee_videos_dataset.csv
Extension : csv
Taille : 6.04 Go

ID : 10.34847/nkl.393cvkd4/d2c46b21ce27adbf518be5a0ec3af76b9fd22bdc

Url d'intégration : https://api.nakala.fr/embed/10.34847/nkl.393cvkd4/d2c46b21ce27adbf518be5a0ec3af76b9fd22bdc

Url de téléchargement : https://api.nakala.fr/data/10.34847/nkl.393cvkd4/d2c46b21ce27adbf518be5a0ec3af76b9fd22bdc

Nom du fichier : read_me_multilingual.txt
Extension : txt
Taille : 16 Ko

ID : 10.34847/nkl.393cvkd4/0723499c66babe556392eae81b7f7ee6136ed4d3

Url d'intégration : https://api.nakala.fr/embed/10.34847/nkl.393cvkd4/0723499c66babe556392eae81b7f7ee6136ed4d3

Url de téléchargement : https://api.nakala.fr/data/10.34847/nkl.393cvkd4/0723499c66babe556392eae81b7f7ee6136ed4d3

Nom du fichier : scraping_odysee.ipynb
Extension : ipynb
Taille : 21 Ko
Licence
Creative Commons Attribution 4.0 International (CC-BY-4.0)
Collection
Citer
Partager
Déposée par Dusan Bozalka le 18/07/2024
nakala:title Multilingue OdySTAT
nakala:creator ORCID Dusan Bozalka
nakala:created 2024-06-03
nakala:type dcterms:URI Set de données
nakala:license Creative Commons Attribution 4.0 International (CC-BY-4.0)
dcterms:description Français Cette base de données se compose de deux fichiers CSV résultant d’une collecte itérative de données provenant de 80 chaînes de la plateforme Odysee. Créée le 28 septembre 2020 par le libertarien américain Jeremy Kauffman, la plateforme se définit sur son site Internet comme un dépôt pour un large éventail de contenus, bien qu'elle soit « principalement reconnue pour ses capacités d'hébergement vidéo ». Contrairement à YouTube, Odysee utilise un échange de données peer-to-peer (une architecture client-serveur), ce qui lui permet d'éviter les juridictions nationales imposées par l’utilisation - circonscrite géographiquement - de serveurs centralisés. Cette configuration permet à la plateforme d’échapper à toute forme de modération et fait d’elle un espace numérique privilégié pour les communautés aux positions les plus extrêmes.

Les fichiers CSV ont été obtenus en utilisant l’API de la plateforme Odysee afin d’obtenir les données et les métadonnées relatives à la création des chaînes et à la publication des utilisateurs recensés. Une liste initiale de 80 chaînes a permis d’identifier un nouveau groupement de chaînes, dont les données et métadonnées ont été également collectées. Odysee permet en effet le partage de vidéos, créant une relation entre une chaîne source et une chaîne réceptrice, similaire aux partages sur Twitter. Ce processus est répété automatiquement cinq fois, à travers différents niveaux de profondeur, pour collecter chaque groupement identifié et élargir le nombre total de chaînes par effet de vidéos partagées. Ainsi, la cinquième profondeur permet de passer de 80 chaînes et 38 906 vidéos à un échantillon total de 13 436 chaînes, 4 937 385 vidéos et documents et 516 810 partages.

Un premier fichier CSV de 6,9 MB recense les données et métadonnées relatives aux chaînes stricto sensu, à travers différentes catégories : l’identifiant de la chaîne (channel id), la date de création, le nombre d’abonnés, la description (si présente), un lien vers l’image du profil, un lien vers l’image de couverture et le pseudo de la chaîne. Un second fichier CSV de 6,5 GB concerne les données et métadonnées des contenus publiés, incluant l’URL canonique, le type de contenu (vidéos ou autres, tels que des fichiers PDF), le code d’identification de la vidéo (claim_id), la date de création choisie par l’utilisateur, le titre, le nombre de vues, l’identifiant et le nom de la chaîne, la durée de la vidéo, la langue choisie par l’utilisateur, les tags, les likes, les dislikes, la date réelle (retrouvée en scrappant les dates de publication sur le site https://explorer.lbry.com), et la date formatée sans les heures.

Les données sont multilingues, alors que la première liste de chaînes initiales comprenait 80 chaînes complotistes, affiliées au mouvement QAnon, francophones, germanophones et italophones. Progressivement, au fil de la collecte itérative, des chaînes et des contenus hispanophones, russophones et autres sont également apparus.

Cette base de données, la première jamais consacrée à Odysee, vise à permettre aux chercheurs de s’intéresser aux nouvelles possibilités offertes par cette plateforme, alors que les API d’autres plateformes traditionnelles ne sont plus accessibles. Les possibilités sont nombreuses quant à l’étude des réseaux sociaux, des communautés politisées ou extrêmes, des interactions en ligne entre utilisateurs ou des corpus audiovisuels.
Anglais This database consists of two CSV files resulting from an iterative collection of data from 80 channels on the Odysee platform. Created on September 28, 2020, by American libertarian Jeremy Kauffman, the platform defines itself on its website as a repository for a wide range of content, although it is "mainly recognized for its video hosting capabilities." Unlike YouTube, Odysee uses a peer-to-peer data exchange (a client-server architecture), which allows it to avoid national jurisdictions imposed by the geographically restricted use of centralized servers. This configuration allows the platform to escape any form of moderation, making it a privileged digital space for communities with the most extreme positions.

The CSV files were obtained using the Odysee platform API to retrieve data and metadata related to the creation of channels and the publication of listed users. An initial list of 80 channels allowed the identification of a new grouping of channels, whose data and metadata were also collected. Odysee indeed allows video sharing, creating a relationship between a source channel and a recipient channel, similar to shares on Twitter. This process is repeated automatically five times, across different levels of depth, to collect each identified grouping and expand the total number of channels through the effect of shared videos. Thus, the fifth depth level allows for an increase from 80 channels and 38,906 videos to a total sample of 13,436 channels, 4,937,385 videos and documents, and 516,810 shares.

A first CSV file of 6.9 MB lists the data and metadata related to the channels strictly speaking, across different categories: channel ID, creation date, number of subscribers, description (if present), a link to the profile picture, a link to the cover image, and the channel's nickname. A second CSV file of 6.5 GB concerns the data and metadata of published content, including the canonical URL, the type of content (videos or others, such as PDF files), the video identification code (claim_id), the creation date chosen by the user, the title, the number of views, the channel ID and name, the video duration, the language chosen by the user, tags, likes, dislikes, the actual date (retrieved by scraping the publication dates on the site https://explorer.lbry.com), and the date formatted without the hours.

The data is multilingual, while the initial list of channels included 80 conspiracy channels, affiliated with the QAnon movement, in French, German, and Italian. Gradually, over the course of iterative collection, Spanish, Russian, and other channels and content also appeared.

This database, the first ever dedicated to Odysee, aims to enable researchers to explore the new possibilities offered by this platform, as the APIs of other traditional platforms are no longer accessible. The possibilities are numerous for studying social networks, politicized or extreme communities, online interactions between users, or audiovisual corpora.
dcterms:language dcterms:RFC5646 multilingue (mul)
dcterms:subject Multilingue odysee
Multilingue QAnon
Français plateforme alternative
Français complotisme
Anglais alternative platform
Anglais conspiracism