Analyser les données : langage et logiciel « R ».

E.T. CNRS AOrOc-Bibracte IV MOSAICnet, 10/2018.

La thématique des réseaux archéologiques est ainsi aujourd’hui en pleine expansion. De nombreux colloques leurs sont dédiés chaque année et le nombre de publications sur la question a explosé au cours de la dernière décennie. Ces démarches sont stimulées et nourries par les constants développements des outils d’analyses, programmes et logiciels qui aujourd’hui traitent de vastes réseaux de données (traitements, analyses, représentations graphiques..) : le « Big Data ».. les « Data Sciences ».. investissent en effet l’ensemble des champs de notre société.
Il semblait nécessaire de faire le point sur cette multitude d’approches nouvelles, et de discuter de leurs apports à la palette d’outils des archéologues, tout comme de leurs limites.  

Parmi ces programmes d’analyse statistique, le langage « R », le logiciel « GNU R » avec l’interface « RStudio » sont des références. L’École Thématique AOrOc-Bibracte IV MOSAICcnet fut l’occasion de le promouvoir et d’en offrir une initiation.

 Qu’est-ce que... « R » ?

R est un langage de programmation (basé sur le langage S), dédié aux études statistiques et à la science des données, développé en un interpréteur de commandes, décliné en logiciel. R est développé à partir de 1993 à l’université d’Auckland (Nouvelle-Zélande - projet de recherche de Ross Ihaka et Robert Gentleman : « R : A language for data analysis and graphics »). En 1997, alors qu’une vingtaine de développeurs travaillent au langage (R Development Core team), le Comprehensive R Archive Network (CRAN) est créé puis R est intégré au Projet GNU (licence libre) : « GNU R ». Soutenu par la R Foundation for Statistical Computing il est par conséquent largement utilisé par les statisticiens, les ’data miners’, ’data scientists’...

De sources libres, R est utilisé par différents éditeurs informatiques qui produisent leur propres interfaces (Microsoft par ex.), la distribution la plus utilisée reste sans doute le ’package’ produit par le CRAN - R Project et la société RStudio (interface), disponible pour Windows, Mac et Linux. Le logiciel RStudio est donc « libre », sous licence GNU GPL, ce qui signifie que les ’sources’ qui le constituent sont complètement disponibles et modifiables et pour cette raison ce logiciel bénéficie d’un fort dynamisme, alimenté à la fois par une communauté de contributeurs créant régulièrement des « plugins » ajoutant ainsi autant de fonctions au logiciel que par une communauté d’utilisateurs échangeant leur expériences et astuces. En effet, puisqu’il s’agit de manipuler un langage, par essence très souple, la variété des instructions et de leur combinaisons est énorme, donnant sa puissance au logiciel.

Interface RStudio
Interface RStudio

RStudio permet d’effectuer diverses opérations, construire et lancer des instructions via une ’console’, individuelles ou multiples en script, permettant d’organiser et de traiter des volumes importants de données de manière rapide et flexible sur des collections, puis d’en visualiser les résultat, y compris sous formes graphiques paramétrables.

 MOSAICnet, initiation à R

Rappelons à nouveau ici l’existence du site web qui a été créé à l’occasion de l’École Thématique MOSAICnet :
ffaupel.gitlab.io. Il offre de nombreux documents appuyant l’initiation à R que nous reprenons partiellement ici mais nous vous invitons à visiter ce site.

 

Mosaicnet : pdf des slides de présentation de l’initiation à R (en anglais).
Page source du site Mosaicnet
What is R, how can I use it and why should I ?!. We will explain you, why we think that R is such an amazing tool to do statistic, no matter if classic statistics, multivariate or spatial analysis.
1- R : what is R ?
1- R : what is R ?
Working with R. During this lecture we will introduce the basic objects in R and how to use them. How can functions and objects differentiated ? How do I know that a variable exists ?
2- R : Working with R
2- R : Working with R
First Calculations and Plots in R. Now, it gets more interesting ! We show you how to handle data. You will learn how R efficiently summarises and represent your data and you will do first statistical tests.
3- R : First Calculations
3- R : First Calculations
R and Spatial Data. As we are working with spatial data during our course, we will give you a short introduction into Spatial Data in R. After this course you will be able to load and map spatial data nicely. Spatial Analysis will be done later in Bloc 3, for example.
4- R : R and Spatial Data
4- R : R and Spatial Data
Bloc 1 : Networks in Archaeology - considerations and challenges (O. Nakoinz, P. Brun and O. Buchsenschutz). Presentations on the theoretical context of the research on interactions and networks in past societies. Several types of networks and the means to identify and reconstruct them, as well as non-computer-based approaches on spatial interactions are considered.
5- R : Bloc 1, P. Brun
5- R : Bloc 1, P. Brun
Bloc 2 : Social Network Analysis (O. Nakoinz). Introduction to Social Network Analysis in theory and practice. Basic concepts, the handling and visualisation of network data, and different analytical approaches are presented. Centrality indices, cliques and cluster as well as network distances are discussed. After the lectures, the discussed methods are explored by applying them to different data in different working groups.
6- R : Bloc 2, Social Network Analysis
6- R : Bloc 2, Social Network Analysis
Bloc 3-1 : Exchange Systems in Space. Reconstructing Path Systems. In the first part of this lecture, a method to reconstruct path systems is presented.
7- R : Bloc 3-1, Reconstructing
7- R : Bloc 3-1, Reconstructing
Bloc 3-2 : Exchange Systems in Space. Evaluating Parameter of Path Systems. The construction and modelling of friction raster, applying Random Walk approach and evaluating the miscellaneous models will be covered in the second part.
8- R : Bloc 3-2, Evaluating
8- R : Bloc 3-2, Evaluating
Bloc 4 : Approaching the organization of exchange systems - intro (C. Filet, F. Rossi). Most of past interactions, their actors and their intensity are not known to archaeologists. The course will be dedicated to ways of approaching the organization of past exchange systems in the absence of written sources. For this purpose an introduction to spatial interaction models and the study of distribution patterns of archaeological artefacts will be given.
9- R : Bloc 4-1, Introduction
9- R : Bloc 4-1, Introduction
Bloc 4-1 : Data Modelling
10- R : Bloc 4-2, Data Modelling
10- R : Bloc 4-2, Data Modelling
Bloc 4-2 : Theory Modelling
11- R : Bloc 4-3, Theory Modelling
11- R : Bloc 4-3, Theory Modelling
ZIP de l’ensemble des pdfs à télécharger
ZIP des fichiers de scripts R à télécharger
Fichiers scripts R
Fichiers scripts R

 D’autres sources d’apprentissage de R

Voici différentes sources web sur le logicel R (liste sans doute loin d’être exhaustive mais c’est un bon début.. avec un accent mis sur les sources en français) :

La page wikipédia sur R. Outre une description et un historique de R, on y trouve divers liens utiles vers des sources d’apprentissage ou d’applications. fr.wikipedia.org/wiki/Logiciel_R
Le site officiel CRAN R-Project (Comprehensive R Archive Network) qui livre l’ensemble des informations (Manuals, Faq, Contributed), documents, téléchargements (Mirrors). cran.r-project.org
Dont, dans CRAN R-Project / Contributed, un manuel d’initiation à R par Emmanuel Paradis, ci-contre en anglais et en français
R for Beginners - E. Paradis - CRAN
R for Beginners - E. Paradis - CRAN
R pour les débutants - E. Paradis - CRAN
R pour les débutants - E. Paradis - CRAN
Le site Developpez.com offre une formation à R. Ci-contre le pdf du tutoriel introductif r.developpez.com/tutoriels/introduction-r/
developpez.com - Introduction à R
developpez.com - Introduction à R
Le forum du groupe des utilisateurs du logiciel R. « Un forum francophone d’échange autour du logiciel de calcul statistique R » forums.cirad.fr/logiciel-R/
Un cours d’initiation à R sur l’école en ligne OpenClassRooms (l’ex « Site du zéro) : »Effectuez vos études statistiques avec R" (10/2017) openclassrooms.com
Chaine de Nicolas Br (« Data Scientist ») sur YouTube qui propose de nombreuses vidéos sur R. Dont par exemple cette initiation au logiciel R : UTILISER R STUDIO.
Il propose également un cycle de formation payant « Data Scientist » (oct. 2018) à cette adresse
Les sites web concernant la « Data Science » sont très nombreux et R y est omniprésent.. Dont par exemple towardsdatascience.com

Articles de la rubrique