Le blog de Stéphane Tufféry sur la statistique et le data mining

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 16 février 2017

De la Statistique à la Data Science : quels enjeux, quels nouveaux usages ?, Vannes, 31 mars 2017

A l’occasion des 45 ans du département Statistique et Informatique Décisionnelle de l’IUT STID de Vannes, une journée de conférences / ateliers / débats est organisée le 31 mars 2017 sur le thème :

De la Statistique à la Data Science : quels enjeux, quels nouveaux usages ?

Lieu : IUT de Vannes
Date : le 31/03/2017, de 09:30 à 17:30

Programme et inscription ici : http://www.iutvannes.fr/de-statistique-a-data-science-enjeux-nouveaux-usages/

dimanche 12 février 2017

Meet the Data III, Paris, 23 février 2017

La chaire Économie et Gestion des Nouvelles Données Havas-Dauphine organise la conférence

MEET THE DATA III

le jeudi 23 Février 2017, de 9h à 18h
à la Maison de la Chimie
28 rue Saint-Dominique, Paris 7ème

Thèmes abordés :
Approches Data Science, apports et perspectives dans les domaines :
- des « Smart Cities »
- de l’économie collaborative
- des media et de l’entertainement

Intervenants :
- chercheurs du Collège de France, de l’École Polytechnique Fédérale de Lausanne, du Technion - Israel Institute of Technology, de l’IRCAM…
- dirigeants et responsables R&D de Dassault Systèmes, European Institute for Energy Research, Facebook, Galmeloft, Havas, Orange, NTT Labs, Veolia, Viaccess-Orca, Vivendi…

Participation gratuite mais inscription obligatoire sur :
https://www.weezevent.com/meet-the-data-iii

24èmes rencontres de la Société Francophone de Classification, Lyon, 28-30 juin 2017

Chaque année, les Rencontres de la Société Francophone de Classification permettent présenter des résultats récents en classification ou dans des domaines connexes, de favoriser les échanges scientifiques à l’intérieur de la société et avec des partenaires extérieurs.

Plus de renseignements ici : http://polytech-sfc2017.univ-lyon1.fr

dimanche 13 novembre 2016

Introduction aux modèles statistiques scalables, 5 décembre 2016, Paris

Le groupe DMA (Data Mining et Apprentissage) de la Société Française de Statistique propose un cours sur le thème :

Introduction aux modèles statistiques scalables
Modélisation, nouveaux paradigmes, écosystème “Big Data”

Ce cours se déroulera le 5 décembre à l’IHP :
Salle 201 (2ème étage)
Institut Henri Poincaré
11 rue Pierre et Marie Curie 75005 Paris

Accès : RER ligne B station : Luxembourg
Bus : 21, 27, 38, 84, 85, 89
https://bigdata-stat.sciencesconf.org


Programme du cours :
9:00 : Accueil café
9:30-11:00 : Introduction à Spark, Spark-Notebook, et l’écosystème Bigdata
11:00-12:00 : Apprentissage automatique local vs massivement distribué (scalable)
12:00-13:00    Déjeuner
13:00-13:30 : Scala et Data Science
13:30-14:30 : De RDD à Dataset par DataFrame
14:30-15:30 : Streaming: du Micro Batching au Structured Stream
15:30-16:30 : Écrire un programme en apprentissage distribué
16:30 : Discussion clôture

Big Data et Statistiques Publiques : questions de méthodes, 30 novembre 2016

Le prochain Séminaire de Méthodologie Statistique du Département des Méthodes Statistiques de l’Insee portera sur le thème :

Big Data et Statistiques Publiques : questions de méthodes

Il aura lieu :

Mercredi 30 novembre 2016
9h30-12h30, Insee - Malakoff 1
Salle Malinvaud (1245).

Il présentera un aperçu des expérimentations menées sur ces thèmes au sein du Département des Méthodes Statistiques de l’Inse.

dimanche 10 juillet 2016

CheMoocs : un MOOC en en chimiométrie

CheMoocs est un MOOC en en chimiométrie organisé du 12 septembre au 10 novembre : https://www.fun-mooc.fr/courses/Agreenium/66002/session01/about
CheMoocs offrira gratuitement à tous ses inscrits des supports écrits et vidéos, des exercices réguliers, et un forum où échanger avec participants et scientifiques. La formation se double par ailleurs d’une initiation à ChemFlow, un logiciel sans ligne de commande spécialement conçu pour faciliter le traitement chimiométrique des données.

vendredi 6 mai 2016

22e conférence COMPUTATIONAL STATISTICS (COMPSTAT 2016), Oviedo, Espagne, 23-26 août 2016

Cette conférence internationale regroupe les chercheurs et les praticiens autour des développements récents en statistique calculatoire :
http://www.compstat2016.org

Date limite pour la soumission d’abstracts : 17 mai 2016 (http://www.compstat2016.org/submission.php)

Pour plus d’information, contacter : info@compstat2016.org

dimanche 24 avril 2016

5e Rencontres R, du 22 au 24 juin 2016 à Toulouse

5e Rencontres R, du 22 au 24 juin 2016 à Toulouse



Les 5e Rencontres R se dérouleront du 22 au 24 juin 2016 à Toulouse.

Le programme comprendra deux tutoriels (le 22/06 après-midi) :
- Cartographie avec R (Thimothée Giraud)
- R2D² : R To Document Database (Xavier Gendre et Sébastien Déjean)

et des exposés de cinq conférenciers invités :
- Anne-Laure Boulesteix : IPF-LASSO: integrative L1-penalized regression with penalty factors for prediction based on multi-omics data   
- Ryan Hafen : Tools for analysis and visualization of large complex data in R
- François Husson : De la simple vignette à l’enseignement par les MOOC, quelques idées pour améliorer la visibilité et l’accessibilité de son package R   
- Pascal Martin : Analyser des données de séquençage NGS avec R/Bioconductor : un survol des packages essentiels
- Heather Turner : Inclusion of women in the R community

Une table ronde autour des usages de R dans l’industrie sera également organisée.

Plus d’information sur le site :
http://r2016-toulouse.sciencesconf.org

Conférence Conjointe Francophone sur la Science des Données, du 22 au 26 mai 2016 à Marrakech

AAFD & SFC’16 : Conférence Conjointe Francophone sur la Science des Données, du 22 au 26 mai 2016 à Marrakech au Maroc


La conférence conjointe francophone AAFD & SFC est un événement scientifique permettant de réunir des chercheurs et des industriels travaillant en science des données. Cette édition 2016 regroupe deux manifestations scientifiques :
- La 7ème édition du colloque bisannuel "Apprentissage Artificiel & Fouille de Données" (AAFD).
- Les 23èmes Rencontres annuelles de la Société Francophone de Classification (SFC).

La thématique cible de cette année est : « Science des données : défis mathématiques et algorithmiques »

Pour tout renseignement : http://aafd-sfc-2016.sciencesconf.org/

samedi 26 mars 2016

Rendez-vous SFdS "Méthodes et Logiciels" sur Outils pour la Data Science

Le prochain rendez-vous sera sur les outils pour la Data Science, et aura lieu le jeudi 7 avril 2016 à Paris (Institut Henri Poincaré)

Inscription (gratuite mais obligatoire)

La science des données (ou Data Science) est une discipline récente, incluant à la fois les aspects d’apprentissage (statistique et machine learning), les aspects gestion et traitement de données massives et/ou complexes. Elle apparaît de plus en plus présente dans le milieu professionnel, avec l’avènement du Big Data, des capacités nombreuses de stockages de l’information et de la volonté d’en tirer des connaissances. Ceci nécessite d’avoir des outils performants et adaptés pour pouvoir traiter ce flux de données dans des temps raisonnables.

De profils différents, les orateurs nous feront partager leur expérience autour de la science des données et l’utilisation des outils dédiés, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Détails ici : http://methodes-et-logiciels.sfds.asso.fr/outils-pour-la-data-science/

R in Insurance 2016

The registration for the 4th conference on R in Insurance on Monday 11 July 2016 at Cass Business School has opened.

This one-day conference will focus again on applications in insurance and actuarial science that use R, the lingua franca for statistical computation.

The intended audience of the conference includes both academics and practitioners who are active or interested in the applications of R in insurance.

The submission deadline for abstracts is 28 March 2016. Please email your abstract of no more than 300 words to: rinsuranceconference@gmail.com.

Attendance of the whole conference is the equivalent of 6.5 hours of CPD for members of the Actuarial Profession.

For more information about the past events visit www.rininsurance.com.

dimanche 5 avril 2015

Rencontres R à Grenoble du 24 au 26 juin 2015

Les prochaines Rencontres R se tiendront du 24 au 26 juin 2015 à Grenoble
Deux tutoriels d’une durée de 3h seront proposés le mercredi 24 juin après-midi :
 - Introduction à Rcpp (animé par Romain François)
 - Introduction à la programmation orientée objet (animé par Christophe Geneloni).
Rappel des dates importantes :
 - 7 avril 2015 : date limite de réception des propositions de communications
 - autour du 2 mai 2015 : notification aux auteurs
 - autour du 9 mai 2015 : envoi des versions définitives
 - 25 mai 2015 : majoration des frais d’inscription
 - 8 juin 2015 : date limite d’inscription
Site : http://r2015-grenoble.sciencesconf.org

samedi 7 mars 2015

Rencontres de la Société Francophone de Classification à Nantes du 9 au 11 septembre 2015

La Société Francophone de Classification organise ses 22èmes rencontres à Nantes du 9 au 11 septembre 2015.

La conférence portera sur les sujets classiques de la SFC (modèles de mélanges, classifications hiérarchiques et non hiérarchiques, classification bayésienne, similarités et dissimilarités, arbres, graphes et treillis, analyse de données symboliques, visualisation, etc),  et cette année une attention particulière sera portée aux interventions interdisciplinaires.
Pour favoriser ces échanges, les rencontres sont organisées conjointement avec des chercheurs de sciences humaines et sociales et elles se dérouleront à la Maison des Sciences de l’Homme nantaise.

Les soumissions sont à envoyer avant le 13 mai 2015.

Toutes les informations sont précisées sur le site : http://sfc2015.sciencesconf.org/

Journée Big Data à l'Université Paris 13 le 26 mars 2015

Cette journée aura lieu le 26 Mars sur le campus de l’Université de Paris 13 à Villetaneuse, dans l’amphithéâtre Euler.

Le programme est ici : http://mathstic.univ-paris13.fr/index.php/axes/oaatcn

Formulaire d’inscription : https://docs.google.com/forms/d/1r0uxxnzMzOWCqiny_qCx9ZlOLgUfEBkrjl-XmRdgowk/viewform?usp=send_form

Conférence francophone sur l'apprentissage automatique le 5 juillet 2015 à Lille

Depuis 1999, la Conférence Francophone sur l’Apprentissage Automatique (CAP) est le rendez-vous annuel de la communauté francophone travaillant dans le domaine de l’apprentissage automatique. Cette année, CAP se déroulera à Lille le dimanche 5 juillet.

CAP’2015 souhaite être un lieu de convivialité et d’échanges entre tous les acteurs de l’apprentissage automatique, également ouvert à toutes les personnes désirant découvrir ce domaine.

Le comité de programme de CAP’2015 invite à soumettre vos travaux concernant le domaine de l’apprentissage automatique, qu’il s’agisse de travaux théoriques ou appliqués.

Rendez-vous dès le 15 mars 2015 sur http://cap2015.sciencesconf.org/

Session CHIMIOMETRIE à EuroAnalysis (6 au 10 septembre 2015, Bordeaux)

Le cycle de conférences EuroAnalysis représente un évènement majeur de la chimie analytique. Ce congrès regroupe tous les deux ans un grand nombre de chercheurs et d’industriels (1600 personnes à Belgrade en 2011). Cette année, cette conférence se déroule à Bordeaux, du 6 au 10 septembre 2015.

Vous retrouverez tous les détails sur le site suivant : http://www.euchems.eu/divisions/analytical-chemistry/news-current-activities-conferences-and-events/euroanalysis-conferences.html

mardi 17 février 2015

Modélisation prédictive et apprentissage statistique avec R

9782710811589

Modélisation prédictive et apprentissage statistique avec R

Stéphane Tufféry

Éditions Technip, février 2015

Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation de statistique et de machine learning, à travers le fil conducteur d’une étude de cas. Chaque méthode fait l’objet d’un rappel de cours et est accompagnée de références bibliographiques, puis est mise en œuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats et jusqu’aux astuces de programmation permettant d’optimiser les temps de calcul (une annexe est d’ailleurs consacrée au traitement des données massives).


L’ouvrage commence par les méthodes de classement classiques les plus éprouvées, mais aborde rapidement les méthodes plus récentes et avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, SVM. Chaque fois, le lien est fait entre la théorie et les résultats obtenus pour montrer qu’ils illustrent bien les principes sous-jacents à ces méthodes. Mais l’aspect pratique est aussi privilégié, avec l’objectif de permettre au lecteur une mise en œuvre rapide et efficace dans son travail concret. L’exploration et la préparation préliminaire des données sont d’ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées.

La mise en œuvre s’appuie sur le logiciel libre R et sur un jeu public de données. Ce dernier peut être téléchargé sur internet et présente l’intérêt d’être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il a servi. Le logiciel statistique utilisé est R, actuellement celui qui se développe le plus : devenu la lingua franca de la statistique et l’outil le plus répandu dans le monde académique, il prend également de plus en plus de place dans le monde de l’entreprise. Outre qu’il est disponible pour tous, dans de multiples environnements, il est aussi le plus riche statistiquement, et son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques.

Table des matières :

Présentation du jeu de données. Préparation des données. Exploration des données. Discrétisation automatique supervisée des variables continues. La régression logistique. La régression logistique pénalisée ridge. La régression logistique pénalisée lasso. La régression logistique PLS. L’arbre de décision CART. L’algorithme PRIM. Les forêts aléatoires. Le bagging. Les forêts aléatoires de modèles logistiques. Le boosting. Les Support Vector Machines. Les réseaux de neurones. Synthèse des méthodes prédictives. Annexes. Bibliographie. Index des packages R utilisés.

samedi 17 janvier 2015

Rendez-vous SFdS vendredi 23 janvier 2015 à Paris sur le thème des Données Manquantes

La prochaine séance des "Rendez-vous SFdS : Méthodes et Logiciels" aura lieu

vendredi 23 janvier 2015 à Paris (Institut Henri Poincaré)
de 13h30 à 17h30, sur le thème des
Données Manquantes


Conférenciers : Guillaume CHAUVET (Crest-ENSAI), Christian DERQUENNE (EDF R&D - Département OSIRIS), Jérôme PAGET, Gérard d’AUBIGNY (UPMF-Grenoble)

Les données manquantes représentent souvent un obstacle pour toute personne souhaitant analyser des données. Ces données incomplètes concernent aussi bien les données d’enquêtes (non répondants, questionnaires incomplets) que les données expérimentales (suivi incomplet des patients, manipulation non réalisable, enregistrements incomplets des mesures).

Doit-on les substituer ou pas ? Quel est leur impact sur les résultats ? Quelles méthodes de traitements à disposition ? Les solutions proposées dans les logiciels sont-elles adaptées aux problématiques posées ?

Autant de questions auxquelles les orateurs de profils différents s’efforceront de répondre par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Cette manifestation est libre et gratuite mais l’inscription est obligatoire ICI. Elle est réservée aux adhérents de la SFdS, possibilité d’adhésion sur place ou sur le site (http://www.sfds.asso.fr/388-Adhesions_2015, adhésion réduite à 10€ la première année).

lundi 5 janvier 2015

Journée thématique sur le Big Data - Paris - IHP - 13 mars 2015

Le groupe DMA (Data Mining et Apprentissage) de la SFdS (Société Française de Statistique) organise une journée thématique dédiée aux problématiques actuelles liées aux Big-Data. L’objectif est de présenter une vision globale de cette thématique émergente et de susciter une discussion sur ses différents aspects : Gestion, Analyse, Ethique et Logiciels.

Cette manifestation scientifique se déroulera autour de présentations faites par des experts académiques et industriels et enrichies par des discussions et questions/réponses sur les aspects des Big-Data. La journée aura lieu
le vendredi 13 Mars 2015à Paris, à l’IHP (Amphi Darboux).

L’inscription est gratuite mais obligatoire (les places sont limitées) : http://www.sfds.asso.fr/393-Big-Data

Conférenciers invités :
- M. Volker BECKMANN, Chercheur CNRS, Université Paris7.
- M. Mokrane BOUZEGHOUB, Professeur UVSQ, Directeur adjoint de l’INS2I du CNRS.
- M. Paul-Olivier GIBERT, CEO, Digital-Ethics.
- M. Gilbert SAPORTA, Professeur émérite, CNAM, Chaire de statistique appliquée.
- M. Thomas SERVAL et M. Olivier GIROUD, Co-fondateurs de Flaminem.

Programme :
9h30 : Accueil café
10h00 :
Le défi MASTODONS : Une approche interdisciplinaire des masses de données. Mokrane BOUZEGHOUB
11h00 :
Quelle statistique pour les Big-Data ? Gilbert SAPORTA
12h00 : Discussions
12h30 : Repas
13h30 :
Big-Data as a challenge for astrophysics. Volker BECKMANN
14h30 :
Spark et Scala : De nouveaux outils et langages performants pour le Machine Learning parallélisé. Thomas SERVAL & Olivier GIROUD
15h30 : Pause café
16h00 :
Big-Data : Les défis éthiques et juridiques. Paul-Olivier GIBERT
17h00 : Discussions
17h30 : Clôture de la journée

Organisateurs
Khalid BENABDESLEM, Université Lyon1 - LIRIS
Christophe BIERNACKI, Université Lille1 - INRIA
Mustapha LEBBAH, Université Paris13 - LIPN


samedi 15 novembre 2014

ERCIM 2014


The 7th International Conference of the ERCIM WG on Computational and Methodological Statistics (ERCIM 2014) will take place at the University of Pisa, Italy, 6-8 December 2014. Tutorials will be given on Friday 5th of December 2014.

There are over 1150 presentations.  The full programme can be found on line: http://www.cmstatistics.org/ERCIM2014

- page 1 de 5