Olivier Elemento
  • Que sont les "règles d'association" (et comment les induire)?

  • Qu'est-ce qu'une méthode divisive de classification?
    C'est une méthode qui permet de faire de la classification hiérarchique tout en extrayant des règles à partir des jeux de données. En gros elles permettent de définir pourquoi tel données est classé dans tel cluster. Ce type de méthode est peu utilisé du fait de sa complexité (il peut être nécéssaire d'évaluer chaque bipartition d'une classe à chaque étape de l'algorithme). Au point de vue algorithmique, on part d'un cluster contenant tous les objets, qu'on subdivise progressivement en clusters plus petits, jusqu'à atteindre le nombre de classes voulues. Une telle méthode est dite monothétique, car elle utilise les caractèristiques des données une par une, à l'inverse de méthodes dites polythétique

  • Qu'est-ce qu'une méthode de classification agglomérative?
    C'est une méthode dans laquelle on place chaque objet dans son cluster, puis on agglomére ces clusters en clusters plus larges

  • Qu'est ce qu'un arbre de décision?
    Ce sont des arbres qui permettent d'extraire des règles à partir de données. Les algorithmes ID3, C5.0 permettent de créer des arbres de décisions
  • Qu'est ce qu'un arbre de régression?
    CART permet de créer des arbres de régression

  • Qu'est-ce que l'algorithme des nuées dynamiques?
    Les grandes étapes:
    1. déterminer une partition initiale
    2. calculer les représentants de chacune des classes
    3. affecter chaque individu à la classe qui lui est la plus proche
    4. retourner à l'étape 2 jusqu'à ce que aucun des individus ne changent de classe.

  • Qu'est ce qu'un tableau de contingence?
    Un tableau de contingence, ou tableau à double entrée, est un cas particulier de tableau élémentaire où les lignes et les colonnes jouent un rôle symétrique et où le contenu des cases correspond à des effectifs qui peuvent être sommés en ligne et en colonne. Tout tableau de contingence est en fait le résultat de la transformation d'un tableau élémentaire constitués de deux caractères discrets X et Y décrivant le même ensemble E. Le nombre de ligne d'un tableau de contingence (k) correspond au nombre de modalités du premier caractère discret (X) et le nombre de colonnes (p) correspond au nombre de modalités du second caractère discret (Y). L'effectif d?une case, noté Nij, correspond au "nombre d'éléments du tableau élémentaire E qui prennent simultanément la modalité i de X et la modalité j de Y".

  • Quels sont les meilleurs logiciels "open source" ou gratuit d'analyse statistique?
    - the R package (l'équivalent GNU de S-Plus) Télécharger R-1.2.3.tgz (sources)
    - ADE-4

  • Ou trouver une initiation à S-plus (et donc à R)?
    - Initiation au langage Splus par André Carlier, Alain Croquette (un de mes anciens profs!)

  • Ou trouver des documents sur la classification de données multidimensionnelles?
    - Analyse des Données Multidimensionnelles par André Carlier, Alain Croquette (un de mes anciens profs!)