Αποθήκες Δεδομένων και Εξόρυξη Γνώσης από Δεδομένα [open] (321-9252)

Άσκηση αυτοαξιολόγησης - Ενότητα 6η (Προχωρημένα Θέματα Εξόρυξης Δεδομένων)

Question 1 (Free Text — 30 grades) 

1. Πώς μπορεί να χρησιμοποιηθεί ένας γενετικός αλγόριθμος για να επιλέξει τις F σημαντικότερες στήλες από ένα σώμα δεδομένων N χαρακτηριστικών ως προς την απόδοση ταξινόμησης. Δείξτε με λεπτομέρεια τα βήματα του αλγόριθμου.

Question 2 (Free Text — 30 grades) 

2. Εάν ένα μοντέλο αξιολογείται στα δεδομένα εκπαίδευσης και το σφάλμα του είναι κοντά στο 0, αλλά όταν αξιολογείται στο σώμα αξιολόγησης είναι κοντά στο 50%, ποιανού σύμπτωμα είναι και πως μπορεί να αντιμετωπισθεί;

Question 3 (Free Text — 40 grades) 

3. Απαντήστε τα ακόλουθα με ΝΑΙ/ΟΧΙ

  • Τα νευρωνικά δίκτυα είναι σαν μαύρο κουτί (δεν μπορώ να δω το μοντέλο αναλυτικά)
  • Τα δίκτυα Bayes είναι μεθοδολογία για ομαδοποίηση
  • Ο K-means μπορεί να βρει μόνος του το πλήθος των ομάδων που προκύπτουν σε ένα σώμα δεδομένων
  • To overfitting εμφανίζεται σε όλους τους αλγόριθμους ταξινόμησης και όχι μόνο σε δέντρα απόφασης
  • Το ψαλίδισμα (pruning) ενός δέντρου απόφασης, μας γλιτώνει από overfitting.
  • Τα συναθροισμένα (aggregate) δεδομένα τείνουν να έχουν λιγότερη μεταβλητότητα σε ένα σώμα δεδομένων
  • Ένα στοιχειοσύνολο είναι κλειστό αν κανένα από τα αμέσως υπερσύνολα του δεν έχει την ίδια υποστήριξη
  • Τα Support Vector Machines βασίζονται στην απόσταση των σημείων από ένα γραμμικό όριο διαχωρισμού
  • Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν ταξινομεί λάθος
  • Όσο πιο μικρή η ακρίβεια, τόσο μικρότερος o αριθμός των FP (False Positives)