Home Page
Registration
Courses
FAQ
Ελληνικά
Ελληνικά
English
Español
Français
Deutsch
Italiano
User login
Ελληνικά
Ελληνικά
English
Español
Français
Deutsch
Italiano
User login
Home Page
Registration
Courses
Frequently Asked Questions
Course Options
Documents
Exercises
Multimedia
Course Options
Documents
Exercises
Multimedia
Course : Αποθήκες Δεδομένων και Εξόρυξη Γνώσης από Δεδομένα [open]
Course code : ICSD133
Αποθήκες Δεδομένων και Εξόρυξη Γνώσης από Δεδομένα [open]
321-9252 - Μ. Μαραγκουδάκης
Άσκηση αυτοαξιολόγησης - Ενότητα 6η (Προχωρημένα Θέματα Εξόρυξης Δεδομένων)
Question 1
(Free Text — 30 grades)
1. Πώς μπορεί να χρησιμοποιηθεί ένας γενετικός αλγόριθμος για να επιλέξει τις F σημαντικότερες στήλες από ένα σώμα δεδομένων N χαρακτηριστικών ως προς την απόδοση ταξινόμησης. Δείξτε με λεπτομέρεια τα βήματα του αλγόριθμου.
Question 2
(Free Text — 30 grades)
2. Εάν ένα μοντέλο αξιολογείται στα δεδομένα εκπαίδευσης και το σφάλμα του είναι κοντά στο 0, αλλά όταν αξιολογείται στο σώμα αξιολόγησης είναι κοντά στο 50%, ποιανού σύμπτωμα είναι και πως μπορεί να αντιμετωπισθεί;
Question 3
(Free Text — 40 grades)
3. Απαντήστε τα ακόλουθα με ΝΑΙ/ΟΧΙ
Τα νευρωνικά δίκτυα είναι σαν μαύρο κουτί (δεν μπορώ να δω το μοντέλο αναλυτικά)
Τα δίκτυα Bayes είναι μεθοδολογία για ομαδοποίηση
Ο K-means μπορεί να βρει μόνος του το πλήθος των ομάδων που προκύπτουν σε ένα σώμα δεδομένων
To overfitting εμφανίζεται σε όλους τους αλγόριθμους ταξινόμησης και όχι μόνο σε δέντρα απόφασης
Το ψαλίδισμα (pruning) ενός δέντρου απόφασης, μας γλιτώνει από overfitting.
Τα συναθροισμένα (aggregate) δεδομένα τείνουν να έχουν λιγότερη μεταβλητότητα σε ένα σώμα δεδομένων
Ένα στοιχειοσύνολο είναι κλειστό αν κανένα από τα αμέσως υπερσύνολα του δεν έχει την ίδια υποστήριξη
Τα Support Vector Machines βασίζονται στην απόσταση των σημείων από ένα γραμμικό όριο διαχωρισμού
Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν ταξινομεί λάθος
Όσο πιο μικρή η ακρίβεια, τόσο μικρότερος o αριθμός των FP (False Positives)