Αποθήκες Δεδομένων και Εξόρυξη Γνώσης από Δεδομένα [open] (321-9252)

Άσκηση αυτοαξιολόγησης - Ενότητα 4η (Συσταδοποίηση)

Question 1 (Free Text — 30 grades) 

1. Έστω το ακόλουθο μονοδιάστατο σύνολο σημείων: {1, 1, 2, 3, 5, 8, 13, 21, 33, 54}. Να εκτελέσετε 3 κύκλους του αλγόριθμου k-means χρησιμοποιώντας τα αρχικά centroids 0 και 11.

Question 2 (Free Text — 30 grades) 

2. Έστω οι λέξεις: {Master, Blaster, Disaster, Shipmaster}. Να τις χωρίσετε με Ιεραρχική Συσταδοποίηση (από κάτω προς τα πάνω, agglomerative) με κριτήριο το max, βάσει μια απόσταση D που λέει πως: D=Distance(A,B)=# of common letters of A and B / #letters of A and B, όπου Α,Β λέξεις. Για παράδειγμα, Distance(Master,Blaster)=5/13.

Question 3 (Free Text — 40 grades) 

Για το ακόλουθο σώμα δεδομένων, να εφαρμόσετε τον K-means αλγόριθμο για k=2 με κριτήριο ομοιότητας το Cosine similarity και να αξιολογήσετε την απόδοση της ομαδοποίησης με βάση το κριτήριο RAND.

ID

 Α

 Β

 Γ

 ΚΛΑΣΗ

1

T

T

F

NO

2

T

F

F

NO

3

T

T

F

NO

4

T

T

T

YES

5

F

F

T

YES

6

F

T

T

NO