Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό [open]

Μ. Μαραγκουδάκης

Description

- This course is presently not described -

CC - Attribution-NonCommercial-ShareAlike
Περιεχόμενο μαθήματος

Εξόρυξη Διαδικτυακής Χρήσης: Συλλογή Δεδομένων και Προεπεξεργασία, Μοντελοποίηση Δεδομένων, Ανακάλυψη και Ανάλυση προτύπων. Εξόρυξη Γνώμης: Συναισθηματική Ταξινόμηση, Εξόρυξη γνώμης με βάση τα γνωρίσματα και κατασκευή σύνοψης, Συγκριτικές προτάσεις και εξόρυξη σχέσεων. Ενσωμάτωση Πληροφορίας: Προεπεξεργασία Σχήματος, Ταίριασμα περιοχής και ταίριασμα σε επίπεδο στιγμιοτύπων, Ενσωμάτωση διεπαφών διαδικτυακών ερωτημάτων.  Δομημένη Εξαγωγή Δεδομένων - Δημιουργία Wrapper:, Εκπαίδευση wrapper με βάση τα στιγμιότυπα, Αυτόματη δημιουργία από δεδομένα, Δέντρα DOM, Εξαγωγή μίας ή πολλαπλών σελίδων. Web Crawling: Γενικοί crawlers, Εστιασμένοι crawlers, Τοπικοί Crawlers. Ανάλυση Συνδέσμων: Εξόρυξη σε κοινωνικά δίκτυα, Σύζευξη βιβλιογραφικών ετεροαναφορών, Αλγόριθμοι Ανάκτησης Πληροφορίας. Εξόρυξη με μερική επίβλεψη: Ο αλγόριθμος  Expectation Maximization, Μεταγωγικές Support Vector Machines, Εξόρυξη από θετικά και μη επισημαινόμενα παραδείγματα. Μη επιβλεπόμενη Μάθηση: Γεωμετρικές μέθοδοι, Γενικευμένα Μοντέλα, Οπτικοποίηση μέσω Ενσωμάτωσης (SOMs, Multidimensional Scaling, Προβολές), Collaborative Filtering, Διαμέριση bottom-up και top-down. Μάθηση υπό Επίβλεψη: Random Forests, Ο αλγόριθμος Adaboost, Bagging/Boosting, Δίκτυα Πεποίθησης Bayes. Ακολουθιακά Πρότυπα.

Μαθησιακοί στόχοι

Το μάθημα αποσκοπεί στο να παρέχει μια εσωτερική ματιά στις τεχνικές της Εξόρυξης Δεδομένων που εφαρμόζονται σε δεδομένα του Διαδικτύου. Με την ολοκλήρωση του μαθήματος, οι φοιτητές θα πρέπει να είναι ικανοί: α) να αναγνωρίζουν τις διαφορές μεταξύ των θεματικών περιοχών της εξόρυξης περιεχομένου, δομής και χρήσης δεδομένων Ιστού, β) να περιγράφουν έννοιες κλειδιά όπως κοινωνικά δίκτυα, βαθύς και επιφανειακός Ιστός, Σημασιολογικός Ιστός, σώματα κειμένων και μέθοδοι αξιολόγησης όπως η ακρίβεια και η ανάκληση, γ) να συζητούν τη χρήση μεθόδων και τεχνικών όπως η συχνότητα των λέξεων, στατιστικά συνεμφάνισης, κανονικοποίηση των δεδομένων, μοντέλα αναπαράστασης εγγράφων, λεξικολογική σημασιολογία, κ.τ.λ., δ) να ερμηνεύουν με λεπτομέρεια την αρχιτεκτονική των βασικών αλγορίθμων Εξόρυξης, ε) να επιλέγουν της κατάλληλη προσέγγιση για μια σειρά εφαρμογών της Εξόρυξης στον Παγκόσμιο Ιστό όπως η ανάλυση γνώμης, το στοχευμένο μάρκετινγκ, η σύνοψη εγγράφων, κ.τ.λ., στ) να εφαρμόζουν εργαλεία προ-επεξεργασίας φυσικής γλώσσας και να διαπράττουν ανάλυση των γλωσσολογικών δεδομένων με χρήση ενός κατάλληλου ταξινομητή, ζ) να θέτουν τις προδιαγραφές για ένα ποιοτικό εργαλείο εξόρυξης γνώσης στον Παγκόσμιο Ιστό, η) να αναλύουν και ερμηνεύουν τις ανοικτές περιοχές έρευνας, θ) να επιλύουν ένα ολοκληρωμένο πρακτικό πρόβλημα εξόρυξης δεδομένων από τον Παγκόσμιο Ιστό ή να το αναλύουν μέσα από θεωρητικές μελέτες πέρα από τη βιβλιογραφία του μαθήματος.

Βιβλιογραφία

Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites, Matthew A. Russell, O'Reilly Media, ISBN: 978-1449388348, 2011.

Μέθοδοι διδασκαλίας

Στη διδασκαλία του μαθήματος χρησιμοποιείται προβολή υλικού που αναδεικνύει τα χαρακτηριστικά των μεθόδων και των συστημάτων που εξετάζονται. Γίνεται επίδειξη κατάλληλων μοντέλων και αλγορίθμων. Ενθαρρύνεται η ενεργή συμμετοχή των φοιτητών με κριτικές ερωτήσεις και συζήτηση. Ανατίθεται στους φοιτητές η παρουσίαση και υποστήριξη ατομικών εργασιών.

Μέθοδοι αξιολόγησης

H αξιολόγηση των φοιτητών βασίζεται στην επίδοσή των φοιτητών στις εργασίες που διεκπεραιώνουν στη διάρκεια του εξαμήνου. Οι εργασίες εστιάζουν σε βιβλιογραφική έρευνα και παρουσίαση, σε ανάπτυξη κώδικα και σε πειραματικές μελέτες.

Προαπαιτούμενα

Δεν υπάρχουν.

Διδάσκοντες

Μαραγκουδάκης Εμμανουήλ

Μαραγκουδάκης Εμμανουήλ

 

Ο καθηγητής κ. Μαραγκουδάκης Εμμανουήλ έλαβε διδακτορικό από το Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών , Πανεπιστήμιο Πατρών, δίπλωμα στην Επιστήμη των Υπολογιστών από το Τμήμα Επιστήμης Υπολογιστών, Πανεπιστήμιο Κρήτης. Ο τίτλος της διατριβής είναι "Μοντελοποίηση και Συμπερασμός υπό συνθήκες αβεβαιότητας σε Διαλογικά και άλλα Συστήματα Φυσικής Γλώσσας με Τεχνικές Δικτύων Bayes”.

Εργάζεται ως επίκουρος καθηγητής στο Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων στο Πανεπιστήμιο Αιγαίου με γνωστικό αντικείμενο την "Εξόρυξη Γνώσης από Δεδομένα".
Επιπρόσθετα, είναι ο τμηματικός υπεύθυνος για το πρόγραμμα: LLP/Erasmus του Πανεπιστημίου Αιγαίου.

Ομάδα στόχος

Οι φοιτητές/απόφοιτοι του τμήματος Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων και Πολυτεχνικών Σχολών Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών.

Ενδιαφερόμενοι για τη θεματική περιοχή της ανάλυσης δεδομένων και των Τεχνολογιών του Παγκόσμιου Ιστού.

Προτεινόμενα συγγράμματα
  1. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Bing Liu, Springer, ISBN: 978-3642194597, 2011.
  2. Mining the Web: Discovering Knowledge from Hypertext Data, Soumen Chakrabarti, Morgan Kaufmann, ISBN: 978-1558607545, 2002.

Units

  1. Συλλογή Δεδομένων και Προεπεξεργασία
  2. Μοντελοποίηση Δεδομένων
  3. Ανακάλυψη και Ανάλυση προτύπων
  1. Συναισθηματική Ταξινόμηση
  2. Εξόρυξη γνώμης με βάση τα γνωρίσματα και κατασκευή σύνοψης
  3. Συγκριτικές προτάσεις και εξόρυξη σχέσεων
  1. Προεπεξεργασία Σχήματος
  2. Ταίριασμα περιοχής και ταίριασμα σε επίπεδο στιγμιότυπων
  3. Ενσωμάτωση διεπαφών διαδικτυακών ερωτημάτων
  1. Εκπαίδευση wrapper με βάση τα στιγμιότυπα
  2. Αυτόματη δημιουργία από δεδομένα, Δέντρα DOM
  3. Εξαγωγή μίας ή πολλαπλών σελίδων
  1. Γενικοί crawlers
  2. Εστιασμένοι crawlers
  3. Τοπικοί Crawlers. Ανάλυση Συνδέσμων
  1. Σύζευξη βιβλιογραφικών ετεροαναφορών
  2. Αλγόριθμοι Ανάκτησης Πληροφορίας
  1. Ο αλγόριθμος Expectation Maximization
  2. Μεταγωγικές Support Vector Machines
  3. Εξόρυξη από θετικά και μη επισημαινόμενα παραδείγματα
  1. Γεωμετρικές μέθοδοι
  2. Γενικευμένα Μοντέλα
  3. Οπτικοποίηση μέσω Ενσωμάτωσης (SOMs, Multidimensional Scaling, Προβολές)
  4. Collaborative Filtering
  5. Διαμέριση bottom-up και top-down
  1. Random Forests
  2. Ο αλγόριθμος Adaboost, Bagging/Boosting
  3. Δίκτυα Πεποίθησης Bayes
  4. Ακολουθιακά Πρότυπα

Open Academic Course

Open Courses
OpenCourses Level: A

Num. of Visits :  2981
Num. of Hits :  14012