Τι είναι το Data Mining


«Data mining» ή αλλιώς «εξόρυξη δεδομένων». Είναι η τεχνική μέσω της οποίας αναλύουμε μεγάλο όγκο δεδομένων, προκειμένου να εξάγουμε «χρήσιμες» πληροφορίες.

Πνιγόμαστε στα δεδομένα, αλλά διψάμε για τη γνώση

Στη σημερινή εποχή, πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο πόρο μιας επιχείρησης. Όμως μόνο ένα μικρό ποσοστό (5% με 10%) των δεδομένων που συλλέγονται, τυγχάνει ανάλυσης.


Ορισμός του data mining

Ο όρος «data mining» αναφέρεται στην τεχνική «εξόρυξης» χρήσιμων πληροφοριών, από μεγάλες ποσότητες δεδομένων. Στην ορθή χρήση του όρου, η λέξη κλειδί είναι η «ανακάλυψη», η οποία ορίζεται ως η ανίχνευση κάτι καινούργιου.

Πολλά από αυτά τα δεδομένα έχουν συγκεντρωθεί – εισαχθεί σε βάσεις δεδομένων ή είναι διαθέσιμα στο διαδίκτυο. Ενδεικτικά, τα δεδομένα αυτά μπορεί να προέρχονται από:

  • Αγορές σε πολυκαταστήματα – αλυσίδες καταστημάτων.
  • Συναλλαγές με πιστωτικές κάρτες – τράπεζες.
  • Δραστηριότητα στα κοινωνικά μέσα δικτύωσης και στο διαδίκτυο γενικότερα.
  • Δραστηριότητα και κίνηση σε τηλεπικοινωνιακά δίκτυα (Network traffic).
  • Αρχεία καταγραφής στο διαδίκτυο (web logs).


Σωστή εξόρυξη δεδομένων

Όπως προαναφέρθηκε, ο όγκος των δεδομένων είναι τεράστιος. Μάλιστα αυξάνεται τόσο ραγδαία, με αποτέλεσμα να είναι δύσκολο να αξιοποιηθεί από πολλές επιχειρήσεις – οργανισμούς και εταιρείες.

Πετυχημένες θεωρούνται οι εταιρείες – επιχειρήσεις που είναι σε θέση να κάνουν σωστή «εξόρυξη» και ανάλυση, στον τεράστιο όγκο δεδομένων στον οποίο έχουν πρόσβαση. Κάτι τέτοιο τους δίνει τεράστιο πλεονέκτημα, καθώς είναι σε θέση να λαμβάνουν καλύτερες αποφάσεις και να χαράζουν αποτελεσματικότερες στρατηγικές.


Η πληροφορία και η αξία της

Η πληροφορία έχει δυνητικά μεγάλη προστιθέμενη αξία. Για τον λόγο αυτό, επιχειρήσεις όλων των τύπων, συλλέγουν πληροφορίες και συνεισφέρουν στη τεράστια συγκέντρωση δεδομένων τα τελευταία χρόνια.

Τεράστιες ποσότητες δεδομένων κάνουν την εμφάνισή τους κάθε λεπτό που περνάει. Ογκώδη αρχεία πληροφοριών αποθηκεύονται σε μορφές που επιτρέπουν την ευκολότερη πρόσβαση και ανάλυσή τους.

Παράδειγμα: Τα δεδομένα που συγκεντρώνονται από super markets, μέσω των εκπτωτικών καρτών τους, είναι πολύ μεγαλύτερης αξίας από την παρεχόμενη έκπτωση. Διότι έχουν δημιουργήσει μια τεράστια βάση δεδομένων, που μπορεί να τους βοηθήσει να «κατανοήσουν» την αγοραστική συμπεριφορά των πελατών τους. Π.χ. οι πελάτες που αγοράζουν μπύρες, συχνά προμηθεύονται και πίτσες.

Σύμφωνα με έρευνα, η μέση αξία των πληροφοριών που αποθηκεύεται σε φορητές συσκευές ανέρχεται στο ποσό των 14 χιλιάδων δολαρίων.

Στην πρώτη γραμμή της συλλογής πληροφοριών βρίσκονται οι εταιρείες Goοgle, Facebook και Twitter. Καθώς διατηρούν κάθε τύπου δραστηριότητας, κάθε αναζήτηση και κάθε κίνηση που κάνει ένας χρήστης στο διαδίκτυο.

Τα δεδομένα που συλλέγονται από τα κοινωνικά μέσα δικτύωσης χρησιμοποιούνται για την απόκτηση γνώσης, η οποία θα μπορεί να αξιοποιηθεί σε δεκάδες περιπτώσεις. Από τις χρηματοπιστωτικές αγορές, μέχρι και την εθνική άμυνα.


Ανάλυση δεδομένων

Ενδεικτικές περιπτώσεις όπου έχει εφαρμοσθεί η εξόρυξη και η ανάλυση «χρήσιμων» δεδομένων:

  • Στις μηχανές αναζήτησης όπως η Google. Προκειμένου να εμφανισθούν αποτελέσματα ή διαφημίσεις, σύμφωνα με ότι έχετε προηγουμένως αναζητήσει.
  • Στο φιλτράρισμα της ανεπιθύμητης (spam) ηλεκτρονικής αλληλογραφίας. Αφού προηγουμένως έχει εξετασθεί μεγάλος όγκος δεδομένων (e-mails) και τα μηνύματα έχουν σημανθεί ως ανεπιθύμητα.
  • Σε εμπορικές επιχειρήσεις – καταστήματα. Ώστε να μπορούν να «εντοπίσουν» ευκολότερα τους εν δυνάμει πελάτες τους.
  • Σε οικονομικές υπηρεσίες του κράτους. Μάλιστα τα οικονομικά δεδομένα που έχουν συλλεχθεί π.χ. από την εφορία, χαρακτηρίζονται ως αξιόπιστα δεδομένα, υψηλής ποιότητας και σημασίας.
  • Στην ανάλυση δεδομένων από τις τράπεζες. Προκειμένου αυτές να εγκρίνουν – απορρίψουν προϊόντα τους, μετά από εξέταση δεδομένων των αιτούντων πελατών τους. Αλλά και για προστασία από απάτες, κατά τη χρήση πιστωτικών καρτών.
  • Σε τηλεπικοινωνιακούς παρόχους (internet providers). Για τη καλύτερη χρήση των πόρων, αλλά και για την καταπολέμηση παράνομων δραστηριοτήτων στο διαδίκτυο.
  • Σε παρόχους περιεχομένου (Netflix, Amazon Prime κλπ). Προκειμένου να παρέχουν στους πελάτες τους, μια περισσότερο προσωποποιημένη εμπειρία.


Όλες οι παραπάνω δραστηριότητες μεταφέρουν μαζί τους μια σειρά από προβλήματα. Τα οποία για να αντιμετωπισθούν, απαιτείται ένας συνδυασμός επιστημονικών, τεχνικών γνώσεων και ικανοτήτων. Το επάγγελμα του επιστήμονα που ασχολείται με την αξιοποίηση των δεδομένων, μόλις αρχίζει να παίρνει μορφή, αλλά σίγουρα είναι εδώ για να μείνει.


Παρ’ όλα αυτά, υπάρχουν αρκετοί τομείς στους οποίους θα μπορούσε να επεκταθεί το Data Mining. Το μέλλον εξάλλου είναι εδώ…