Επεξεργασία

Με τον όρο επεξεργασία (process) στο CLARIN:EL νοείται η εφαρμογή μίας λειτουργίας (function) σε ένα σώμα κειμένων (corpus). Οι λειτουργίες αναλύουν το σώμα κειμένων με διαφορετικό τρόπο και αποτέλεσμα κάθε φορά. Στην υποδομή οι λειτουργίες που μπορούν να γίνουν είναι ο διαχωρισμός σε προτάσεις (Sentence Splitting), η αναγνώριση και επισημείωση λεκτικών μονάδων (Tokenization), η αναγνώριση και επισημείωση μερών του λόγου (Below POS Tagging), η αναγνώριση και επισημείωση λήμματος (Lemmatization), η επιφανειακή συντακτική ανάλυση και επισημείωση (Chunking), η συντακτική ανάλυση και επισημείωση (Dependency Parsing), η αναγνώριση και επισημείωση ονοματικών οντοτήτων (Named Entity Recognition), η κατηγοριοποίηση κειμένου (Text Categorization) και η ανάλυση λεκτικής επιθετικότητας (Verbal aggression analysis). Κάθε μία από τις λειτουργίες αυτές για να γίνει χρειάζεται εργαλεία ή/και υπηρεσίες που υπάρχουν στον κεντρικό κατάλογο και συνολικά ονομάζονται υπηρεσίες επεξεργασίας (processing services). Κάθε φορά που ένας χρήστης θέλει να επεξεργαστεί ένα σώμα κειμένων ανακατευθύνεται στο μητρώο ροών εργασίας (Workflow Registry) και αυτό διότι τόσο οι λειτουργίες (functions) όσο και οι υπηρεσίες επεξεργασίας (processing services) υλοποιούνται με συγκεκριμένα βήματα που ονομάζονται ροές εργασίας (workflows). Αυτές οι ροές εργασίας συνδυάζονται τόσο με τα επεξεργάσιμα σώματα κειμένων 1 που διαθέτει η υποδομή όσο και με υλικό συγκεκριμένων προδιαγραφών που μπορεί να μεταφορτώσει ο ίδιος ο χρήστης. Η συγκεκριμένη αρχιτεκτονική έχει υιοθετηθεί για να διευκολύνει τον χρήστη που μπορεί από διαφορετικά σημεία στην υποδομή να ξεκινήσει μία επεξεργασία. Οι διαφορετικές διαδρομές περιγράφονται στη συνέχεια.

Προσοχή

Μόνο οι συνδεδεμένοι χρήστες μπορούν να επεξεργαστούν σώματα κειμένων. Αν δεν έχετε λογαριασμό, δείτε πρώτα πώς να κάνετε εγγραφή/σύνδεση

1. Ξεκινώντας από τα σώματα κειμένων

Στην υποδομή υπάρχουν σώματα κειμένων που μπορείτε να επεξεργαστείτε. Αυτά επισημαίνονται με την ετικέτα processable 2 και μπορείτε να τα βρείτε συγκεντρωμένα ως προεπιλογή στην αρχική σελίδα του κεντρικού καταλόγου. Πρόκειται για σώματα κειμένων που είναι είτε μονόγλωσσα (στα ελληνικά, αγγλικά, γερμανικά ή πορτογαλικά) είτε δίγλωσσα (με ζεύγη γλωσσών που περιλαμβάνουν τα ελληνικά ως τη μία γλώσσα και τα αγγλικά, γερμανικά ή πορτογαλικά ως την άλλη).

Για να επεξεργαστείτε ένα από αυτά τα σώματα κειμένων, ακολουθήστε τα επόμενα βήματα:

Βήμα 1. Επιλέξτε ένα σώμα κειμένων

Επιλέξτε ένα σώμα κειμένων κάνοντας χρήση των φίλτρων, με λέξεις κλειδιά στο πεδίο αναζήτησης ή συνδυαστικά. Ο πόρος που επιλέχθηκε για το σενάριο που θα εξετάσουμε είναι μία παράλληλη συλλογή κειμένων σε ελληνικά και αγγλικά, υποσύνολο του Ευρωπαϊκού Συντάγματος και σε μορφότυπο txt (moses): A parallel subcorpus collected from the European Constitution (EN-EL) (Moses).

../../_images/ChosenCorpus.png

Μετακινηθείτε στο κατώτερο τμήμα της σελίδας του πόρου και επιλέξτε την καρτέλα Access (Πρόσβαση). Στη συνέχεια, κάντε κλικ στην επιλογή Process (Επεξεργασία) 3.

../../_images/ResourceView14.png

Βήμα 2. Επιλέξτε μία λειτουργία

Μόλις κάνετε κλικ στο κουμπί Process (Επεξεργασία), θα οδηγηθείτε στο μητρώο ροών εργασίας. Εδώ θα πρέπει πρώτα να διαλέξετε λειτουργία (function). Ανάλογα με τα χαρακτηριστικά που έχει το σώμα κειμένων που επιλέξατε θα δείτε τις διαθέσιμες (όλες ή κάποιες) λειτουργίες στην οριζόντια μπάρα. Στη συνέχεια για τη συγκεκριμένη λειτουργία θα πρέπει να επιλέξετε την ροή εργασίας που θέλετε. Για κάθε λειτουργία υπάρχουν μία ή περισσότερες ροές εργασίας (ο αριθμός τους εξαρτάται από τα διαθέσιμα και ενσωματωμένα στην υποδομή εργαλεία/υπηρεσίες και τη γλώσσα). Και πάλι θα δείτε μόνο τις διαθέσιμες ροές εργασίας. Εφόσον το σώμα κειμένων που θα επεξεργαστείτε είναι δίγλωσσο, σας παρουσιάζονται οι ροές εργασίας για την κάθε γλώσσα χωριστά με πρώτες τις επιλογές για το ελληνικό τμήμα (ειδοποίηση εμφανίζεται στο πάνω μέρος της σελίδας).

../../_images/WorkflowSelection.png

Διαλέξτε μία ροή εργασίας και πατήστε το use this workflow. Το χρώμα του κουμπιού αλλάζει αυτόματα από γαλάζιο σε πράσινο. Στη συνέχεια κάντε κλικ στο Select service for Modern Greek (1453-) για να προχωρήσετε.

../../_images/WorkflowSelection2.png

Επαναλάβετε την ίδια διαδικασία για το αγγλικό τμήμα.

../../_images/WorkflowSelection4.png

Εφόσον έχει ολοκληρωθεί η επιλογή και για τις δύο γλώσσες, εμφανίζεται ένα νέο παράθυρο που σας ζητά να ελέγξετε τις ροές εργασίας πριν την τελική υποβολή.

../../_images/ReviewWorkflows.png

Μόλις πατήσετε το κουμπί Submit for process (Υποβολή για επεξεργασία) εμφανίζεται το ακόλουθο μήνυμα: θα ειδοποιηθείτε με email όταν ολοκληρωθεί η επεξεργασία.

../../_images/Notification.png

Βήμα 3. Καταφορτώστε τα επεξεργασμένα αρχεία

Θα λάβετε ειδοποίηση με email μόλις η επεξεργασία ολοκληρωθεί. Για να δείτε τα αποτελέσματα μεταβείτε στο dashboard (πίνακας ελέγχου) και ελέγξτε τις εργασίες επεξεργασίας (Processing tasks).

Προσοχή

Δημιουργείται αυτόματα μία περιγραφή μεταδεδομένων με τα επισημειωμένα δεδομένα και ο πόρος δημοσιεύεται στον κεντρικό κατάλογο.

2. Ξεκινώντας από τη λειτουργία

2.1 Μητρώο ροής εργασιών

Για να δείτε τις διαθέσιμες λειτουργίες επεξεργασίας, πρέπει να μεταβείτε στο μητρώο ροής εργασιών. Πρόσβαση έχετε από την αρχική σελίδα του κεντρικού καταλόγου ή από το dashboard (πίνακας ελέγχου).

../../_images/WorkflowRegistryNew.png

Αυτήν τη στιγμή η υποδομή υποστηρίζει τις ακόλουθες εννέα λειτουργίες: Sentence Splitting (διαχωρισμός σε προτάσεις), Tokenization (αναγνώριση και επισημείωση λεκτικών μονάδων), Below POS Tagging (αναγνώριση και επισημείωση μερών του λόγου), Lemmatization (αναγνώριση και επισημείωση λήμματος), Dependency Parsing (συντακτική ανάλυση και επισημείωση), Named Entity Recognition (αναγνώριση και επισημείωση ονοματικών οντοτήτων), Chunking (επιφανειακή συντακτική ανάλυση και επισημείωση), Text Categorization (κατηγοριοποίηση κειμένου) και Verbal aggression analysis (ανάλυση λεκτικής επιθετικότητας).

../../_images/FunctionsNew.png

Για κάθε λειτουργία, π.χ. sentence splitting (διαχωρισμός προτάσεων), το CLARIN:EL προσφέρει μία ή περισσότερες ροές εργασίας, όπως φαίνεται στην ακόλουθη εικόνα. Ως ροή εργασίας νοούνται τα αλλεπάλληλα στάδια που απαιτούνται προκειμένου να υλοποιηθεί η λειτουργία. Ο αριθμός των ροών εργασίας ανά λειτουργία εξαρτάται από τα διαθέσιμα και ενσωματωμένα στην υποδομή εργαλεία και τη γλώσσα.

../../_images/SentenceSplittingWorkflows.png

Τα βήματα για τη χρήση του μητρώου ροών εργασίας είναι τα εξής:

Βήμα 1. Επιλέξτε μία λειτουργία

Επιλέξτε μια λειτουργία, ανάλογα με το είδος της επεξεργασίας που θέλετε να εκτελέσετε, κάνοντας κλικ στο όνομά της. Η επιλεγμένη λειτουργία, π.χ. tokenization (αναγνώριση λεκτικών μονάδων) αλλάζει χρώμα, από μπλε σε πορτοκαλί.

Βήμα 2. Επιλέξτε μία ροή εργασίας

Για τη συγκεκριμένη λειτουργία διατίθενται πολλαπλές ροές εργασίας: κάποιες για ελληνικά σώματα κειμένων, μία για αγγλικά, μία για γερμανικά και μία για πορτογαλικά. Επιλέξτε τη ροή εργασίας που χρειάζεστε κάνοντας κλικ στο Use this workflow (Χρήση της επιλεγμένης ροής εργασίας).

../../_images/Tokenization.png

Βήμα 3. Μεταφορτώστε το δικό σας σύνολο δεδομένων

Στο νέο παράθυρο βλέπετε ποια είναι τα τεχνικά χαρακτηριστικά που θα πρέπει να έχει το δικό σας σύνολο δεδομένων ώστε να επιτραπεί η μεταφόρτωση και να είναι εφικτή η επεξεργασία.

Προσοχή

Μπορείτε να μεταφορτώσετε μόνο μονόγλωσσα σώματα δεδομένων στα ελληνικά, αγγλικά, γερμανικά ή πορτογαλικά. Οι ροές εργασίας μπορούν επίσης να χρησιμοποιηθούν στα δίγλωσσα σώματα κειμένων της υποδομής τα οποία έχουν επισημανθεί ως επεξεργάσιμα.

../../_images/TokenizationUpload.png

Μετά την επιτυχή μεταφόρτωση, ενεργοποιείται το κουμπί Next (Επόμενο) το οποίο και πρέπει να πατήσετε.

../../_images/TokenizationStarted.png

Βήμα 4. Καταφορτώστε τα επεξεργασμένα αρχεία

Θα λάβετε ειδοποίηση με email μόλις η επεξεργασία ολοκληρωθεί. Για να δείτε τα αποτελέσματα μεταβείτε στο dashboard (πίνακας ελέγχου) και ελέγξτε τις εργασίες επεξεργασίας (Processing tasks).

Προσοχή

Τα δεδομένα που μεταφορτώνονται και τα δεδομένα που παράγονται από την επεξεργασία δεν αποθηκεύονται μόνιμα στην υποδομή. Σύμφωνα με την πολιτική του CLARIN:EL τα αρχεία που προέκυψαν από εργασίες επεξεργασίας διαγράφονται αυτόματα 48 ώρες μετά την ολοκλήρωση της επεξεργασίας. Σε περίπτωση που επιθυμείτε να τα καταφορτώσετε πρέπει να το κάνετε πριν παρέλθει το διάστημα αυτό.

2.2 Υπηρεσίες επεξεργασίας

Με τον όρο processing services (υπηρεσίες επεξεργασίας) χαρακτηρίζονται τα εργαλεία/υπηρεσίες που φιλοξενούνται στο CLARIN:EL και χρησιμοποιούνται για να γίνουν οι διάφορες λειτουργίες (functions) επεξεργασίας. Οι διαθέσιμες υπηρεσίες επεξεργασίας εμφανίζονται με την εφαρμογή του αντίστοιχου φίλτρου στον κεντρικό κατάλογο. Για να χρησιμοποιήσετε μία εξ αυτών, ακολουθήστε τα επόμενα βήματα:

../../_images/ProcessingService.png

Βήμα 1: Επιλέξτε μία υπηρεσία

Κάντε κλικ στο όνομα της υπηρεσίας που θέλετε να χρησιμοποιήσετε. Θα μεταφερθείτε στην αντίστοιχη σελίδα θέασης. Μετακινηθείτε στο κατώτερο τμήμα της σελίδας και επιλέξτε την καρτέλα Access (Πρόσβαση).

../../_images/UseService.png

Κάντε κλικ στο κουμπί Use (Χρήση). Στο επόμενο παράθυρο, θα σας παρουσιαστεί η ροή εργασίας (workflow) που αντιστοιχεί στο εργαλείο/υπηρεσία που επιλέξατε. Πρέπει να κάνετε κλικ στο Use this workflow (Χρήση της επιλεγμένης ροής εργασίας).

../../_images/UseWorkflow.png

Βήμα 2. Μεταφορτώστε το δικό σας σύνολο δεδομένων

Στο νέο παράθυρο βλέπετε ποια είναι τα τεχνικά χαρακτηριστικά που θα πρέπει να έχει το δικό σας σύνολο δεδομένων ώστε να επιτραπεί η μεταφόρτωση και να είναι εφικτή η επεξεργασία.

../../_images/UseWorkflow3.png

Μετά την επιτυχή μεταφόρτωση, ενεργοποιείται το κουμπί Next (Επόμενο) το οποίο και πρέπει να πατήσετε.

../../_images/TokenizationStarted.png

Βήμα 3. Καταφορτώστε τα επεξεργασμένα αρχεία

Θα λάβετε ειδοποίηση με email μόλις η επεξεργασία ολοκληρωθεί. Για να δείτε τα αποτελέσματα μεταβείτε στο dashboard (πίνακας ελέγχου) και ελέγξτε τις εργασίες επεξεργασίας (Processing tasks).

Προσοχή

Τα δεδομένα που μεταφορτώνονται και τα δεδομένα που παράγονται από την επεξεργασία δεν αποθηκεύονται μόνιμα στην υποδομή. Σύμφωνα με την πολιτική του CLARIN:EL τα αρχεία που προέκυψαν από εργασίες επεξεργασίας διαγράφονται αυτόματα 48 ώρες μετά την ολοκλήρωση της επεξεργασίας. Σε περίπτωση που επιθυμείτε να τα καταφορτώσετε πρέπει να το κάνετε πριν παρέλθει το διάστημα αυτό.

1

Όλα τα σώματα κειμένων που πληρούν αυτά τα κριτήρια επισημαίνονται ως processable (επεξεργάσιμα) και παρουσιάζονται ως προεπιλογή στην αρχική σελίδα του κεντρικού καταλόγου.

2

Η ετικέτα αυτή εμφανίζεται τόσο στο απόσπασμα περιγραφής ενός πόρου στον κεντρικό κατάλογο όσο και στη σελίδα θέασης του πόρου.

3

Εάν δεν έχετε συνδεθεί, το κουμπί σας προτρέπει να το κάνετε (Sign in to process). Μόλις το κάνετε, ανακατευθύνεστε αυτόματα στη σελίδα θέασης του πόρου όπου πλέον έχει ενεργοποιηθεί και εμφανίζεται το κουμπί Process (Επεξεργασία).