Πώς να προετοιμάσετε τα δεδομένα πριν τη μεταφόρτωση

Η υποδομή CLARIN:EL προσφέρει στον χρήστη τη δυνατότητα να μεταφορτώσει δεδομένα σε δύο περιπτώσεις:

  • όταν θέλει να κατατεθεί το περιεχομένο ενός πόρου (βλ. κεφάλαιο 1), ή

  • όταν θέλει να τροφοδοτήσει με δεδομένα (input) μια υπηρεσία επεξεργασίας (βλ. κεφάλαιο 2).

Προσοχή

Σε κάθε περίπτωση τόσο ο εμπλεκόμενος χρήστης όσο και οι απαιτήσεις για τα δεδομένα είναι διαφορετικές. Και στις δύο περιπτώσεις ο χρήστης θα πρέπει να έχει συνδεθεί. Εάν επιθυμείτε να μεταφορτώσετε δεδομένα και δεν είστε χρήστης του CLARIN:EL θα πρέπει πρώτα να κάνετε εγγραφή.

I. Τα δεδομένα ως περιεχόμενο του πόρου

1. ΤΥΠΟΙ

Παρόλο που όλοι οι πόροι στην υποδομή CLARIN:EL έχουν πάντα περιγραφή μεταδεδομένων, δεν συνοδεύονται κάθε φορά και από αρχεία περιεχομένου (βλ. για παράδειγμα τους πόρους που χαρακτηρίζονται΄ως metaresources ή «for info»). Όταν, ωστόσο, οι πόροι έχουν περιεχόμενο, αυτό ποικίλλει ανάλογα με τον τύπο resource τους.

  • Τα Σώματα κειμένων είναι συλλογές από:

    • πρωτογενή δεδομένα διαφόρων μέσων:

      • ψηφιακά/ψηφιοποιημένα γραπτά κείμενα (π.χ. ψηφιοποιημένα βιβλία, κείμενα του διαδικτύου, εφημερίδες, σώματα κειμένων κλπ.), ηχογραφήσεις προφορικού λόγου (π.χ. συνεντεύξεις, ραδιοφωνικές εκπομπές κλπ.)

      • βιντεοσκοπήσεις (π.χ. τηλεοπτικές εκπομπές, συλλογές από εκφράσεις προσώπου, χειρονομίες κλπ.)

      • εικόνες (π.χ. ψηφιακές/ψηφιοποιημένες φωτογραφίες με τις λεζάντες τους κλπ.)

    ή

    • επεξεργασμένα δεδομένα

      • διάφοροι τύποι επισημειώσεων κειμένων,

      • δεδομένα ήχου και πολυμέσων, που δημιουργούνται αυτόματα ή με το χέρι (π.χ. μορφοσυντακτικά επισημειωμένα κείμενα, μεταγραφές προφορικών δεδομένων, επισημειωμένα βίντεο κλπ.)

  • Οι λεξικοί/εννοιολογικοί πόροι και γλωσσικές περιγραφές είναι:

    • δομημένα γλωσσικά δεδομένα (π.χ. κατάλογοι λέξεων, λεξικά, θησαυροί, γραμματικές κλπ.) που χρησιμοποιούνται για επεξεργασία και μελέτη πρωτογενών και επεξεργασμένων δεδομένων.

  • Τα εργαλεία είναι:

    • πηγαίος κώδικας, ή

    • λογισμικό

προγραμμάτων/εφαρμογών που εκτελούν διάφορους τύπους γλωσσικής επεξεργασίας (π.χ. αντιστοίχιση πολύγλωσσου κειμένου, μορφολογικός επισημείωση, λημματοποίηση, επιφανειακή συντακτική ανάλυση, εξαγωγή πληροφορίας κλπ.).

2. ΧΡΗΣΗ

Η μεταφόρτωση δεδομένων στο CLARIN:EL δεν συνεπάγεται αυτόματα ότι τα δεδομένα αυτά είναι άμεσα προσβάσιμα από τους χρήστες του CLARIN:EL ή ότι είναι επεξεργάσιμα από τα εργαλεία και τις υπηρεσίες του CLARIN:EL. Πρέπει, για να συμβεί αυτό, να ληφθούν υπόψη οι παράμετροι της προσβασιμότητας (accessibility) και της επεξεργασιμότητας (processability), με την δεύτερη να αφορά αποκλειστικά τα σώματα δεδομένων (processable) και τα εργαλεία (processing services). Προκειμένου να γίνει σωστά η προετοιμασία των δεδομένων, πρέπει να έχετε, πριν ξεκινήσετε, δώσει απάντηση στα ακόλουθα ερωτήματα.

Σημαντικό

  • Θέλω τα δεδομένα μου να είναι προσβάσιμα στους χρήστες του CLARIN:EL;

    • Εάν η απάντηση είναι ναι, παρακαλούμε δείτε την αντίστοιχη ενότητα πριν διαβάσετε τις ακόλουθες οδηγίες. ddd

  • Θέλω τα δεδομένα που θα μεταφορτώσω για ένα σώμα κειμένων να είναι επεξεργάσιμα από τις υπηρεσίες του CLARIN:EL;

  • Θέλω τα δεδομένα που θα μεταφορτώσω για ένα εργαλείο να μετατραπούν σε υπηρεσία επεξεργασίας στο CLARIN:EL;

    • Εάν η απάντηση είναι ναι, παρακαλούμε ελέγξτε ποιες είναι οι απαραίτητες τιμές μεταδεδομένων που πρέπει να έχει η περιγραφή ενός εργαλείου μαζί με όλες τις άλλες οδηγίες.

Οι ακόλουθες οδηγίες χωρίζονται σε δύο τμήματα: οι γενικές οδηγίες ισχύουν για όλους τους τύπους πόρων, ενώ οι ειδικές οδηγίες ισχύουν μόνο για τα σώματα κειμένων και τα εργαλεία, όπως δηλώνεται.

3. Βήματα που πρέπει να ακολουθήσετε

3.1. Γενικές οδηγίες

Υπάρχουν διάφορα νομικά έγγραφα τα οποία πρέπει να συμβουλευτείτε πριν προχωρήσετε. Βεβαιωθείτε ότι έχετε διαβάσει προσεκτικά

του CLARIN:EL καθώς η μεταφόρτωση δεδομένων στην υποδομή συνεπάγεται ότι έχετε αποδεχθεί τα όσα αναφέρονται στα προαναφερθέντα νομικά έγγραφα.

Εάν ανήκετε σε έναν φορέα-μέλος του CLARIN:EL, πριν τη μεταφόρτωση των δεδομένων, πρέπει να επικοινωνήσετε με τον Επιστημονικό Υπεύθυνο του φορέα σας.

Εάν δεν ανήκετε σε έναν φορέα-μέλος του CLARIN:EL, πριν τη μεταφόρτωση των δεδομένων, πρέπει να υπογράψετε το Συμφωνητικό Κατάθεσης Γλωσσικών Πόρων.

Βεβαιωθείτε, επίσης, ότι τα δεδομένα διατίθενται με σαφείς όρους χρήσης και ότι έχει ληφθεί άδεια από όλους τους εμπλεκόμενους κατόχους δικαιωμάτων. Εάν τα δεδομένα έχουν περισσότερους από έναν τρόπους διάθεσης θα πρέπει να αναφέρετε τους όρους χρήσης για κάθε έναν από αυτούς. Επιπροσθέτως, τα ίδια τα δεδομένα μπορεί να διατίθενται με διάφορους όρους χρήσης ανάλογα με τη φύση του χρήστη ή την προβλεπόμενη χρήση (ακαδημαϊκή έναντι εμπορικής).

Στη συνέχεια, μπορείτε να προχωρήσετε με τα τρία στάδια προετοιμασίας των δεδομένων: συλλογή, συστηματοποίηση/ κατηγοριοποίηση και συμπίεση.

../../_images/CCC.png
Βήμα 1: Συλλογή

Συλλέξτε δεδομένα με άξονα μια συγκεκριμένη ιδέα (π.χ. ένα γλωσσάρι φεμινιστικής θεωρίας). Συλλέξτε όλα και μόνο τα απαραίτητα δεδομένα. Εάν περιλαμβάνονται προσωπικά, ευαίσθητα ή δεδομένα εμπιστευτικού χαρακτήρα, παρακαλούμε να τα ανωνυμοποιήσετε ή να τα αφαιρέσετε πριν τη μεταφόρτωση.

Βήμα 2: Συστηματοποίηση/ Κατηγοριοποίηση

Τα δεδομένα που συλλέγονται μπορεί να είναι αποτέλεσμα διαφόρων σταδίων επεξεργασίας: βιντεοσκοπήσεις που έχουν απομαγνητοφωνηθεί, αρχεία PDF που έχουν καθαριστεί (από εικόνες και διευθύνσεις URL) και έχουν μετατραπεί σε αρχεία TXT. Σε αυτές τις περιπτώσεις, τα πρωτογενή και τα δεδομένα που είναι αποτέλεσμα μετατροπής αποτελούν μια ενότητα που περιλαμβάνει πολλούς και διαφορετικούς μορφότυπους (formats), μέσα (media) και γλώσσες (languages), που ίσως δεν θέλετε να διαχωρίσετε. Για να το κάνετε αυτό και να τα παρουσιάσετε όλα σε μια ενιαία εγγραφή μεταδεδομένων, πρέπει να οργανώσετε τα δεδομένα σας με σαφή δομή και κατανοητό τρόπο. Με την ομαδοποίησή τους με τρόπο που έχει συνοχή και συνεκτικότητα, όχι μόνο θα διευκολύνετε τους άλλους χρήστες αλλά και θα καταστήσετε τα δεδομένα συμβατά με τις υπηρεσίες και τις ροές εργασίας της υποδομής. Οι ακόλουθες κατευθυντήριες γραμμές έχουν ως στόχο να σας βοηθήσουν με τέτοιο τρόπο ώστε να μην χάνεται καμία πληροφορία και το κειμενικό τμήμα των δεδομένων που απαρτίζουν ένα σώμα κειμένων να είναι επεξεργάσιμο.

Προσοχή

Οι παρούσες κατευθυντήριες γραμμές δεν αφορούν την κατηγοριοποίηση με βάση τη θεματική περιοχή (domain), τη χρονική/γεωγραφική κάλυψη (time/geographic coverage) κλπ.

Πολλαπλά μορφότυπα (formats)

Εάν τα δεδομένα είναι σε διάφορους μορφότυπους (π.χ. XML, TXT, PDF κλπ.), οργανώστε τα αρχεία βάσει του μορφότυπου. Ομαδοποιήστε όλα τα αρχεία του ίδιου μορφότυπου σε έναν φάκελο (π.χ. όλα τα αρχεία XML μαζί). Μπορείτε να μεταφορτώσετε δύο διαφορετικά σύνολα δεδομένων (π.χ. XML έναντι TXT) στην ίδια εγγραφή μεταδεδομένων, συσχετίζοντας το καθένα από αυτά με διαφορετική διανομή.

Πρακτική συμβουλή

Δείτε τον κατάλογο των συνιστώμενων μορφότυπων αρχείων για την υποδομή CLARIN:EL.

Πολλαπλά μέσα (media)

Εάν τα δεδομένα, ή τμήματά τους, διατίθενται σε διάφορα μέσα (π.χ. κείμενο, ήχος κλπ.), οργανώστε τα αρχεία βάσει του μέσου. Ομαδοποιήστε όλα τα αρχεία του ίδιου μέσου σε έναν φάκελο (π.χ. όλα τα αρχεία κειμένου μαζί σε έναν φάκελο και όλα τα αρχεία ήχου σε έναν άλλο). Μπορείτε να μεταφορτώσετε δύο διαφορετικά σύνολα δεδομένων (π.χ. ηχογραφήσεις και απομαγνητοφωνήσεις) στην ίδια εγγραφή μεταδεδομένων, συσχετίζοντας το καθένα από αυτά με διαφορετική διανομή.

Ονοματοδοσία αρχείων και φακέλων

Ονομάστε τόσο τα αρχεία όσο και τους φακέλους με τρόπο που να αντικατοπτρίζει με νόημα και με συνέπεια το περιεχόμενό τους. Χρησιμοποιήστε το λατινικό αλφάβητο και μην αφήνετε κενά μεταξύ των λέξεων. Εάν έχετε αρχεία σε διαφορετικούς μορφότυπους, μέσα ή/και γλώσσες, ονομάστε τα ανάλογα (π.χ. news1_el.txt, news1_en.txt).

Σημαντικό

Οποιαδήποτε σχετική τεκμηρίωση (π.χ. εγχειρίδια, ερωτηματολόγια, codebooks, εκθέσεις έργου κλπ.) θα πρέπει να περιγραφεί στα αντίστοιχα πεδία μεταδεδομένων στο περιβάλλον τεκμηρίωσης και ανάρτησης πόρων όπου πρέπει να μεταφορτωθεί και το αντίστοιχο αρχείο. Παρ” όλα αυτά, εάν επιθυμείτε να συμπεριλάβετε οποιαδήποτε τεκμηρίωση στο φάκελο δεδομένων, δημιουργήστε ένα ξεχωριστό αρχείο και ονομάστε το «README» (σε μορφή TXT ή PDF). Το αρχείο αυτό θα πρέπει να περιέχει όλες τις απαραίτητες πληροφορίες σχετικά με τις μεθόδους που χρησιμοποιήθηκαν για τη συλλογή/παραγωγή των δεδομένων και επεξηγήσεις σχετικά με τη δομή, την ονομασία των αρχείων ή κάθε άλλου είδους πληροφορία που μπορεί να βοηθήσει τον χρήστη.

Συνέπεια

Τα μεταδεδομένα που χρησιμοποιούνται για την περιγραφή των δεδομένων σας θα πρέπει να τα αντικατοπτρίζουν με σαφήνεια. Βεβαιωθείτε ότι δεν υπάρχουν ασυνέπειες (π.χ. ελέγξτε ότι τα αρχεία σας είναι όντως σε μορφή PDF και όχι απλώς σαρωμένες εικόνες - αν παρέχετε πληροφορίες για ένα σχολιασμένο σώμα δεδομένων, αναφέρετε το εργαλείο σχολιασμού κλπ.) για να αποφύγετε τυχόν προβλήματα. Διαβάστε εδώ ποια είναι τα υποχρεωτικά μεταδεδομένα για όλους τους τύπους πόρων, αλλά λάβετε επίσης υπόψη σας ότι μια περιγραφή πόρου είναι πληρέστερη εάν παρέχονται και τα συνιστώμενα μεταδεδομένα.

Βήμα 3: Συμπίεση

Τα αρχεία περιεχομένου πρέπει να βρίσκονται σε έναν συμπιεσμένο φάκελο σε έναν από τους ακόλουθους μροφότυπους: .zip, .tgz, .gz, .tar. Κατά την ονομασία του φακέλου πρέπει να χρησιμοποιείτε το λατινικό αλφάβητο και να μην αφήνετε κενά μεταξύ των λέξεων.

Προσοχή

Μην συμπιέζετε τα εμφωλευμένα αρχεία/φακέλους καθώς κάτι τέτοιο καθιστά τα δεδομένα μη επεξεργάσιμα από τις υπηρεσίες CLARIN:EL (δηλ. μην δημιουργείτε .zip αρχεία μέσα σε ένα .zip αρχείο).

3.2. Ειδικές οδηγίες

Corpora

Για να γίνει επεξεργάσιμο, ένα σώμα κειμένων πρέπει να έχει τα χαρακτηριστικά που περιγράφονται παρακάτω:

  • multilinguality:

    • για τα μονόγλωσσα σώματα κειμένων, η γλώσσα πρέπει να είναι τα ελληνικά, τα αγγλικά, τα γερμανικά ή τα πορτογαλικά (μέχρι στιγμής αυτές είναι οι γλώσσες που υποστηρίζονται από τις υπηρεσίες),

    • για τα δίγλωσσα σώματα κειμένων, τα ελληνικά πρέπει να είναι η μία γλώσσα του γλωσσικού ζεύγους όπου τα αγγλικά, τα γερμανικά ή τα πορτογαλικά είναι η άλλη.

  • medium: Τext

  • format:

    • για τα μονόγλωσσα σώματα κειμένων τα μορφότυπα πρέπει να είναι είτε Plain Text είτε XCES,

    • για τα δίγλωσσα σώματα κειμένων τα μορφότυπα πρέπει να είναι είτε TMX είτε MOSES.

  • encoding: UTF-8

  • size: < 60Mb

  • licence: Άδειες Creative Commons (CC, ξεκινώντας από την Creative Commons Zero (CC-0) και προχωρώντας σε όλους τους δυνατούς συνδυασμούς βάσει των διαφοροποιημένων δικαιωμάτων χρήσης κατά CC). Δείτε επίσης το Προτεινόμενο σχήμα αδειοδότησης Γλωσσικών Πόρων.

Τα σώματα κειμένων με αυτά τα χαρακτηριστικά είναι συμβατά με τις ροές εργασίας της υποδομής και επισημαίνονται αυτόματα ως processable (επεξεργάσιμα) και παρουσιάζονται ως προεπιλογή στην αρχική σελίδα του κεντρικού καταλόγου.

Εργαλεία

Εάν θέλετε να ενσωματώσετε ένα εργαλείο στην υποδομή του CLARIN:EL ως συμβατή υπηρεσία, δηλώστε την επιλογή σας κατά τη δημιουργία του πόρου και επικοινωνήστε με την τεχνική ομάδα του CLARIN:EL.

../../_images/CreateTool1.png

4. ΜΕΤΑΦΟΡΤΩΣΗ

Όταν τελειώσετε, μπορείτε να μεταφορτώσετε τα δεδομένα.

Προσοχή

Αυτή η ενέργεια είναι διαθέσιμη μόνο στους συνδεδεμένους επιμελητές.

Ως επιμελητής έχετε δύο επιλογές για τη μεταφόρτωση:

Μόλις ολοκληρώσετε τη μεταφόρτωση, πρέπει να συσχετίσετε τα δεδομένα με μια μορφή διανομής (distribution), τον τρόπο ή το κανάλι διανομής μέσω του οποίου διανέμονται τα δεδομένα, που περιγράφεται εδώ.

Μπορείτε να επαναλάβετε τη διαδικασία (μεταφόρτωση δεδομένων –> συσχέτιση με διανομή) όσες φορές χρειάζεται, έχοντας διαφορετικά σύνολα δεδομένων συσχετισμένα με διάφορες διανομές. Αυτή η λειτουργικότητα εξυπηρετεί όχι μόνο τους διάφορους τρόπους με τους οποίους τα ίδια δεδομένα διανέμονται (π.χ. ένα CD-ROM, ένας σύνδεσμος από όπου μπορεί να γίνει καταφόρτωση ενός συνόλου δεδομένων, κλπ.), αλλά και τους διαφορετικούς μορφότυπους ή μέσα δεδομένων (π.χ. PDF vs TXT, αρχεία ήχου vs μεταγραφές, κλπ.), που μπορούν να αντιμετωπιστούν ανεξάρτητα.

Πρακτική συμβουλή

Εάν αντιμετωπίσετε οποιοδήποτε πρόβλημα κατά τη διάρκεια της μεταφόρτωσης, παρακαλούμε επικοινωνήστε με το γραφείο τεχνικής υποστήριξης

II. Τα δεδομένα ως τροφοδοσία μίας υπηρεσίας

Προσοχή

Αυτή η ενέργεια είναι διαθέσιμη σε όλους τους συνδεδεμένους χρήστες.

Τόσο τα δεδομένα που μεταφορτώνονται προς επεξεργασία όσο και τα δεδομένα που προκύπτουν από την επεξεργασία δεν αποθηκεύονται μόνιμα στην υποδομή - η πολιτική του CLARIN:EL είναι να διαγράφονται τα επεξεργασμένα δεδομένα 48 ώρες μετά την ολοκλήρωση της επεξεργασίας.

Πρακτική συμβουλή

Αν θέλετε, μπορείτε να δημιουργήσετε μια εγγραφή μεταδεδομένων, στην οποία μπορείτε να μεταφορτώσετε τα δεδομένα, είτε χρησιμοποιώντας το περιβάλλον τεκμηρίωσης και ανάρτησης πόρων είτε με τη μεταφόρτωση ενός αρχείου XML. Λάβετε υπόψη ότι για να το κάνετε αυτό θα πρέπει πρώτα να έχετε συνδεθεί.

Οι υπηρεσίες CLARIN:EL δέχονται στην είσοδό τους μικρά σύνολα δεδομένων με τα ακόλουθα χαρακτηριστικά:

  • multilinguality: μονόγλωσσα σώματα κειμένων στα ελληνικά, αγγλικά, γερμανικά ή πορτογαλικά,

  • medium: Τext

  • format: Plain Text

  • encoding: UTF-8

  • size: < 2Mb

Επιπλέον, τα αρχεία περιεχομένου πρέπει να βρίσκονται σε έναν συμπιεσμένο φάκελο σε έναν από τους ακόλουθους μροφότυπους: .zip, .tgz, .gz, .tar. Κατά την ονομασία του φακέλου πρέπει να χρησιμοποιείτε το λατινικό αλφάβητο και να μην αφήνετε κενά μεταξύ των λέξεων.

Προσοχή

Μην συμπιέζετε τα εμφωλευμένα αρχεία/φακέλους καθώς κάτι τέτοιο καθιστά τα δεδομένα μη επεξεργάσιμα από τις υπηρεσίες CLARIN:EL (δηλ. μην δημιουργείτε .zip αρχεία μέσα σε ένα .zip αρχείο).

Για να μάθετε περισσότερα σχετικά με την επεξεργασία, δείτε πώς να μπορείτε να αποκτήσετε πρόσβαση:

  1. στις υπηρεσίες,

  2. στις ροές εργασίας.