Συνιστώμενα μορφότυπα (formats) αρχείων¶
Συστάσεις για την επιλογή μορφότυπων αρχείων που διασφαλίζουν μακροπρόθεσμα την προσβασιμότητα και διαλειτουργικότητα των δεδομένων¶
Στην παρούσα ενότητα 1 παρουσιάζονται τα μορφότυπα αρχείων που συνιστώνται για την μεταφόρτωση δεδομένων στο CLARIN:EL.
Μορφότυπα (formats) αρχείων που υπηρετούν την Πολιτική Ψηφιακής Διατήρησης¶
Κατά τον καθορισμό των συνιστώμενων μορφότυπων αρχείων, η ομάδα του CLARIN:EL συνυπολόγισε τους ακόλουθους παράγοντες που επιτρέπουν στα δεδομένα να παραμένουν προσβάσιμα και να μπορούν να επαναχρησιμοποιηθούν σε βάθος χρόνου.
Για την επεξεργασιμότητα (processability) λήφθηκαν υπόψιν:
η καταλληλότητα του μορφότυπου για τον τύπο του πόρου ή/και τον τύπο της επεξεργασίας, και
η συμβατότητά του με τις ροές εργασίας CLARIN:EL (τα κειμενικά δεδομένα, προκειμένου να είναι επεξεργάσιμα, πρέπει να είναι σε έναν από τους μορφότυπους που επεξεργάζονται οι ροές εργασίας).
Για την διατήρηση (preservation) λήφθηκαν υπόψιν:
η καταλληλότητα του μορφότυπου για έρευνα, όπως έχει οριστεί από τις σχετικές κοινότητες,
ο βαθμός διάδοσής του (προτιμήθηκαν ευρέως χρησιμοποιούμενα μορφότυπα, που δεν έχουν καταργηθεί, γνωστά στις καθορισμένες κοινότητες),
ο τρόπος διάθεσης (επιλέχθηκαν μορφότυπα ανοικτού έναντι κλειστού, ιδιόκτητου, κώδικα), και
το αν ο μορφότυπος εφαρμόζει συμπίεση με ή χωρίς απώλειες.
Η πολιτική, που βασίζεται στα όσα προαναφέρθηκαν, ανταποκρίνεται στην αποστολή του CLARIN:EL να συλλέγει, να διατηρεί και να διανέμει ψηφιακούς γλωσσικούς πόρους και υπηρεσίες γλωσσικής επεξεργασίας για την υποστήριξη ερευνητών, ακαδημαϊκών, φοιτητών, επαγγελματιών του γλωσσικού τομέα, επιστημόνων καθώς και του ευρύτερου κοινού. Προκειμένου να δημιουργηθούν οι κατάλληλες συστάσεις για τους επιμέρους μορφότυπους αρχείων ή να αποφασιστεί η καταλληλότητά τους για συγκεκριμένα είδη ερευνητικών δραστηριοτήτων/τύπων, πρέπει να εξεταστεί ο σκοπός για τον οποίο προορίζονται. Για παράδειγμα, ενώ ο μορφότυπος PDF/A έχει αναπτυχθεί για την χωρίς προβλήματα μακροπρόθεσμη αρχειοθέτηση και αποτελεί εξαιρετική επιλογή μορφότυπου για τεκμηρίωση, είναι αναμφίβολα ακατάλληλος για κειμενικά δεδομένα που προορίζονται για γλωσσική επεξεργασία. Επομένως, με βάση τους τύπους πόρων που εμπίπτουν στο πεδίο εφαρμογής των χρηστών του CLARIN:EL και των υπηρεσιών που προσφέρονται/υποστηρίζονται, η ομάδα του CLARIN:EL διακρίνει τις ακόλουθες κατηγορίες, ως προς τους ψηφιακούς γλωσσικούς πόρους, για τις οποίες παρέχονται συγκεκριμένες συστάσεις:
CLARIN:EL processable data (επεξεργάσιμα δεδομένα στην υποδομή CLARIN:EL): πρόκειται για κειμενικά δεδομένα 2 που μπορούν να τροφοδοτήσουν τις ροές εργασίας του CLARIN:EL,
Textual Data (κειμενικά δεδομένα): γραπτό μη δομημένο/απλό κείμενο (plain text) ή δομημένο (π.χ. HTML) χωρίς γλωσσική ή άλλη σήμανση που προστίθεται για ερευνητικούς σκοπούς (μη επεξεργάσιμα από τις ροές εργασίας CLARIN:EL),
Text Annotation (κειμενική επισημείωση): επισημειώσεις κειμενικών δεδομένων της γλώσσας προέλευσης, με το αρχικό κείμενο να συμπεριλαμβάνεται ή να υφίσταται ως ξεχωριστό έγγραφο (stand-off document),
Language Description (γλωσσική περιγραφή): δεδομένα που περιγράφουν μια γλώσσα ή κάποια πτυχή/πτυχές μιας γλώσσας μέσω συστηματικής τεκμηρίωσης γλωσσικών δομών (γραμματικές, μοντέλα μηχανικής μάθησης (ML), μοντέλα Ν-γραμμάτων),
Lexical/Conceptual Resource (λεξικός/εννοιολογικός πόρος): πόρος οργανωμένος με βάση λεξιλογικές ή εννοιολογικές καταχωρίσεις (λεξιλογικά στοιχεία, όρους, έννοιες κ.λπ.) με συμπληρωματικές πληροφορίες (π.χ. μορφολογικές, σημασιολογικές, στατιστικές πληροφορίες κλπ.),
Image data (δεδομένα εικόνας): ψηφιοποιημένες εικόνες αναλογικών πηγών δεδομένων γραπτού λόγου για ερευνητικούς σκοπούς (π.χ. σαρώσεις χειρογράφων, φωτογραφίες επιγραφών) ή δισδιάστατες εικόνες ή σχήματα που διανέμονται με τα σχετικά κειμενικά δεδομένα για ανάλυση επεξεργασίας φυσικής γλώσσας, NLP, (π.χ. ιατρικές εικόνες, δεδομένα εικόνας, συνοδευόμενες από ακτινολογικές γνωματεύσεις, κειμενικά δεδομένα),
Audio data (ηχητικά δεδομένα): ηχογραφήσεις που προσφέρουν δεδομένα προφορικού λόγου για ερευνητικούς σκοπούς (π.χ. αρχεία ήχου με την προφορά λέξεων για ένα λεξικό, ηχογραφημένες συνεντεύξεις, ραδιοφωνικές εκπομπές κλπ.),
Video data (δεδομένα βίντεο): βιντεοσκοπήσεις που προσφέρουν πολυτροπικά ή δεδομένα νοηματικής γλώσσας για ερευνητικούς σκοπούς.
Συστάσεις μορφότυπων¶
Προτιμώνται τα μορφότυπα που πληρούν τα κριτήρια της Πολιτικής Ψηφιακής Διατήρησης που προαναφέρθηκαν. Ωστόσο, γίνονται δεκτά και άλλα μορφότυπα, ως επίπεδο πρώτης εισόδου, που προτείνεται να μετατραπούν στους συνιστώμενους.
Ως εκ τούτου, τα μορφότυπα αρχείων κατηγοριοποιούνται σε δύο επίπεδα διατήρησης (recommended/συνιστώμενα, acceptable/αποδεκτά) πάντα στο πλαίσιο της κάθε περίπτωσης. Ο κατάλογος των αποδεκτών μορφότυπων δεν είναι εξαντλητικός, ιδίως στην περίπτωση της κειμενικής επισημείωσης (text annotation), αλλά μάλλον ενδεικτικός, ενώ προτείνεται και η μετατροπή των αποδεκτών μορφότυπων σε συνιστώμενα.
- 1
Οι παρούσες οδηγίες έχουν συνταχθεί από την τεχνική ομάδα του CLARIN:EL στην οποία μπορείτε να απευθυνθείτε για οποιαδήποτε ερώτηση ή παρατήρηση.
- 2
Δείτε εδώ τις οδηγίες για τα επεξεργάσιμα σώματα κειμένων (processable).