Οι αρχές FAIR

In this chapter: findability, accessibility, interoperability and reuse of digital assets.

Η υποδομή CLARIN:EL και το σχήμα μεταδεδομένων υποστηρίζουν τις αρχές FAIR : Ευρεσιμότητα (Findability), Προσβασιμότητα (Accessibility), Διαλειτουργικότητα (Interoperability) και Επαναχρησιμοποίηση (Reuse) των ψηφιακών αντικειμένων. Αυτή η ενότητα παρέχει μια επισκόπηση των αρχών FAIR. Για περισσότερες πληροφορίες, παρακαλούμε, επισκεφθείτε τον δικτυακό τόπο GoFair όπου κάθε μία από τις αρχές αναλύεται περαιτέρω.

Ευρεσιμότητα (Findability)

Πρώτα τα δεδομένα πρέπει να βρεθούν. Ένας από τους τρόπους εντοπισμού ενός ψηφιακού αντικειμένου ανεξάρτητα από τις αλλαγές της θέσης του στο διαδίκτυο είναι με το μόνιμο αναγνωριστικό PID (persistent identifier). Το PID είναι μια συμβολοσειρά που προσδιορίζει μοναδικά ένα ψηφιακό αντικείμενο. Στο CLARIN:EL κάθε πόρος λαμβάνει ένα PID κατά τη δημοσίευσή του και μπορεί να ανακτηθεί με αυτό ακόμη και αν ο πόρος έχει αφαιρεθεί από τον κεντρικό κατάλογο. Για παράδειγμα, το Sentiment Analysis Tool δεν βρίσκεται πλέον δημοσιευμένο στον κεντρικό κατάλογο, αλλά χρησιμοποιώντας το PID του (http://hdl.handle.net/11500/DEMOKRITOS-0000-0000-24A2-0) ο χρήστης οδηγείται στη σελίδα προβολής του πόρου όπου μια ετικέτα ενημερώνει ότι αυτός ο πόρος δεν είναι προσωρινά διαθέσιμος.

../../_images/Tombstone.png

Ένας άλλος τρόπος εύρεσης δεδομένων είναι μέσω των περιγραφών μεταδεδομένων τους. Όσο περισσότερα (και ακριβή) μεταδεδομένα παρέχονται, τόσο το καλύτερο. Στον ιστότοπο του GoFair επισημαίνεται η σημασία των μεταδεδομένων με έναν απλό κανόνα: «μη λέτε ποτέ ‘αυτό το μεταδεδομένο δεν είναι χρήσιμο’∙ δείξτε γενναιοδωρία και συμπληρώστε το!»

Προσβασιμότητα (Accessibility)

Μόλις βρεθούν τα δεδομένα, η πρόσβαση σε αυτά θα πρέπει να είναι κάτι γνωστό στον χρήστη: «οποιοσδήποτε με υπολογιστή και σύνδεση στο διαδίκτυο μπορεί να έχει πρόσβαση τουλάχιστον στα μεταδεδομένα» 1. Προσβασιμότητα σε αυτό το πλαίσιο είναι η δυνατότητα ανάκτησης δεδομένων και μεταδεδομένων χωρίς εξειδικευμένα ή ιδιόκτητα εργαλεία ή μεθόδους επικοινωνίας. Ωστόσο, η προσβασιμότητα υπόκειται σε περιορισμούς. Όπου είναι απαραίτητο θα μπορούσε να χρειαστεί πιστοποίηση ταυτότητας (authentication) ή/και εξουσιοδότηση (authorisation). Στο CLARIN:EL η πιστοποίηση ταυτότητας και η εξουσιοδότηση απαιτούνται όταν ένας χρήστης ζητά πρόσβαση σε συγκεκριμένα δικαιώματα (ως επιμελητής, επικυρωτής ή υπεύθυνος αποθετηρίου) ή όταν κάποιος θέλει πρόσβαση στις υπηρεσίες επεξεργασίας. Σε αυτές τις περιπτώσεις ο χρήστης πρέπει πρώτα να εγγραφεί/συνδεθεί- η περιήγηση στον κεντρικό κατάλογο, η θέαση πόρων, η εξαγωγή περιγραφών μεταδεδομένων καθώς και η καταφόρτωση πόρων επιτρέπονται και σε μη εγγεγραμμένους χρήστες.

Η προσβασιμότητα εξασφαλίζεται επίσης όταν τα μεταδεδομένα είναι διαθέσιμα ακόμη και όταν τα δεδομένα δεν είναι. Εκτός από την προαναφερθείσα ετικέτα για πόρους των οποίων η δημοσίευση έχει αρθεί, το CLARIN:EL έχει επίσης μόνο ενημερωτικούς πόρους (for info), είτε επειδή τα δεδομένα τους είναι υπό επεξεργασία και δεν είναι έτοιμα να δημοσιευτούν είτε επειδή εκκρεμεί η εκκαθάριση των νομικών δικαιωμάτων που διέπουν τη χρήση τους. Αυτές οι εγγραφές μεταδεδομένων εξακολουθούν να προσφέρουν όλες τις απαραίτητες πληροφορίες σχετικά με τα επερχόμενα δεδομένα και δίνουν και στοιχεία επικοινωνίας.

../../_images/ForInfo.png

Διαλειτουργικότητα (Interoperability)

Η διαλειτουργικότητα αφορά τόσο τα δεδομένα και τα μεταδεδομένα όσο και την αντίληψή τους από ανθρώπους και υπολογιστές. Με απλά λόγια, η ανταλλαγή και η ερμηνεία των δεδομένων θα πρέπει να είναι μια απρόσκοπτη προσπάθεια μεταξύ ανθρώπων ή μηχανών. Για να καταστεί δυνατή η αναγνωσιμότητα χωρίς την ανάγκη πρόσθετου λογισμικού (αλγόριθμοι, μεταφραστές, αντιστοιχίσεις) θα πρέπει να χρησιμοποιούνται κοινά αποδεκτά «ελεγχόμενα λεξιλόγια, οντολογίες, θησαυροί και ένα καλό μοντέλο δεδομένων (ένα καλά καθορισμένο πλαίσιο για την περιγραφή και τη δόμηση των (μετα)δεδομένων2.

Για τον σκοπό αυτό, χρειάζονται και συγκεκριμένοι τρόποι αναφοράς μεταξύ των πόρων (διασταυρούμενες αναφορές που δηλώνουν με ρητό τρόπο πως συνδέονται οι πόροι). Στο CLARIN:EL το σχήμα μεταδεδομένων έχει προβλέψει τέτοιους τρόπους σύνδεσης, ένα παράδειγμα των οποίων παρουσιάζεται στην ακόλουθη εικόνα. Το OROSSIMO Corpus - Economics είναι, όπως φαίνεται στο τμήμα των σχέσεων (relations) της σελίδας θέασης του πόρου μέρος (part of) του OROSSIMO Corpus και είχε ως αποτέλεσμα (has outcome) τον λεξικό/εννοιολογικό πόρο Orossimo Terminological Resource - Economics.

../../_images/Relations.png

Επιπλέον, για όλους τους πόρους η παραπομπή (citation) περιλαμβάνει το PID τους.

../../_images/Citation.png

Επαναχρησιμοποίηση (Reuse)

Για να είναι δυνατή η επαναχρησιμοποίηση των δεδομένων, τα μεταδεδομένα με τα οποία θα περιγραφούν θα πρέπει να είναι πλούσια, καλύπτοντας όλες τις πλευρές που σχετίζονται με τον τρόπο παραγωγής των δεδομένων. Ο όρος πληθώρα (plurality) χρησιμοποιείται «για να υποδηλώσει ότι ο επιμελητής των μεταδεδομένων θα πρέπει να είναι όσο το δυνατόν πιο γενναιόδωρος στην παροχή μεταδεδομένων, ακόμη και στην περίπτωση πληροφοριών που μπορεί να μη φαίνονται σχετικές» 3.

Για τον ίδιο λόγο, το καθεστώς αδειοδότησης των δεδομένων θα πρέπει να είναι σαφές. Το σχήμα μεταδεδομένων CLARIN:EL διαθέτει πολλά μεταδεδομένα που καλύπτουν όλες τις πτυχές νομικής αδειοδότησης (όροι αδειοδότησης, URL, περιορισμοί χρήσης κλπ.) ενός πόρου. Αυτά εμφανίζονται ως πεδία μεταδεδομένων στο περιβάλλον τεκμηρίωσης και ανάρτησης πόρων 4, όπως δείχνει η ακόλουθη εικόνα:

../../_images/Licencing.png
1

FAIR Principles > A1.1: The protocol is open, free and universally implementable.

2

FAIR Principles > I1: (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.

3

FAIR Principles > R1: (Meta)data are richly described with a plurality of accurate and relevant attributes

4

Οι αγγλικοί όροι που αναφέρονται στο περιβάλλον τεκμηρίωσης και ανάρτησης πόρων (metadata editor και editor) χρησιμοποιούνται εναλλακτικά χωρίς διαφορά στη σημασία.