Τι είναι τα μεταδεδομένα και γιατί είναι τόσο σημαντικά;

In this chapter: metadata schema, XML and XSD, metadata optionality and possible values.

ορισμός

Τα μεταδεδομένα είναι «δεδομένα που παρέχουν πληροφορίες για άλλα δεδομένα»

Τα δεδομένα για τα οποία επιθυμούμε να έχουμε πληροφορίες είναι γλωσσικά δεδομένα και εργαλεία/υπηρεσίες που τα επεξεργάζονται. Τα βασικά μεταδεδομένα που χρησιμοποιούνται για την περιγραφή των προαναφερθέντων είναι:

  • corpora (σώματα κειμένων - δηλαδή συλλογές κειμένων ή άλλων μέσων),

  • lexical/conceptual resources (λεξικοί/εννοιολογικοί πόροι - δηλ. συλλογές όρων),

  • language descriptions (γλωσσικές περιγραφές - π.χ. γραμματικές), και

  • tools or services (εργαλεία ή υπηρεσίες - π.χ. λογισμικό για την επεξεργασία φυσικής γλώσσας).

Αυτά τα μεταδεδομένα έχουν πολλά και διαφορετικά χαρακτηριστικά και ιδιότητες. Για παράδειγμα, το μεταδεδομένο corpus έχει πολλά παιδιά (children), ιεραρχικά εξαρτώμενα στοιχεία, όπως φαίνεται στην εικόνα, τα οποία είναι με τη σειρά τους τα ίδια μεταδεδομένα:

../../_images/CorpusXSD.png

Αυτό που φαίνεται στην εικόνα είναι ένα μέρος του σχήματος μεταδεδομένων CLARIN:EL metadata schema που είναι αφιερωμένο στο στοιχείο corpus. Ένα σχήμα (schema) είναι ένας περίπλοκος λεπτομερής χάρτης όπου όλα τα στοιχεία εντοπίζονται, ορίζονται, περιγράφονται και συσχετίζονται μεταξύ τους ιεραρχικά. Όλες αυτές οι πληροφορίες αποθηκεύονται σε ένα εξωτερικό έγγραφο που ονομάζεται XSD: XML Schema Documentation.

XML σημαίνει eXtensible Markup Language. Είναι μια γλώσσα που έχει σχεδιαστεί για την επισήμανση δεδομένων με τη χρήση ετικετών <> (tags) 1. Οι ετικέτες αντιπροσωπεύουν τη δομή των δεδομένων και περιέχουν μεταδεδομένα. Το XSD περιέχει, επίσης, κανόνες με τους οποίους πρέπει να συμμορφώνεται ένα έγγραφο XML προκειμένου να είναι έγκυρο (valid) σύμφωνα με το συγκεκριμένο σχήμα.

Ένα σχήμα δημιουργείται για να βοηθήσει διαφορετικούς τύπους χρηστών να περιγράψουν, να οργανώσουν, να ανακτήσουν και να επαναχρησιμοποιήσουν τους πόρους (για περισσότερες πληροφορίες δείτε την ενότητα Fair Principles). Όσον αφορά στους πόρους που βρίσκονται στο CLARIN:EL, το σχήμα που δημιουργήθηκε παρέχει πληροφορίες σε ερωτήματα, όπως τα ακόλουθα:

  • Ποια είναι η φύση των πόρων;

  • Πώς δημιουργήθηκαν οι πόροι;

  • Γιατί δημιουργήθηκαν;

  • Πότε δημιουργήθηκαν;

  • Ποιος τους δημιούργησε;

  • Ποιά ήταν τα πρότυπα/εργαλεία/τεχνικές που χρησιμοποιήθηκαν (αν χρησιμοποιήθηκαν);

  • Ποιο είναι το μέγεθός τους (σε διάφορες μονάδες μέτρησης);

  • Ποια ήταν η πηγή τους;

Το σχήμα μεταδεδομένων CLARIN:EL έχει επίσης προβλέψει για τα διάφορα μέσα (media), τις γλώσσες και άλλες χρήσιμες πληροφορίες που αφορούν όλους τους τύπους πόρων, που εκφράζονται από τα αντίστοιχα μεταδεδομένα.

Κάθε πληροφορία που κωδικοποιείται ως μεταδεδομένο είναι περισσότερο ή λιγότερο αναγκαία για την περιγραφή ενός πόρου. Αυτό εκφράζεται από τους διάφορους βαθμούς προαιρετικότητας (optionality) όπως φαίνεται στον ακόλουθο πίνακα:

Εάν ένα μεταδεδομένο είναι

Τότε

υποχρωτικό (mandatory)

πρέπει να συμπληρώνεται πάντα

συνιστώμενο (recommended)

και αυτό είναι σημαντικό, επομένως θα πρέπει να συμπληρώνεται

υπό συνθήκη υποχρεωτικό (mandatory upon condition)

γίνεται υποχρεωτικό μετά τη συμπλήρωση μιας συγκεκριμένης τιμής ενός άλλου μεταδεδομένου

υπό συνθήκη συνιστώμενο (recommended upon condition)

γίνεται συνιστώμενο μετά τη συμπλήρωση μιας συγκεκριμένης τιμής ενός άλλου μεταδεδομένου

προαιρετικό (optional)

«μη λέτε ποτέ ‘αυτό το μεταδεδομένο δεν είναι χρήσιμο’∙ δείξτε γενναιοδωρία και συμπληρώστε το!»2

Πρακτική συμβουλή

Δείτε εδώ τα υποχρεωτικά μεταδεδομένα για το CLARIN:EL.

Κάθε μεταδεδομένο λαμβάνει μια συγκεκριμένη τιμή (value). Αυτή η τιμή είναι το αποδεκτό περιεχόμενο που περικλείεται μεταξύ των ετικετών και ποικίλλει, από αλφαριθμητικές συμβολοσειρές (alphanumeric strings) έως δεκαδικούς αριθμούς (float numbers), διευθύνσεις URL κλπ. Στα ακόλουθα παραδείγματα εμφανίζονται κάποιες από αυτές τις τιμές (κάντε κλικ στο βέλος για να εμφανιστεί το παράδειγμα).

a single word:

<ms:keyword xml:lang=»en»> alignment </ms:keyword>

a phrase:

<ms:categoryLabel xml:lang=»en»> Political Science </ms:categoryLabel>

multiple phrases/paragraphs:

<ms:description xml:lang=»en»> This is a collection of the raw minutes of the Greek Parliament plenary sessions of the last 30 years (more than 1.000.000 speeches). The existing corpus has all raw data in txt format. In order to make the resource more processable, we have also split it into smaller subcorpora, with a maximum compressed folder size of 40 Mb per subcorpus. The created subcorpora are thematically organized per Greek parliamentary terms. </ms:description>

a date:

<ms:creationStartDate> 2005-10-01 </ms:creationStartDate>

a number:

<ms:amount> 100000.0 </ms:amount>

a URL:

<ms:website> http://www.ilsp.gr/ </ms:website>

an email:

<ms:email> name@athenarc.gr </ms:email>

Μπορείτε να δείτε περισσότερα παραδείγματα εδώ.

1

Μπορείτε να εξαγάγετε την περιγραφή μεταδεδομένων ενός πόρου σε αρχείο XML, επισκεπτόμενοι τη σελίδα θέασης του πόρου.

2

FAIR Principles > F2: Data are described with rich metadata.