Συγκεκριμένες οδηγίες για τα υποχρεωτικά μεταδεδομένα

In this chapter: how to fill in the mandatory metadata.

Αυτή η ενότητα παρέχει οδηγίες σχετικά με τον τρόπο συμπλήρωσης συγκεκριμένων μεταδεδομένων τα οποία είναι υποχρεωτικά για σώματα κειμένων, λεξικούς/εννοιολογικούς πόρους, εργαλεία/υπηρεσίες και γλωσσικές περιγραφές. Δεδομένου ότι ορισμένα μεταδεδομένα είναι κοινά για όλους τους πόρους, αυτά παρουσιάζονται πρώτα και ακολουθούν τα υπόλοιπα μεταδεδομένα που είναι διαφορετικά για τον κάθε τύπο πόρου.

Κάθε στοιχείο μεταδεδομένων επεξηγείται εν συντομία και παρέχονται παραδείγματα όπου είναι δυνατόν. Τα παραδείγματα καλύπτουν τόσο τις βέλτιστες πρακτικές όσο και τα συνήθη λάθη που πρέπει να αποφεύγονται (σημειώνονται με αστερίσκο *). Επιπλέον, για κάθε στοιχείο μεταδεδομένων υπάρχει σύνδεσμος προς το XSD με την πλήρη αναπαράστασή του.

1. resourceName

~Το επίσημο όνομα ή ο τίτλος του γλωσσικού πόρου ή της γλωσσικής τεχνολογίας~

Το όνομα πρέπει να αντικατοπτρίζει το περιεχόμενο (και τον τύπο) του πόρου- πρέπει να παρουσιάζει όλες τις απαραίτητες πληροφορίες για τον πόρο, αλλά δεν πρέπει να είναι υπερβολικά περιγραφικό- λεπτομερείς πληροφορίες πρέπει να παρέχονται στην περιγραφή. Μην χρησιμοποιείτε πλήρεις φράσεις, σημεία στίξης (εκτός αν είναι απαραίτητο) ή συντομογραφίες στον τίτλο του πόρου. Δώστε την πλήρη ονομασία του πόρου και χρησιμοποιήστε τη συντομογραφία/ακρωνύμιο (εάν υπάρχει) στο αντίστοιχο πεδίο μεταδεδομένων.

Παραδείγματα

Ναι: Glossary of medical terms; Old and New Testament; Ellogon annotation tool

Όχι: *This is a glossary of medical terms; *Old and New Testament!; *Ellogon ann. tool

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου resourceName στο XSD


2. description

~Μια σύντομη παρουσίαση του γλωσσικού πόρου ή της γλωσσικής τεχνολογίας~

Η περιγραφή πρέπει να περιέχει όλες τις σημαντικές πληροφορίες για τον πόρο. Μην επαναλαμβάνετε (ή επαναδιατυπώνετε) απλώς τον τίτλο του πόρου χωρίς να προσθέτετε άλλες πληροφορίες. Μόλις διαβάσει κανείς την περιγραφή και χωρίς να δει τα υπόλοιπα μεταδεδομένα, θα πρέπει να είναι σε θέση να καταλάβει τι είναι και τι περιλαμβάνει ο πόρος. Ορίστε τον τύπο του πόρου και δώστε κάθε χρήσιμη πληροφορία σχετικά με το πώς, πότε και από ποιον δημιουργήθηκε, ποια είναι η γλώσσα και το μέγεθός του και ποιος είναι ο σκοπός που εξυπηρετεί, αν υπάρχει. Αναφέρετε τυχόν ιδιαιτερότητες ή περιορισμούς σχετικά με τα δεδομένα ή το εργαλείο/υπηρεσία που πρέπει να γνωρίζουν οι χρήστες. Η περιγραφή πρέπει να είναι ελεύθερο κείμενο μιας παραγράφου τουλάχιστον. Μπορείτε επίσης να χρησιμοποιήσετε τις λειτουργικότητες (μορφοποίηση, υπερσύνδεση, λίστες κλπ.) του περιβάλλοντος τεκμηρίωσης και ανάρτησης πόρων (editor 1) για να κάνετε την περιγραφή ευανάγνωστη.

Παραδείγματα

Do: 1) Bilingual glossary (German / Greek) made in 2019/2020 by students of DFLTI (Ionian University) under the supervision of Mr. Olaf Immanuel Seel in the framework of the department’s cooperation with the EU TermCord.

  1. Texts corpus from the transcription of recorded children’s speech focused on narration. The corpus was collected from interviews conducted by undergraduate and postgraduate students of the Department of Mediterranean Studies of the University of the Aegean with children with whom they are related either by friendship or kinship. Files with both the questions and answers are provided, where K=girl and A=boy, as well as cleaned files containing only the children’s answers (clean).

Όχι: *Symposium Proceedings; *Bilingual lexicon on the Greek economy

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου description στο XSD


3. version

~Μια συγκεκριμένη μορφή ενός πόρου που διαφέρει σε ορισμένα σημεία από μια προηγούμενη μορφή~

Το συνιστώμενο μορφότυπο (format) για μια έκδοση είναι: μεγάλη_έκδοση.μικρή_έκδοση.επιδιόρθωση (patch) 2.

Παραδείγματα

Ναι: 1.0.0-alpha; 2.1.1

Όχι: *1.0.1-alpha; *0.0.2

Η υποδομή αναθέτει αυτόματα την έκδοση 1.0.0 σε όλους τους πόρους. Αν αυτό δεν ισχύει για τον πόρο σας, γράψτε τον αριθμό έκδοσης στο πλαίσιο (π.χ. 2.0.0) και στη συνέχεια κάντε κλικ στην ημερομηνία έκδοσης για να εμφανιστεί το ημερολόγιο. Επιλέξτε την ημερομηνία κατά την οποία κυκλοφόρησε αυτή η έκδοση και κάντε κλικ στο OK.

../../_images/VersionDate.png

Το περιβάλλον τεκμηρίωσης και ανάρτησης πόρων παρέχει επίσης τη δυνατότητα να δημιουργηθεί αυτόματα μια νέα έκδοση ενός υπάρχοντος πόρου. Δείτε τις οδηγίες για νέα έκδοση πριν προχωρήσετε σε μία τέτοια ενέργεια.

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου version στο XSD


4. keyword

~Μια λέξη ή φράση χαρακτηριστική του γλωσσικού πόρου ή της γλωσσικής τεχνολογίας που μπορεί να χρησιμοποιηθεί κατά την αναζήτηση~

Οι λέξεις-κλειδιά είναι λέξεις ή μικρές φράσεις που χρησιμοποιούνται για την αναζήτηση ενός πόρου. Όσο περισσότερες λέξεις-κλειδιά χρησιμοποιούνται, τόσο το καλύτερο για την ανάκτηση του πόρου. Ωστόσο, οι λέξεις-κλειδιά πρέπει να αναδεικνύουν πτυχές του πόρου που δεν καλύπτονται ήδη από τα υποχρεωτικά μεταδεδομένα. Εάν, για παράδειγμα, περιγράφετε ένα μονόγλωσσο σχολιασμένο σώμα κειμένων που δημιουργήθηκε για να βελτιώσει τη διαδικασία εκμάθησης μη φυσικών ομιλητών, οι λέξεις-κλειδιά δεν πρέπει να είναι πρωτίστως ή αποκλειστικά τα «corpus», «annotated» ή «monolingual», καθώς αυτές είναι οι τιμές των μεταδεδομένων resourceType, corpusSubclass και linguality αντίστοιχα και μπορούν να ανακτηθούν από αυτά κατά την αναζήτηση. Αντ' αυτού, χρησιμοποιήστε ως λέξεις-κλειδιά τις φράσεις «non native speaker» και «learning process» που τονίζουν την προβλεπόμενη χρήση του πόρου. Επικουρικά μπορείτε να προσθέσετε ως λέξεις-κλειδιά τα «corpus», «annotated» και «monolingual».

Παραδείγματα

Ναι: non native speaker; learning process (corpus; annotated; monolingual)

Όχι: *corpus; *annotated; *monolingual

Αφού πληκτρολογήσετε τη λέξη-κλειδί που θέλετε, κάντε κλικ στην προτροπή που εμφανίζεται κάτω από το πλαίσιο: Add «non native speaker». Μόνο τότε η τιμή θα αποθηκευτεί. Εάν παραλείψετε αυτό το βήμα, η λέξη-κλειδί δεν θα εμφανίζεται όταν επισκεφθείτε ξανά αυτό το τμήμα του περιβάλλοντος τεκμηρίωσης και ανάρτησης πόρων.

../../_images/Keyword.png
  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου keyword στο XSD


5. additionalInformation

~Ένα URL (σελίδα προσγείωσης/landing page) ή μία ηλεκτρονική διεύθυνση (π.χ. μία ηλεκτρονική διεύθυνση υποστήριξης/support email) όπου ο χρήστης μπορεί να βρει ή να ζητήσει περισσότερες πληροφορίες~

Αυτό το μεταδεδομένο είναι είτε μια ιστοσελίδα με πρόσθετες πληροφορίες σχετικά με τον γλωσσικό πόρο ή την γλωσσική τεχνολογία (π.χ. μία διεύθυνση όπου βρίσκεται το περιεχόμενό του, ένας σύνδεσμος για την τοποθεσία πρόσβασης στον πόρο κλπ.) είτε η ηλεκτρονική διεύθυνση του υπεύθυνου για την παροχή πληροφοριών. Βεβαιωθείτε ότι έχετε εισάγει μία έγκυρη ηλεκτρονική διεύθυνση ή ένα URL.

Παραδείγματα

Ναι: person@athenarc.gr; http://www.clarin.gr

Όχι: *person@athenarc.g; http://clarin.gr

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου additionalInformation στο XSD



8. data

~Τα αρχεία περιεχομένου ενός πόρου~

Δεν έχουν όλοι οι πόροι αρχεία περιεχομένου. Μια περιγραφή μεταδεδομένων μπορεί να συνοδεύεται ή να μην συνοδεύεται από αρχεία περιεχομένου (δείτε εδώ για περισσότερες πληροφορίες). Δείτε επίσης τις λεπτομερείς οδηγίες για τον τρόπο προετοιμασίας των δεδομένων, τα συνιστώμενα μορφότυπα (format) και τον τρόπο μεταφόρτωσής τους.

9. personalData, sensitiveData & anonymized

~Πληροφορίες σχετικά με το αν ο πόρος περιέχει προσωπικά ή/και ευαίσθητα προσωπικά δεδομένα~

Προσοχή

Αυτό το μεταδεδομένο είναι υποχρεωτικό για σώματα κειμένων, λεξικούς/εννοιολογικούς πόρους και γλωσσικές περιγραφές.

Πρέπει να προσδιορίσετε εάν ο πόρος περιέχει προσωπικά δεδομένα (π.χ. ονόματα) ή/και ευαίσθητα προσωπικά δεδομένα (π.χ. ιατρικά/σχετικά με την υγεία κλπ.) και συνεπώς απαιτεί ειδικό χειρισμό. Εάν αυτό ισχύει, παρουσιάζονται νέα πεδία μεταδεδομένων στα οποία μπορείτε να δώσετε πρόσθετες πληροφορίες σχετικά με τις όποιες ειδικές απαιτήσεις.

../../_images/PersonalSensitiveData.png
  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου personalData στο XSD

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου sensitiveData στο XSD

Η ύπαρξη προσωπικών ή/και ευαίσθητων προσωπικών δεδομένων παράγει 3 ένα νέο μεταδεδομένο, αυτό της ανωνυμοποίησης. Εδώ μπορείτε να δώσετε όλες τις πληροφορίες σχετικά με την ανωνυμοποίηση/ ψευδο-ανωνυμοποίηση, το εργαλείο που χρησιμοποιήθηκε, αν γράφτηκε κώδικας, τυχόν συμβάσεις που υιοθετήθηκαν κλπ.

../../_images/Anonymization.png
  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου anomymized στο XSD

11. encodingLevel

~Πληροφορίες σχετικά με το περιεχόμενο ενός πόρου όσον αφορά το γλωσσικό επίπεδο ανάλυσης που καλύπτει~

Προσοχή

Αυτό το μεταδεδομένο είναι υποχρεωτικό για λεξικούς/εννοιολογικούς πόρους και γλωσσικές περιγραφές.

Οι τιμές για την κωδικοποίηση αναφέρονται σε επίπεδα γλωσσικής ανάλυσης. Τα επίπεδα αυτά παρουσιάζονται με αλφαβητική σειρά στην συνέχεια και δίνεται το αντικείμενο μελέτης τους:

  • morphology (μορφολογία): σχηματισμός λέξεων (όπως κλίση, παράγωγη και σύνθεση),

  • other (άλλο): τιμή που χρησιμοποιείται όταν καμία από τις συνιστώμενες τιμές δεν είναι κατάλληλη για ένα στοιχείο.

  • phonetics (φωνητική): ήχοι ομιλίας,

  • phonology (φωνολογία): ήχοι ομιλίας που συνιστούν τα θεμελιώδη στοιχεία μιας γλώσσας,

  • pragmatics (πραγματολογία): η σχέση των προτάσεων με το περιβάλλον στο οποίο εμφανίζονται,

  • semantics (σημασιολογία): το νόημα μιας λέξης, φράσης κλπ,

  • syntax (σύνταξη): η δομή των γλωσσικών μονάδων (φράσεων, προτάσεων),

  • unspecified (απροσδιόριστο): τιμή που χρησιμοποιείται για υποχρεωτικά στοιχεία των οποίων η τιμή είναι άγνωστη ή δεν μπορεί να προσδιοριστεί.

Το μεταδεδομένο βρίσκεται στην ενότητα LRC (καρτέλα Technical) για τους λεξικούς/εννοιολογικούς πόρους πάνω από την lcrSubclass, όπως φαίνεται στην παρακάτω εικόνα.

../../_images/EncodingLevel.png

Για τις γλωσσικές περιγραφές το μεταδεδομένο βρίσκεται στην ενότητα Language Description (καρτέλα Technical) κάτω από την επιλεγμένη LanguageDescriptionSubclass.

../../_images/EncodingLevelGrammar.png
  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου encodingLevel στο XSD

12. function

~Η λειτουργία/εργασία που εκτελεί ένα λογισμικό~

Προσοχή

Αυτό το μεταδεδομένο είναι υποχρεωτικό μόνο για εργαλεία/υπηρεσίες.

Η αναδυόμενη λίστα στο αντίστοιχο πεδίο μεταδεδομένων περιλαμβάνει πολλές τιμές που δεν μπορούν να παρουσιαστούν όλες εδώ. Αν αρχίσετε να πληκτρολογείτε, ωστόσο, ο κατάλογος θα μειωθεί μόνο στις τιμές που ταιριάζουν με τα κριτήριά σας. Εάν η λειτουργία του εργαλείου/υπηρεσίας σας ταιριάζει με μία από τις προτεινόμενες τιμές, κάντε κλικ σε αυτήν και θα προστεθεί. Εάν η λειτουργία του εργαλείου/υπηρεσίας σας δεν ταιριάζει με μια από τις προτεινόμενες τιμές, πρέπει να κάνετε κλικ στην προτροπή (missing…? add). Μόνο τότε η τιμή θα αποθηκευτεί. Εάν παραλείψετε αυτό το βήμα, η λειτουργία δεν θα εμφανιστεί όταν επισκεφθείτε ξανά αυτό το τμήμα του περιβάλλοντος τεκμηρίωσης και ανάρτησης πόρων.

../../_images/FunctionEvent.png

Το μεταδεδομένο βρίσκεται στην ενότητα Tool/Service (καρτέλα Categories) του περιβάλλοντος τεκμηρίωσης και ανάρτησης πόρων.

  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου function στο XSD

13. inputContentResource

~Οι απαιτήσεις που θέτει ένα εργαλείο/υπηρεσία για τον πόρο (περιεχομένο) που επεξεργάζεται~

Προσοχή

Αυτό το μεταδεδομένο είναι υποχρεωτικό μόνο για εργαλεία/υπηρεσίες.

Πρόκειται για ένα σύνθετο μεταδεδομένο που συνεπάγεται την περιγραφή τεσσάρων άλλων μεταδεδομένων: input resource type (τύπος πόρου στην είσοδο του εργαλείου/υπηρεσίας), media type (τύπος μέσου), data format (μορφότυπο δεδομένων) and annotation type (τύπος επισημείωσης). Όλα αυτά τα στοιχεία παρέχουν τις απαραίτητες πληροφορίες σχετικά με τον πόρο που επεξεργάζεται ένα εργαλείο ή μία υπηρεσία.

../../_images/inputContentResource.png

Για τον πόρο που χρησιμοποιείται στην είσοδο του εργαλείου ή της υπηρεσίας, μια αναδυόμενη λίστα παρέχει τις τιμές που φαίνονται στην ακόλουθη εικόνα. Για να επιλέξετε μία από αυτές, κάντε κλικ στην τιμή.

../../_images/ProcessingResourceType.png

Το επόμενο πεδίο που πρέπει να συμπληρωθεί, απαιτεί πληροφορίες σχετικά με το μέσο του πόρου που χρησιμοποιείται. Και πάλι, κάντε κλικ σε μια τιμή για να την προσθέσετε.

../../_images/InputMediaType.png

Για το μορφότυπο (format) δεδομένων που ακολουθεί, πρέπει να πληκτρολογήσετε στο πλαίσιο για να εμφανιστούν οι τιμές που ταιριάζουν με τα κριτήριά σας και να παραλειφθούν όλες οι άλλες από την αναδυόμενη λίστα. Μόλις εντοπίσετε την κατάλληλη τιμή, κάντε κλικ πάνω της.

../../_images/InputFormat.png

Τέλος, εάν ο πόρος που χρησιμοποιείται ως είσοδος στο εργαλείο ή την υπηρεσία είναι επισημειωμένος, πρέπει να δηλώσετε τον τύπο επισημείωσης. Για άλλη μια φορά, αρχίστε να πληκτρολογείτε στο πλαίσιο για να εμφανιστούν οι πιθανές αντίστοιχες τιμές. Επιλέξτε μια από αυτές κάνοντας κλικ πάνω της.

../../_images/InputAnnotationType.png

Το μεταδεδομένο inputContentResource βρίσκεται στην ενότητα Tool/Service (καρτέλα Technical) του περιβάλλοντος τεκμηρίωσης και ανάρτησης πόρων.

../../_images/inputContentEditor.png
  • Δείτε την λεπτομερή αναπαράσταση του στοιχείου inputContentResource στο XSD

1

Οι αγγλικοί όροι που αναφέρονται στο περιβάλλον τεκμηρίωσης και ανάρτησης πόρων (metadata editor και editor) χρησιμοποιούνται εναλλακτικά χωρίς διαφορά στη σημασία.

2

Δείτε τις συγκεκριμένες οδηγίες για τη δημιουργία έκδοσης .

3

Το μεταδεδομένο anonymized (ανωνυμοποιημένο) ανήκει στα μεταδεδομένα που είναι υπό συνθήκη υποχρεωτικά, η αναγκαιότητα των οποίων εξαρτάται από τις τιμές άλλων μεταδεδομένων που παρέχει ο χρήστης, όπως η απάντηση «ναι» στην ερώτηση σχετικά με την ύπαρξη προσωπικών ή/και ευαίσθητων προσωπικών δεδομένων σε έναν πόρο.

4

Η διαφορά μεταξύ του συστήματος τύπων (typesystem) και του σχήματος επισημείωσης (annotation scheme) βασίζεται στο αν χρησιμοποιούνται από εργαλεία ή ορίζονται από τους χρήστες: το σχήμα επισημείωσης περιέχει custom types (τροποποιημένους τύπους) ενώ το σύστημα τύπων χρησιμοποιείται κυρίως για ενσωματωμένους τύπους.

5

Η διαφορά μεταξύ ενός συστήματος τύπων (typesystem) και ενός συνόλου ετικετών (tagset) είναι ότι το σύστημα τύπων περιλαμβάνει μόνο τύπους επισημείωσης (π.χ. έναν τύπο επισημείωσης POS για την αναπαράσταση επισημειώσεων μερών του λόγου) ενώ το σύνολο ετικετών περιέχει έναν κατάλογο των έγκυρων τιμών ετικετών (π.χ. το Penn Treebank Tagset).

6

Η διαφορά μεταξύ του συστήματος τύπων (typesystem) και του σχήματος επισημείωσης (annotation scheme) βασίζεται στο αν χρησιμοποιούνται από εργαλεία ή ορίζονται από τους χρήστες: το σχήμα επισημείωσης περιέχει custom types (τροποποιημένους τύπους) ενώ το σύστημα τύπων χρησιμοποιείται κυρίως για ενσωματωμένους τύπους.