Παραδείγματα μεταδεδομένων

In this chapter: metadata excerpts with their explanations, links to XSD and full XML metadata descriptions

Στόχος αυτής της ενότητας είναι να εξοικειωθούν οι χρήστες με τη χρήση των μεταδεδομένων. Για το σκοπό αυτό, έχουν εξαχθεί 1 περιγραφές πόρων από την υποδομή CLARIN:EL και από αυτές έχουν αντιγραφεί αποσπάσματα που έχουν ενδιαφέρον. Κάθε μεταδεδομένο παρουσιάζεται αυτοτελώς και στη συνέχεια επεξηγείται εν συντομία. Υπάρχουν επίσης σύνδεσμοι προς το πλήρες αρχείο μεταδεδομένων XML για όποιον επιθυμεί να δει που εντάσσεται το συγκεκριμένο μεταδεδομένο στο σύνολο της περιγραφής του πόρου και προς το XSD, όπου υπάρχει λεπτομερής αναπαράσταση του υπό εξέταση στοιχείου.

resourceName

Το πρώτο μεταδεδομένο είναι το resourceName από το Greek Parliament Plenary Sessions (1989-2019), μια συλλογή των πρακτικών της Ολομέλειας του Ελληνικού Κοινοβουλίου των τελευταίων 30 ετών (περισσότερες από 1.000.000 ομιλίες).

XML

<ms:resourceName xml:lang="en">Greek Parliament Plenary Sessions (1989-2019)</ms:resourceName>
<ms:resourceName xml:lang="el">Πρακτικά της Ολομέλειας του Ελληνικού Κοινοβουλίου (1989-2019)</ms:resourceName>

Όπως φαίνεται, είναι δυνατό να δοθεί το όνομα του πόρου σε περισσότερες από μία γλώσσες - η πρώτη γλώσσα, εξ ορισμού, είναι η αγγλική (xml:lang=»el»), ενώ η δεύτερη είναι ελεύθερη επιλογής. Εδώ η γλώσσα που επιλέγεται είναι η νέα ελληνική (xml:lang=»en»).


resourceCreator

Το δεύτερο απόσπασμα προέρχεται από την KELLY word-list, έναν μονόγλωσσο λεξικό/εννοιολογικό πόρο. Οι λίστες λέξεων KELLY δημιουργήθηκαν για να διευκολύνουν την εκμάθηση μιας ξένης/δεύτερης γλώσσας. Το ελληνικό μέρος δημιουργήθηκε από το Ινστιτούτο Επεξεργασίας Γλώσσας και Λόγου το οποίο είναι ένας οργανισμός.

XML

<ms:resourceCreator>
        <ms:Organization>
                <ms:actorType>Organization</ms:actorType>
                <ms:organizationName xml:lang="el">Ινστιτούτο Επεξεργασίας του Λόγου</ms:organizationName>
                <ms:organizationName xml:lang="en">Institute for Language and Speech Processing</ms:organizationName>
                <ms:website>http://www.ilsp.gr/</ms:website>
        </ms:Organization>
</ms:resourceCreator>

Οι απαραίτητες πληροφορίες σχετικά με τον δημιουργό περικλείονται μεταξύ των ετικετών resourceCreator. Αρχικά, ορίζεται ο τύπος του δημιουργού (actorType)- ένας πόρος μπορεί να έχει ως δημιουργό ένα άνθρωπο, μια ομάδα ανθρώπων ή έναν οργανισμό, όπως συμβαίνει στην περίπτωση του Kelly world-list. Στη συνέχεια παρέχεται το όνομα του οργανισμού (σε δύο γλώσσες, xml:lang=»el» και xml:lang=»en») καθώς και ο ιστότοπός του.


isPartOf

Το επόμενο παράδειγμα είναι από το Golden Part of Speech Tagged Corpus, ένα μονόγλωσσο επισημειωμένο σώμα κειμένων στα ελληνικά με 100.000 λέξεις. Το σώμα αυτό είναι υποσύνολο του Hellenic National Corpus που περιέχει περισσότερες από 97 εκατομμύρια λέξεις από διάφορες πηγές και διάφορους τομείς. Η σχέση υποσυνόλου εκφράζεται μέσω του μεταδεδομένου isPartOf στο σχήμα μεταδεδομένων CLARIN:EL.

XML

<ms:isPartOf>
        <ms:resourceName xml:lang="el">Ελληνικός Θησαυρός της Ελληνικής Γλώσσας</ms:resourceName>
        <ms:resourceName xml:lang="en">Hellenic National Corpus</ms:resourceName>
        <ms:LRIdentifier ms:LRIdentifierScheme="http://purl.org/spar/datacite/handle"
                >http://hdl.handle.net/11500/ATHENA-0000-0000-23E2-9</ms:LRIdentifier>
        <ms:version>3.0</ms:version>
</ms:isPartOf>

Το στοιχείο isPartOf περιλαμβάνει το όνομα του πόρου (resourceName) από τον οποίο έχει προκύψει ο υπό εξέταση πόρος, δηλαδή το Hellenic National Corpus, σε δύο γλώσσες (xml:lang=»el» και xml:lang=»en») μαζί με το αναγνωριστικό του (LRIdentifier) και την έκδοσή του (version).


annotationType

Η στοίχιση (alignment) είναι η διαδικασία που καθορίζει μεταφραστικές ισοδυναμίες μεταξύ δομικών μονάδων (λέξεις, προτάσεις κλπ.) ενός κειμένου σε μια δεδομένη γλώσσα και ενός κειμένου με παρόμοιο νόημα σε άλλη(-ες) γλώσσα(-ες). Το Greek-Bulgarian Bul-TM parallel corpus είναι ένα διγλωσσικό σώμα κειμένων και όπως υποδηλώνει το επίθετο παράλληλο, τα ελληνικά και τα βουλγαρικά έχουν στοιχηθεί.

XML

<ms:annotation>
        <ms:annotationType>http://w3id.org/meta-share/omtd-share/Alignment1</ms:annotationType>
        <ms:segmentationLevel>http://w3id.org/meta-share/meta-share/sentence</ms:segmentationLevel>
        <ms:annotationStandoff>false</ms:annotationStandoff>
        <ms:annotationMode>http://w3id.org/meta-share/meta-share/automatic</ms:annotationMode>
        <ms:isAnnotatedBy>
                <ms:resourceName xml:lang="en">TrAid</ms:resourceName>
                <ms:version>unspecified</ms:version>
        </ms:isAnnotatedBy>
</ms:annotation>

Η στοίχιση θεωρείται ένας τύπος annotation (επισημείωσης). Οι δύο γλώσσες έχουν παραλληλοποιηθεί σε επίπεδο πρότασης (segmentationLevel) και δεν υπάρχουν ξεχωριστά έγγραφα (annotationStandoff) με περιεχόμενο στην κάθε γλώσσα. Η διαδικασία έχει γίνει αυτόματα (annotationMode)- το εργαλείο που χρησιμοποιήθηκε για την στοίχιση (isAnnotatedBy) ονομάζεται TrAid αλλά δεν υπάρχει διαθέσιμη έκδοση (unspcified).


multilingualityType

Το DICTA-SIGN corpus είναι ένα πολυμεσικό σώμα κειμένων, αποτελούμενο από δύο τμήματα (ένα βίντεο και ένα κείμενο), για τέσσερις νοηματικές γλώσσες (αγγλικά, γαλλικά, γερμανικά και ελληνικά).

XML

<ms:multilingualityType>http://w3id.org/meta-share/meta-share/parallel</ms:multilingualityType>
        <ms:language>
                <ms:languageTag>gss</ms:languageTag>
                <ms:languageId>gss</ms:languageId>
        </ms:language>
        <ms:language>
                <ms:languageTag>bfi</ms:languageTag>
                <ms:languageId>bfi</ms:languageId>
        </ms:language>
        <ms:language>
                <ms:languageTag>gsg</ms:languageTag>
                <ms:languageId>gsg</ms:languageId>
        </ms:language>
        <ms:language>
                <ms:languageTag>fsl</ms:languageTag>
                <ms:languageId>fsl</ms:languageId>
        </ms:language>

Κάθε τμήμα του σώματος κειμένων περιγράφεται ξεχωριστά. Αυτό το απόσπασμα περιγράφει το περιεχόμενο του τμήματος του πόρου που είναι για το βίντεο. Οι γλώσσες στο βίντεο είναι νοηματικές γλώσσες και είναι παραλληλοποιημένες όπως υποδεικνύεται από την επιλογή της τιμής parallel για το στοιχείο multilingualityType. Στη συνέχεια, κάθε γλώσσα (language) παρουσιάζεται ξεχωριστά με την ετικέτα της (languageTag) και το αναγνωριστικό της (languageId): gss (Greek Sign Language/Ελληνική Νοηματική Γλώσσα), bfi (British Sign Language/Βρετανική Νοηματική Γλώσσα), gsg (German Sign Language/Γερμανική Νοηματική Γλώσσα) και fsl (French Sign Language/Γαλλική Νοηματική Γλώσσα).


isDocumentedBy

Μερικές φορές υπάρχουν επιπλέον πληροφορίες για έναν πόρο σε εξωτερικά έγγραφα, όπως άρθρα ή/και ανακοινώσεις συνεδρίων. Τέτοια είναι η περίπτωση του Orossimo Terminological Resource - History που τεκμηριώνεται στο Collection of digital terminological resources: methodology and results.

XML

<ms:isDocumentedBy>
                <ms:title xml:lang="el">Συλλογή ηλεκτρονικών ορολογικών πόρων: μεθοδολογία και αποτελέσματα</ms:title>
                <ms:title xml:lang="en">Collection of digital terminological resources: methodology and results</ms:title>
</ms:isDocumentedBy>

fundingProject

Το ακόλουθο παράδειγμα είναι πιο σύνθετο, καθώς περιλαμβάνει διάφορα μεταδεδομένα. Είναι από το Trilingual Terminological Dictionary, έναν λεξικό/εννοιολογικό πόρο με τριπλό στόχο: να βοηθήσει τους μαθητές στην εκμάθηση των μαθημάτων του προγράμματος σπουδών, στη βελτίωση των γλωσσικών τους δεξιοτήτων στην ελληνική γλώσσα και στην εξοικείωση με την τεχνολογία της πληροφορίας.

XML

<ms:fundingProject>
        <ms:projectName xml:lang="el">Τρίγλωσσο Ορολογικό Λεξικό</ms:projectName>
        <ms:projectName xml:lang="en">Trilingual Terminological Dictionary</ms:projectName>
        <ms:website>https://bit.ly/2V4hWLe</ms:website>
        <ms:website>https://www.ilsp.gr/projects/tol/</ms:website>
        <ms:fundingType>http://w3id.org/meta-share/meta-share/euFunds</ms:fundingType>
        <ms:fundingType>http://w3id.org/meta-share/meta-share/nationalFunds</ms:fundingType>
        <ms:funder>
                <ms:Organization>
                        <ms:actorType>Organization</ms:actorType>
                        <ms:organizationName xml:lang="en">Ministry of Education and Religious Affairs</ms:organizationName>
                </ms:Organization>
        </ms:funder>
        <ms:funder>
                <ms:Organization>
                        <ms:actorType>Organization</ms:actorType>
                        <ms:organizationName xml:lang="el">Ευρωπαϊκή Επιτροπή</ms:organizationName>
                        <ms:organizationName xml:lang="en">European Commission</ms:organizationName>
                        <ms:website>https://ec.europa.eu/info/index_en</ms:website>
                </ms:Organization>
        </ms:funder>
</ms:fundingProject>

Ο πόρος είναι το αποτέλεσμα ενός έργου (fundingProject) με το ίδιο όνομα (projectName), Trilingual Terminological Dictionary. Οι πληροφορίες που παρέχονται για το έργο είναι οι διαθέσιμες ιστοσελίδες (websites), ο τύπος χρηματοδότησης (fundingType) και οι χρηματοδότες (funders). Το έργο δημιουργήθηκε με ευρωπαϊκούς και εθνικούς πόρους, ενώ το χρηματοδότησαν δύο οργανισμοί, το Υπουργείο Παιδείας και Θρησκευμάτων και η Ευρωπαϊκή Επιτροπή.


inputContentResource

Το ακόλουθο απόσπασμα XML παρέχει πληροφορίες σχετικά με τα μορφότυπα δεδομένων που δέχονται στην είσοδό τους τα Voyant Tools, ένα διαδικτυακό περιβάλλοντος γλωσσικής ανάλυσης.

XML

<ms:inputContentResource>
        <ms:processingResourceType>http://w3id.org/meta-share/meta-share/corpus</ms:processingResourceType>
        <ms:mediaType>http://w3id.org/meta-share/meta-share/text</ms:mediaType>
        <ms:dataFormat>http://w3id.org/meta-share/omtd-share/Pdf</ms:dataFormat>
        <ms:dataFormat>http://w3id.org/meta-share/omtd-share/Rtf</ms:dataFormat>
        <ms:dataFormat>http://w3id.org/meta-share/omtd-share/Xml</ms:dataFormat>
        <ms:dataFormat>http://w3id.org/meta-share/omtd-share/ConllU</ms:dataFormat>
        <ms:dataFormat>http://w3id.org/meta-share/omtd-share/Html</ms:dataFormat>
</ms:inputContentResource>

Τα Voyant tools μπορούν να επεξεργαστούν, λαμβάνοντας στην είσοδό τους (inputContentResource), σώματα κειμένων (processingResourceType) των οποίων τα μορφότυπα (dataFormat) είναι plain text, PDF, RTF, XML, ConllU και HTML.


outputResource

Στο επόμενο απόσπασμα παρουσιάζεται η έξοδος του εργαλείου ILSP Language Identification System.

XML

            <ms:outputResource>
        <ms:processingResourceType>http://w3id.org/meta-share/meta-share/corpus</ms:processingResourceType>
        <ms:language>
            <ms:languageTag>el-Latn</ms:languageTag>
            <ms:languageId>el</ms:languageId>
            <ms:scriptId>Latn</ms:scriptId>
            <ms:languageVarietyName xml:lang="en">Greeklish</ms:languageVarietyName>
        </ms:language>
        <ms:language>
            <ms:languageTag>el-Grek</ms:languageTag>
            <ms:languageId>el</ms:languageId>
            <ms:scriptId>Grek</ms:scriptId>
        </ms:language>
        <ms:language>
            <ms:languageTag>fr</ms:languageTag>
            <ms:languageId>fr</ms:languageId>
        </ms:language>
        <ms:language>
            <ms:languageTag>en</ms:languageTag>
            <ms:languageId>en</ms:languageId>
        </ms:language>
        <ms:language>
            <ms:languageTag>de</ms:languageTag>
            <ms:languageId>de</ms:languageId>
        </ms:language>
        <ms:language>
            <ms:languageTag>nl</ms:languageTag>
            <ms:languageId>nl</ms:languageId>
        </ms:language>
        <ms:mediaType>http://w3id.org/meta-share/meta-share/text</ms:mediaType>
</ms:outputResource>

Αυτό το εργαλείο αναγνωρίζει γλώσσες όπως τα greeklish, ελληνικά, αγγλικά, γερμανικά, ολλανδικά και γαλλικά. Τα greeklish, όπως φαίνεται στο παραπάνω απόσπασμα, είναι μια ποικιλία (languageVarietyName) της ελληνικής γλώσσας: η γλώσσα (languageId) ορίζεται ως η ελληνική (el) αλλά η γραφή (criptId) γίνεται με το λατινικό (Latn) αλφάβητο.


attributionText

Το τελευταίο παράδειγμα παρουσιάζει το κείμενο αναφοράς δημιουργού (attributionText) ενός πόρου γλωσσικής περιγραφής, του PANACEA Environment Corpus n-grams EL.

XML

<ms:attributionText xml:lang="el">PANACEA σώμα ελληνικών n-γραμμάτων (n-grams) περιβαλλοντικού τομέα. Δημιουργός:
Ινστιτούτο Επεξεργασίας του Λόγου - Ερευνητικό Κέντρο Αθηνά. Άδεια: Creative Commons Attribution Share Alike 4.0
International (https://creativecommons.org/licenses/by-sa/4.0/legalcode,
https://creativecommons.org/licenses/by-sa/4.0/). Πηγή: http://hdl.handle.net/11500/ATHENA-0000-0000-23DA-3
(CLARIN:EL)</ms:attributionText>
<ms:attributionText xml:lang="en">PANACEA Environment Corpus n-grams EL (Greek) by Institute for Language and Speech
Processing - Athena Research Center used under Creative Commons Attribution Share Alike 4.0 International
(https://creativecommons.org/licenses/by-sa/4.0/legalcode, https://creativecommons.org/licenses/by-sa/4.0/). Source:
http://hdl.handle.net/11500/ATHENA-0000-0000-23DA-3 (CLARIN:EL)</ms:attributionText>

Η άδεια χρήσης του πόρου είναι η CC-BY-SA 4.0 International. «Αυτή η άδεια επιτρέπει σε άλλους να επαναχρησιμοποιούν, να προσαρμόζουν και να αξιοποιούν το έργο σας ακόμη και για εμπορικούς σκοπούς, αρκεί να σας αναφέρουν και να αδειοδοτούν τις νέες τους δημιουργίες με τους ίδιους όρους. Αυτή η άδεια συγκρίνεται συχνά με τις άδειες ελεύθερου και ανοικτού λογισμικού «copyleft». Όλα τα νέα έργα που βασίζονται στο δικό σας θα φέρουν την ίδια άδεια, οπότε οποιαδήποτε παράγωγα θα επιτρέπουν επίσης την εμπορική χρήση.» 2 Η αναφορά δημιουργού εξυπηρετεί αυτόν ακριβώς τον σκοπό, καθώς παρέχει σε κάποιον κείμενο που περιέχει τις πληροφορίες για τον δημιουργό του πόρου, το Institute for Language and Speech Processing - Athena Research Center και την άδεια χρήσης με την οποία θα διανέμεται ο πόρος και όλα τα παράγωγά του.

1

Αυτές οι ετικέτες έρχονται σε ζεύγη - οι ετικέτες έναρξης και λήξης είναι πανομοιότυπες εκτός από το σύμβολο /.

2

Περισσότερες πληροφορίες στον ιστότοπο του Creative Commons.