Αρχική σελίδα » Greek Corpus 20

Greek Corpus 20

 

Το πρόγραμμα περιλαμβάνει τη συγκρότηση και ανάλυση ενός διαχρονικού σώματος κειμένων της Ελληνικής του 20ού αιώνα και εντάσσεται στο ευρύτερο ερευνητικό πεδίο της ανάπτυξης και αξιοποίησης γλωσσικών σωμάτων κειμένων. Βασικός σκοπός του είναι η ανάπτυξη ενός σώματος κειμένων της Ελληνικής 20 εκατ. λέξεων, που θα ενσωματωθεί στο προϋπάρχον Σώμα Ελληνικών Κειμένων (ΣΕΚ, 30 εκατ. λέξεις, κείμενα από το 1990 έως το 2010).

Οι κύριοι στόχοι του προγράμματος είναι:

  • η εξέταση των ζητημάτων δημιουργίας ενός διαχρονικού σώματος κειμένων, ειδικά για τα Ελληνικά, που άπτονται ευρύτερων κοινωνιογλωσσικών θεμάτων (π.χ. διγλωσσία, πολυτονικό-μονοτονικό κ.λπ.),
  • η διερεύνηση σχετικών πηγών και η συλλογή δεδομένων για τη δημιουργία ενός διαχρονικού σώματος κειμένων της Ελληνικής του 20ου αι., που θα είναι ελεύθερα διαθέσιμο,
  • η ανάλυση του σώματος κειμένων με στόχο την εξαγωγή προκαταρκτικών συμπερασμάτων για την πρόσφατη γλωσσική αλλαγή στη διάρκεια των δεκαετιών του περασμένου αιώνα.

Ευρύτερα, το πρόγραμμα αποσκοπεί στο να συμβάλει:

  • στη διατήρηση γλωσσικών και ιστορικών (προφορικών και γραπτών) δεδομένων που αποτελούν μέρος της ελληνικής πολιτισμικής κληρονομιάς,
  • στη δημιουργία μιας ολοκληρωμένης και αντιπροσωπευτικής συλλογής κειμένων ως βάσης για την ασφαλή γλωσσολογική έρευνα, με προεκτάσεις τόσο την ελληνική όσο και τη διεθνή ερευνητική κοινότητα, και
  • στη συνεργασία μεταξύ διαφορετικών ερευνητικών περιοχών όπως λ.χ. της στατιστικής, της κοινωνιολογίας, των εφαρμογών της πληροφορικής κ.ά., στην ανάπτυξη γλωσσολογικών υποθέσεων και την εξαγωγή συμπερασμάτων.

 

Ερευνητικό υπόβαθρο:

Η γλωσσολογία σωμάτων κειμένων έχει βελτιώσει σε τεράστιο βαθμό την περιγραφή της γλώσσας με την πρόσβαση σε μεγάλες συλλογές αυθεντικών κειμένων. Οι εφαρμογές της εκτείνονται από τη λεξικογραφία και τη συγγραφή γραμματικών έως τη μετάφραση, τη διδασκαλία της γλώσσας, τη μελέτης της γλώσσας και της ιδεολογίας, τη λεξική σημασιολογία, κ.λπ. (βλ., μεταξύ άλλων, Hunston 2002: 13-14, Meyer 2002: 1-29, Baker et al. 2006). Σε αντίθεση με άλλες γλώσσες, η Ελληνική δεν έχει επωφεληθεί στο μέγιστο βαθμό από την ανάπτυξη της γλωσσολογίας σωμάτων κειμένων. Μόνο δύο βασικά σώματα αναφοράς έχουν δημιουργηθεί έως τώρα, ο ΕΘΕΓ με 47 εκατ. λέξεις (κείμενα από το 1976 έως το 2007) και το ΣΕΚ με 30 εκατ. λέξεις (κείμενα από τις δεκαετίες του 1990 και του 2000) (βλ. Χατζηγεωργίου κ.ά. 2001 και Goutsos 2010 αντίστοιχα). Και τα δύο είναι συγχρονικά σώματα κειμένων, καθώς παρέχουν μια εικόνα μιας συγκεκριμένης περιόδου της ελληνικής γλώσσας.

Το πρόγραμμα Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα στοχεύει να καλύψει την ανάγκη για διαχρονική μελέτη της Ελληνικής με την ανάπτυξη ενός σώματος κειμένων 20 εκατ. λέξεων για τις πρώτες εννέα δεκαετίες του 20ού αιώνα, που θα ενσωματωθούν με τις 30 εκατ. λέξεις του Σώματος Ελληνικών Κειμένων (ΣΕΚ). Το σώμα κειμένων σχεδιάζεται με σκοπό τη μελέτη περιοχών της πρόσφατης γραμματικής και λεξιλογικής αλλαγής στα Ελληνικά μέσω της ανάλυσης αυθεντικών κειμένων (βλ. σχετικά Mair 2009: 1120, Davies 2011, 2012).

Ιστορικά ή διαχρονικά σώματα κειμένων έχουν δημιουργηθεί ή βρίσκονται υπό προετοιμασία για άλλες γλώσσες ή γλωσσικές ποικιλίες λ.χ. το Helsinki Corpus of English Texts, που καλύπτει διάφορες περιόδους της Αγγλικής, το Corpus of Historical English Registers (ARCHER), που περιλαμβάνει κείμενα της Βρετανικής και Αμερικανικής Αγγλικής από το 1650 έως σήμερα, τα τέσσερα σώματα κειμένων Brown, Frown, LOB και FLOB, που προσφέρουν στοιχεία για τη γλωσσική αλλαγή μεταξύ 1961 και 1991-1992, τα COHA και COCA για την Αμερικανική Αγγλική, το DiaCoris για την Ιταλική κ.λπ. (Για περισσότερες λεπτομέρειες βλ. Onelli et al. 2006, Beal et al. 2007, Mair 2009, Baker 2010: 57 κ.εξ., Partington 2010, Aarts et al. 2013). Η Ελληνική δεν διαθέτει ένα παρόμοιο διαχρονικό σώμα κειμένων για διάφορους λόγους που περιλαμβάνουν και τη συλλογή δεδομένων. Εξωγλωσσικοί παράγοντες όπως οι ιστορικο-κοινωνικές συνθήκες της Ελλάδας τον 20ό αιώνα ερμηνεύουν την έλλειψη δεδομένων ή την παρουσία ελάχιστων δεδομένων για ορισμένες περιόδους. Επιπρόσθετα, γλωσσικοί παράγοντες όπως η επίμονη διγλωσσία, που συνδέεται με σημαντικά κοινωνικο-ιστορικά γεγονότα στη διάρκεια του 20ού αιώνα, περιπλέκουν τα ζητήματα της συλλογής και ανάλυσης δεδομένων.

Το πρόγραμμα θα διερευνήσει αρχικά τα ζητήματα που συνδέονται με τη διαθεσιμότητα δεδομένων, τα οποία είναι απαραίτητα για τη σχεδίαση καταρχάς ενός πιλοτικού σώματος κειμένων. Το πιλοτικό αυτό σώμα κειμένων θα αποτελέσει τη βάση για το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα, που θα συνδυαστεί με το ΣΕΚ στην έρευνα της γλωσσικής αλλαγής σε διάφορα επίπεδα. Η δημιουργία του σώματος κιειμένων θα συνοδευτεί από την ανάλυση συγκεκριμένων πτυχών της γλωσσικής αλλαγής όπως η μελέτη των νεολογισμών (πρβλ. Fischer 1998: 10), η παραγωγική μορφολογία στην εξέλιξή της (πρβλ. Baayen & Renouf 1996), η συντακτική και λεξιλογική αλλαγή. Πρόθεση του προγράμματος είναι η παραγωγή έρευνας που θα συνδέσει την Ελληνική με τις σύγχρονες εξελίξεις στη γλωσσολογία σωμάτων κειμένων και θα προωθήσει τη διεθνή συνεργασία στα σχετικά ζητήματα.

Το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα έχει σχεδιαστεί ώστε να είναι ελεύθερα διαθέσιμο σε όλους τους ερευνητές της γλωσσικής αλλαγής.

 

Δομή του προγράμματος:

Οι βασικές αρχές της οργάνωσης του προγράμματος περιλαμβάνουν την επαναλαμβανόμενη αξιολόγηση και τη διεθνή συνεργασία. Για το λόγο αυτό θα δημιουργηθεί ένα πιλοτικό σώμα κειμένων, τα συμπεράσματα από την αξιολόγηση του οποίου θα οδηγήσουν στη δημιουργία του τελικού σώματος κειμένων. Επιπλέον, δύο ενότητες εργασίας αφιερώνονται στην αξιολόγηση του σώματος κειμένων και τη δημιουργία δικτύου ερευνητών στην Ελλάδα και το εξωτερικό μέσω της οργάνωσης εργαστηρίων.

            Ειδικότερα, προβλέπονται οι ακόλουθες ενότητες εργασίας

ΕΕ1: Σχεδιασμός του προγράμματος και επισκόπηση της βιβλιογραφίας για τη δημιουργία διαχρονικών σωμάτων κειμένων.

ΕΕ2: Διοργάνωση διεθνούς ημερίδας για τη δημιουργία και ανάλυση διαχρονικών σωμάτων κειμένων με στόχο τη διατύπωση βασικών αρχών.

ΕΕ3: Οργάνωση ημερίδας για τους γλωσσικούς πόρους της Ελληνικής.

ΕΕ4: Σχεδιασμός και δημιουργία του πιλοτικού σώματος κειμένων.

ΕΕ5: Αξιολόγηση του πιλοτικού σώματος κειμένων.

ΕΕ6: Σχεδιασμός και δημιουργία του Διαχρονικού Σώματος Ελληνικών Κειμένων του 20ού αιώνα

ΕΕ7: Αξιολόγηση του Διαχρονικού Σώματος Ελληνικών Κειμένων του 20ού αιώνα.

ΕΕ8: Ανάλυση των κύριων γραμματικών και λεξιλογικών πτυχών της γλωσσικής αλλαγής στα Ελληνικά με βάση το διαχρονικό σώμα κειμένων.

ΕΕ9: Σχεδιασμός της ιστοσελίδας του προγράμματος και των βασικών εργαλείων.

ΕΕ10: Διάχυση των αποτελεσμάτων και διάθεση του σώματος κειμένων από την ιστοσελίδα του προγράμματος.

            Τα παραδοτέα του προγράμματος περιλαμβάνουν τη διοργάνωση δύο εργαστηρίων, το ίδιο το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα με πρόσβαση από εξειδικευμένη ιστοσελίδα και ερευνητικά άρθρα και σημειώσεις της ερευνητικής ομάδας για την πρόσφατη αλλαγή στα Ελληνικά, καθώς και ζητήματα δημιουργίας και αξιολόγησης γλωσσικών πόρων.

 

Βιβλιογραφία

Aarts, B., Close, J., Leech, G. & Wallis, S. (eds) (2013). The Verb Phrase in English: Investigating Recent Language Change with Corpora. Cambridge: Cambridge University Press.

Baayen, H. R. & Renouf, A. (1996). Chronicling the Times: Productive lexical innovations in an English newspaper. Language 72 (1), 69-96.

Baker, P. (2010). Sociolinguistics and Corpus Linguistics.Edinburgh:EdinburghUniversity Press.

Baker, P., Hardie, A. & McEnery, T. (2006). A Glossary of Corpus Linguistics.Edinburgh:EdinburghUniversity Press.

Beal, J., Corrigan, K. & Moisl, H. (eds) (2007). Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan.

Davies, M. (2012). Examining recent changes in English: Some methodological issues. In T. Nevalainen & E. Closs Traugott (eds) The Oxford Handbook of the History of English. Oxford: Oxford University Press, 263-287.

Davies, M. (2011). Synchronic and diachronic uses of corpora. In V. Viana, S. Zyngier & G. Barnbrook (eds) Perspectives on Corpus Linguistics. Amsterdam/Philadelphia: John Benjamins, 63-80.

Fischer, R. (1998). Lexical Change in Present-Day English. A Corpus Study of the Motivation, Institutionalization, and Productivity of Creative Neologisms. Tübingen: Gunter Narr.

Goutsos, D. (2010). The Corpus of Greek Texts: a reference corpus for Modern Greek. Corpora 5 (1), 29-44.

Χατζηγεωργίου, Ν., Σπηλιωτοπούλου, Α., Βακαλοπούλου, Ά., Παπακωστοπούλου, Α., Πιπερίδης, Σ., Γαβριηλίδου, Μ. & Καραγιάννης, Γ. (2001). Εθνικός θησαυρός ελληνικών κειμένων (ΕΘΕΓ): Σώμα κειμένων της νέας ελληνικής στο διαδίκτυο. Μελέτες για την Ελληνική Γλώσσα. Πρακτικά της 21ης Ετήσιας Συνάντησης του Τομέα Γλωσσολογίας της Φιλοσοφικής Σχολής του Αριστοτέλειου Πανεπιστήμιου Θεσσαλονίκης. Θεσσαλονίκη: Τομέας Γλωσσολογίας της Φιλοσοφικής Σχολής του Αριστοτέλειου Πανεπιστήμιου Θεσσαλονίκης, 812-821.

Hunston, S. (2002). Corpora in Applied Linguistics.Cambridge:CambridgeUniversity Press.

Mair, C. (2009). Corpora and the study of recent change in language. In A. Lüdeling & M. Kytö (eds) Corpus Linguistics. An International Handbook. Volume 2.Berlin/New York: Walter de Gruyter, 1109-1125.

Meyer, C. F. (2002). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

Onelli, C. Proietti, D. Seidenari C. & F. Tamburini (2006). The DiaCORIS project: A diachronic corpus of written Italian        Proceedings of the 5th International Conference on Language Resources and Evaluation, LREC 2006, Genoa. Available at: http://hnk.ffzg.hr/bibl/lrec2006/pdf/611_pdf.pdf.

Partington, A. (2010). Modern Diachronic Corpus-Assisted Discourse Studies (MD-CADS) on UK newspapers: An overview of the project. Corpora 5 (2), 83-108.