ReTeRom

Resurse și Instrumente

Lexiconul RoLEX
Lexiconul dezvoltat în cadrul proiectului ReTeRom, RoLEX, este o resursă cu 330.866 intrări în formatul tabular de mai jos:
forma lema eticheta_MSD silabificare accent transcriere_fonetică
Este o resursă validată și corectată manual și reprezintă cel mai extins lexicon fonologic validat disponibil pentru limba română.

RoLEX a fost dezvoltat pe baza componentei textuale a unui corpus de vorbire ce conține date provenind din: articole din Wikipedia românească, știri, interviuri pe subiecte de actualitate, talk show-uri, vorbire spontană, basme, romane, etc. Completarea intrărilor cu informație morfosintactică și de lemă s-a făcut folosind un lexicon general de mari dimensiuni (peste 1.1 milioane de intrări) aflat în dezvoltare la ICIA, denumit TBL.TBL a fost folosit de asemenea pentru a include în RoLEX toate variantele morfologice ale lemelor din corpusul de vorbire. Informația lexicală de silabificare, accent și transcriere fonetică se bazează parțial pe RoSyllabiDict (Barbu, 2008) și MaRePhor (Toma et al., 2017), și este parțial prezisă automat cu instrumentul dezvoltat în (Stan et al. 2011). Lexiconul care agregă toate aceste informații a trecut printr-un proces atent organizat de corectură, manuală și automată (acolo unde reguli au putut fi implementate).

Bibliography
1. Barbu, Ana-Maria. "Romanian Lexical Data Bases: Inflected and Syllabic Forms Dictionaries." LREC (2008)
2. Stan, Adriana, Junichi Yamagishi, Simon King, and Matthew Aylett. „The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate” In Speech Communication vol.53 442-450. (2011)
3. Toma, Ştefan-Adrian, et al. "MaRePhoR—An open access machine-readable phonetic dictionary for Romanian." 2017 International Conference on Speech Technology and HumanComputer Dialogue (SpeD). IEEE. (2017)

Liste de entități numite (NEs)
Listele NEs conțin nume proprii (simple și compuse) distribuite astfel:

15.944 de nume de persoană (prenume, nume de familie),

5.336 de nume de localități și

6.441 de nume de firme/entități juridice/instituții.

Fiecare tip de NE este inclus in fișierul corespunzător, care are un nume sugestiv.
Listele sunt cuprinzătoare, dar nu exhaustive.

La crearea lor a contribuit și Diana Popescu, în cadrul unui stagiu efectuat în primăvara anului 2020, la ICIA.

Platforma dockerizată de prelucrare a textelor în limba română TEPROLIN
TEPROLIN este un modul Python 3 care standardizează interoperabilitatea diferitelor sisteme de prelucrare a textelor românești. În versiunea sa actuală, disponibilă pe GitHub, TEPROLIN este capabil să efectueze 15 operații de prelucrare a textelor românești, cu determinarea automată a dependențelor lanțului de prelucrare (de exemplu adnotarea cu etichete morfo-sintactice necesită segmentarea frazei la nivel de unitate lexicală). Pe lângă adnotări cum ar fi analiza cu relații de dependență sintactică sau recunoașterea entităților denumite, TEPROLIN oferă și prelucrări care sunt utilie sistemelor de procesare a limbii române vorbite cum ar fi transcrierea fonetică sau detectarea silabei accentuate. Platforma de prelucrare a textelor românești TEPROLIN este disponibilă acum și într-un container Docker care poate fi descărcat gratuit de pe Docker Hub.

Referințe bibliografice:
Radu Ion. (2018). TEPROLIN: An Extensible, Online Text Preprocessing Platform for Romanian. In Proceedings of the 13th International Conference CONSILR 2018, Iași, November 22-23.
Vasile Păiș, Radu Ion and Dan Tufiș. (2020). A Processing Platform Relating Data and Tools for Romanian Language. In Proceedings of the 1st International Workshop on Language Technology Platforms (IWLTP 2020), European Language Resources Association (ELRA), Georg Rehm et al. (eds.), pp. 81-88 - indexed by DBLP and ISI Web of Science.