Skip to content

LUMII-AILab/NLP_Course

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Praktiskie darbi valodu tehnoloģijās

LU Eksakto zinātņu un tehnoloģiju fakultātes Datorikas nodaļas bakalaura un maģistra studiju programmas kursi:

  • BSP: Valodu tehnoloģiju pamati (DatZB022-LV, DatZB022-EN)
  • MSP: Valodu tehnoloģiju lietojumi (DatZM037)

Kursā izmantotie termini; sk. arī Termini.gov.lv.

BSP praktiskie darbi

Rīkkopas valodas resursu priekšapstrādei

  1. Teksta izgūšana: TextExtraction.ipynb
  2. Teksta priekšapstrāde: TextPreprocessing.ipynb
  3. Dinamiski ielādēta daudzvalodu satura apstrāde: DW_scrape.ipynb

Galīgie automāti un pārveidotāji

  1. Morfoloģiskā analīze un sintēze: HFST.ipynb, HFST_en_and_more.ipynb
  2. Teksta izvēršana un savēršana: Thrax.ipynb, Pynini.ipynb

Gramatiskā analīze

  1. Latviešu valodas morfoloģiskais analizators un sintezators: TezaursAPI.ipynb
  2. Rīkkopas universālo atkarību parsēšanai: ParsingUD.ipynb

Statistiskie valodas modeļi

  1. N-grammu modeļi: NGram.ipynb
  2. TF-IDF : tf-idf.ipynb un Word2vec apmācība un lietojums: Word2vec.ipynb
  3. Teksta klasificēšana: LangID.ipynb, NaiveBayes.ipynb

Dr. Christos A. Frantzidisvies (Linkolnas Universitātes) lekcijas piemērs par teksta klasifikāciju: https://github.com/cfrantzidis/sleepCare

Neironu valodas modeļi

  1. Teksta klasificēšana: fastText.ipynb (1-layer, linear) → BERT.ipynb (deep, non-linear)
  2. Modeļi un demonstrācijas Hugging Face platformā:
  1. Vārdšķiru un morfoloģiskā marķēšana (Part of Speech (POS) Tagging): POS_tagging.ipynb
  2. Nosaukto entitāšu marķēšana (Named entity recognition): NER.ipynb

MSP praktiskie darbi

Kodētāju un kodētāju-dekodētāju izmantošana, pielāgošana

  1. Teksta klasificēšana ar BERT: TextClassificationWithBERT.ipynb
  2. Tekstvienību klasificēšana ar BERT, T5 - interpunkcijas uzdevums: bert_punctuation.ipynb, seq2seq_punctuation.ipynb
  3. Tekstvienību pozicionālā kodēšana: positional_encoding.ipynb
  4. BERT jēdzienvektoru dimensiju reducēšana, vizualizēšana: PCA_of_BERT_embeddings.ipynb

LLM izmantošana, pielāgošana, novērtēšana

  1. LLM darbināšana, izmantojot Ollama: ollama_LLMs_prompting.ipynb
  2. LLM novērtēšana - etalonuzdevumi: evaluation.ipynb
  3. LLM novērtēšana - perpleksitāte: llm_perplexity.ipynb
  4. Multimodālu tiešraides komentāru ģenerēšana: live_commentary_demo.ipynb
  5. LLM aģenti - ārēju rīku izsaukšana: LLM_ToolCalling.ipynb
  6. LLM aģenti - "vibe coding": LLM_VibeCode.ipynb
  7. RAG demonstrācija: RAG_demo.ipynb

ASR modeļu izmantošana, novērtēšana

  1. Eksperimenti latviešu valodā: speech_recognition.ipynb
  2. Valodas atpazīšana (klasificēšana): spoken_language_recognition.ipynb

Citi praktiskie darbi

  1. Introduction: slides
  2. Hands-on session: notebook (draft)
  3. Initial results: corpus (draft)

Ievads datorlingvistikā (SDSKM018)

LU HZF maģistra studiju programmas kurss:

  1. Teksta korpusa izveide: notebook
  2. Teksta korpusa marķēšana: notebook, korpuss

Autori

prof. Inguna Skadiņa
prof. Normunds Grūzītis
Viesturs Jūlijs Lasmanis
Artūrs Znotiņš
Roberts Darģis
Paulis Filips Bārzdiņš

Atbalsts

Kursa izstrādi finansē Eiropas Savienības Atveseļošanas un noturības mehānisma investīcija un valsts budžets projekta “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002) ietvaros.

About

Studiju kursu "Valodu tehnoloģiju pamati" un "Valodu tehnoloģiju lietojumi" praktisko darbu materiāli

Resources

License

Stars

Watchers

Forks

Contributors 5