Обробка природних мов

Теми курсу

  • Sequential models (Hidden Markov Models, Conditional Random Fields)
  • Part-of-Speech tagging
  • Shallow syntactic parsing
  • Deep syntactic parsing
  • Knowledge representation (taxonomies, componential semantics, frame semantics, supersenses)
  • Text classification (supervised, weakly supervised, semi-supervised, and unsupervised)
  • Topic modeling
  • Word-sense disambiguation
  • Sentiment analysis
  • Machine translation
  • Grammatical inference
  • Word embeddings

Інструментарій

Python libraries (we will not be looking at all of these in detail but during the course we will be borrowing methods and classes from all of them):

  • NLTK
  • gensim (word2vec, topic modelling)
  • CLiPS pattern
  • sklearn
  • scipy
  • spacy
  • numpy

 

Raw text corpora (provided by lecturer)

  • Full list to be confirmed soon

 

Annotated corpora (provided by lecturer)

  • Crowdflower’s public sentiment analysis dataset
  • Word-sense-annotated corpus
  • PoS-tagged annotated corpus

Вимоги до попередніх знань

  • Good level of English.
  • Familiarity with mathematical notation and scientific formalization.
  • Familiarity with basic probability theory and Bayesian statistics.
  • Familiarity with basic concepts of information retrieval (precision and recall).
  • Strong problem formalization skills, particularly probabilistic factorization (for instance, as applied to a company’s expected sales volume: “if each unit sells for x euro, and y units are sold in a given period, if some ratio r1 of all units sold are returned, and if some ratio r2 are damaged, and if the actually sold items result in an average ratio r3 euro of additional sales per quarter, and if the bad reviews from damaged items result in an average ratio of r4 lost sales per quarter, what is the total expected profit for a quarter where 1,000 units were sold?”

 

Викладач

Jordi Carrera Ventura
Комп’ютерний лінгвіст з Барселони з багаторічним досвідом роботи над промисловими NLP задачами

Афіляція: Quarizmi AdTech / AAA Group / Sumplify, Catalonia, Spain

Розпочав кар’єру працюючи над автоматичним видобуттям знань та семантичною анотацією неструктурованих текстів задля покращення синтаксичного парсингу. Рік працював в американській компанії, яка займається машинним перекладом, де допомагав локалізувати технологію для іспанської мови.

Після того два роки працював над семантичним аналізом та класифікацією документів, де були використані алгоритми кластеризація для класифікації коротких текстів. Пізніше працював в одній великій корпорації, яка займається електронною торгівлею, та кількома меншими стартапами, розробляючи різні додатки від автоматичної перевірки граматики до лінгвістичного API загального призначення та аналітики рекламних повідомлень.

Більшість роботи сфокусована на використанні статистичних семантичних моделях та видобутті знань. Захоплюється перетворенням неструктурованих даних в структуровані.

Галузі професійних інтересів: Natural Language Understanding, Semantic Vector Space Models, Statistical Modelling, Syntactic Parsing, Chunking, Grammatical Inference, Clustering, Semantic Labeling, Taxonomies, Text Classification

Контактиes.linkedin.com/in/jordicarrera