План курса "Анализ лингвистических данных: квантитативные методы и визуализация"

НИУ ВШЭ, магистратура "Теория языка и компьютерная лингвистика"
Авторы: Илья Щуров, Ольга Ляшевская, Георгий Мороз
24 лекции, 40 семинаров. 2 модуль: 20 часов, 3 модуль: 44 часа. Экзамен в конце 3 модуля.
Расписание Данные Учебники

Основные умения

  • типы данных и их распределение
  • формулирование и проверка гипотез
  • описательная статистика
  • инференционная статистика
  • визуализации

Темы первого модуля

  1. Л1: Типы данных. Порядковые шкалы. Распределение данных. Описательная статистика. (Средние, медианы, квартили, дисперсия, стандартное отклонение). Конспект
  2. С1: Базовые возможности R, R как калькулятор. Загружаем csv. Гистограммы. Скаттерплоты. Подписывание графиков и осей. Материалы Домашнее задание Здесь принимаются ответы Дедлайн: до начала следующего семинара.
  3. Л2: Визуализации и разные типы лингвистических данных. Возможные трансформации данных (log, inverse). презентация
  4. С2: Визуализации. домашнее задание|HW 2 Data Visualization
  5. Л3: Корреляция. Коэффициенты Корреляции Пирсона, Спирмена и Кенделла. Конспект.
  6. C3: Задачи на корреляцию. материалы домашнее задание
  7. HW 3 Correlations
  8. Л4 + C4: Парная линейная регрессия, метод наименьших квадратов. Коэффициент при независимой переменной (slope) и константа (intercept) [Baayen], §4.3.2. Проверка статистических гипотез. Нулевая гипотеза. one-tail и two-tailed тесты [односторонние/двусторонние тесты]. Разница между параметрическими и непараметрическими тестами. Тест Стьюдента.
  9. HW 4 Regressions and t-test
  10. Л5: Независимость. Хи-квадрат. Разные величины эффектов.
  11. С5: t-тест. хи-квадрат семинар И.В.Щуров
  12. Л6: Дисперсионный анализ (ANOVA), поправки на множественные сравнения. Вариация внутри групп и между группами. [Baayen], §4.3.3.
  13. С6: ANOVA, t-test.

Темы второго модуля

  1. Л7. Регрессии: несколько переменных, нелинейные слагаемые, значимость коэффициентов регрессии. Линейная регрессия с dummy-переменными. Кодирование категориальных данных dummy-переменными. Нелинейные слагаемые в линейной регрессии. Взаимодействия (interactions). [Baayen], pp. 102-105.
  2. HW 5 Chi-squared and linear regression (форма)
  3. C7. Визуализации — 2.
  4. Л8 + С8. Обобщённые линейные модели (GLM). Логит-регрессия. [Baayen, §6.3.1 ] семинарские задачи Пример logit, Levshina §12
  5. HW 6 Shiny and Logistic regression (форма).
  6. Л9 + С9. PCA (Метод главных компонент). конспект лекции, [Baayen, §5.1.1 ]. семинар. Скрипт для семинара.
  7. Л10 + С10. Доверительные интервалы. Иерархический кластерный анализ. [Baayen, §5.1.5 ]. опрос по доверительным интервалам Визуализация про доверительные интервалы. Cкрипт для семинара. Разметка значений слова блок (Скриншот). Метод pvclust. Пример HCA, Levshina §15
  8. С 11. MCA (Анализ множественных соответствий). Скрипт для семинара. Данные Презентация [Greenacre, Nenadic 2011]. Пример MCA, Levshina §19.2
  9. HW 7: PCA, MCA, hierarchical cluster analysis and CI задание. [[ |Решения]]
  10. С12. Деревья решений скрипт для семинара Пример CART, Levshina §14
  11. С13. Polytomous (multinomial) regression скрипт для семинара Пример polytomous, mlogit, Levshina §13
  12. С14. Mixed-effects models код
  13. С15. Plotly.
  14. С16. Квантитативные подходы в филогенетических исследованиях. Презентация

Пожелания студентов

*
*

Ссылки