Нанайские гласные

  • $dictor --- информанты;
  • $sex --- пол;
  • $village --- деревня;
  • $sound --- звуки. Чтобы избежать проблем с кодировками звуки закодированы следующим образом: i = i, I = ɪ, e = ə;
  • $f1 --- первая форманта;
  • $f2 --- вторая форманта;
Полевые данные по нанайским гласным собирались в двух деревнях Найхин и Джуен. Основным вопросом является то, разные или одинаковые форманты у гласных i и ɪ у разных информантов. Форманты --- акустическая характеристика звуков, описывающая частотные диапазоны, в которых при произнесении гласного наибольшая интенсивность. Форманты обычно нумеруют начиная от низких частот. Считается, что большинство гласных можно описать при помощи первой и второй формант, а если по оси абсцисс отложить -F1, а по оси ординат отложить -F2, то получится классическая трапеция гласных.

Данные WALS


Это база данных признаков из атласа "The World Atlas of Language Structures". Все признаки перечислены и описаны на странице проекта. Имеет смысл держать в голове, что не все языки описаны по всем параметрам, так что какой-то признак может иметь значение "none", а может не иметь никакого значения. Первое значит, что язык исследовался, но признак принимает значение "none", второе значит, что язык не исследовался.

Двубуквенные сочетания в "Анне Карениной"

статистика 1буква x 2 буква

Иллюстрации закона Ципфа

N-граммы НКРЯ: http://ruscorpora.ru/corpora-freq.html
Частотный словарь НКРЯ: http://dict.ruslang.ru/freq.php
список топ-50000 лемм: csv zip readme

Корреляции. Факторы в машинном обучении.



Корреляции. Потребление маргарина



++ добавить данные по точности и полноте спеллчекеров от Жени Мещеряковой

Индексы латерализации

tab-separated. Grigory Ignatiev, 2015
В эксперименте левши (LH) и правши (RH) должны были прочитать начало предложения и закончить его. С помощью фМРТ измерялся индекс латерализации речевых функций (LI) в височной доле.

Представлены парные замеры индекса латерализации (LI) в лобной доле и височной доле.

Продуктивное словообразование глаголов

описание: Marginal VS Nonce-words по данным Endresen, Janda 2015 (Trolling)
Испытуемые оценивали по шкале Ликерта (1...5) приемлемость глаголов уточнить / уконкретить, обогатить / омузыкалить. Каждый испытуемый (70 школьников, 51 взрослый) оценивал все глаголы. В работе исследуется зависимость между статусом глагола (существующий в языке, окказиональный, не-слово), его словообразовательной моделью и социолингвистическими характеристиками респондентов (пол, возраст, уровень образования, город проживания.

Who did she think that he saw _?


Ambridge & Goldberg (2008) попросили студентов оценить приемлемость предложений типа Who did Pat stammer that she liked? по шкале от 1...7. В файле показаны усредненные результаты по всем респондентам и по классу глаголов в позиции "think, stammer, etc." по следующим тестам:
а) приемлемость WH-вопроса (например, Who did Pat stammer that she liked?)
б) приемлемость соответствующего повествовательного предложения (например, Sara stammered that she liked Dominic)
в) верно ли, что из отрицательного предложения X (вида She didn’t think that he left) следует отрицание вложенного предложения Y (вида He didn’t leave).
В первой колонке приводится класс глагола, во второй - разность между оценками (б) и (a), в третьей - оценка (в).

Plural forms of nouns


Just as a person has its body mass index, each noun can be characterized by the proportion of plural forms: PlurRatio = number of plural forms / number of (singular + plural forms). The Surrey Morphology Group (Brown et al. 2015) provide data on the use of singular and plural forms in the Uppsala corpus of Russian. The nouns were classified according to the Animacy hierarchy (3: kinship terms such as mother; 4: gods and supernatural beasts; ... 9: inanimate abstract nouns).
For this assignment, we took a sample of nouns that have more than 20 occurences in the corpus both in singular and plural forms.

Категориальные данные. Таблицы сопряженности. Критерии согласия

Видовые пары в русском языке


cross-tab по данным Janda, Lyashevskaya 2011
Сводные данные по употреблению в НКРЯ префиксальных видовых пар (prefixal.pairs, ср. писать - написать) и суффиксальных видовых пар (suffixal.pairs, ср. дописать - дописывать) в формах непрошедшего (Non-past) и прошедшего (Past) времени, инфинитива (Inf) и императива (Imper). Приводится отдельно для форм несовершенного (Ipfv) и совершенного (Pfv) вида.

Семельфактивы типа чихнуть и схитрить

Распределение двух видов глаголов однократного действия по типам глагольных основ: -aj (как в работать), non-prod (другие непродуктивные типы), -*e (как в кричать), -ova (как в использовать), -i (как в молить), -*ej. По данным Dickey & Janda 2009.


Грамматические профили глаголов


Распределение форм прошедшего (Past), непрошедшего (настоящего/будущего) времени (NonPast), инфинитива (Inf) и императива (Imper) в 256 видовых приставочных парах типа писать -- написать.
  • Ipfv -- imperfective, Pfv -- perfective aspect
  • SemClass -- semantic classes according to the RNC taxonomy (change of state, behavior, existence, physical impact, motion, speech, etc.)

Испанские прилагательные на -ivo

comma-separated. Fabregas, Antonio. source: Trolling.
  • A: Adjective: adjective form (eg. completivo, responsivo)
  • B: Base_verb (eg. completar, responder)
  • C: Demotivation (Y/N). N: compositional meaning, Y: demotivated meaning (eg. llamativo 'shocking')
  • D: Last_consonant (t,s, eg. complet-ivo, respons-ivo)
  • E: Theme_vowel (yes/no)
  • F: Allomorphy (R/I). R: the base is regularly representing the spell out of the verb in the conjugation. I: the base shows an allomorph that is not used in the verb’s finite forms.
  • G: Meaning (A/P). A: active meaning, P: passive meaning, N: non applicable, generally because the word has a demotivated meaning
  • H: Possible_nominal_base (eg. completo, N)

DOEN vs LATEN в голландском

Courtesy of Natalia Levshina, Université catholique de Louvain, Belgium

объяснение данных в презентации
Еще данные: (загружаются с помощью команды load, переменные извлекаются из файла.



Readability

(Данные Д.Кошелевой)



Mean reaction time

(Данные Шт. Гриса, глава 5, с использованием MRC Database)

MRC Psycholinguistic Database

Три овцы

(Данные А.Присяжной, 2015 г.)
(sep=";", head=T)

Бинарные логистические регрессии

Конструкции глагола ГРУЗИТЬ (а также ПОгрузить, НАгрузить и ЗАгрузить), которые, по мнению словарей, образуют "чистовидовые" пары с ГРУЗИТЬ. Как приставка (VERB), форма глагола (финитная/причастная: PARTICIPLE), полнота конструкции (с третьим участником чем? / на что? и без него: REDUCED) влияет на выбор конструкции?
Зависимая переменная: CONSTRUCTION: грузить телегу сеном (goal) -- грузить сено на телегу (theme)
Файл с данными: Ch4data.csv, R script: Ch4.R
По данным работы Sokolova et al. 2013.

Выбор наречия ОЧЕНЬ и СИЛЬНО

(данные Н. Акутиной, модифицированные)
датасет, разделитель табуляции.
Факторы: HEAD.POS -- часть речи хозяина (очень. нравится, очень красивый, очень хорошо),
NEG.BEFORE -- отрицание перед наречием (не очень нравится)
NEG AFTER -- отрицание после наречия (очень не нравится)
ASPECT -- вид глагола, ACT.CLASS -- аспектуальный класс глагола, ACTS -- одушевленность и агентивность субъекта

Модальные слова


Аннотированы контексты употребления модальных слов. Мы пытаемся предсказать тип модальности (деонтическая ("правила говорят нам"), внутренняя ("я хочу и могу"), внешняя ("внешние обстоятельства позволяют мне совершить X"), эпистемическая "по внешним признакам я могу догадываться, что")
Признаки::
modal_polarity
modal_polarity
aspect_inf
elipsis
voice
subject_case
subject_semantics
inf_semantics
soa_applicability
modal_function
influence_source

Модели управления русских глаголов

(По данным ФреймБанка, Lyashevskaya&Kashkin 2015)

В таблице приведены глаголы речи, в столбцах указано количество примеров в базе данных, в которых имеется тот или иной элемент модели управления (например, Sacc - именная группа в вин. падеже, CLdir - прямая речь).

Чередования в русских приставках

(Данные А.Эндресен из репозитория Trolling)
Чередование РАЗ-/РАС-
Чередование РАЗ-/РАС-/РАЗО-
Данные о чередовании РАЗ-, РАС-, РАЗО- в русских глаголах (см. РАЗБРОСАТЬ, РАСТОЛКАТЬ, РАЗОБРАТЬ). Однажды Оля попросила Аню доказать, что семантика в чередованиях ни при чем. И вот что получилось...
Предсказываемые данные: Allomorph (raz, ras, razo), упрощенная классификация (Vocalization: RAZ/S, RAZO).
Формальные признаки: звук в начале корня (InitialPhoneme), его класс сонорности (SonorityOnset), наличие кластера согласных (SimpleOrClusterOnset), наличие чередования в корне (AlternationInRootCluster). Дополнительные гипотетически факторы: подвергается ли начальный кластер чередованиям (AlternationInRootCluster), возможен ли такой кластер с приставкой С-/З- (ClusterPossibleWithZS).
Семантические признаки: семантический класс, прямое/метафорическое употребление, образует ли в видовую пару с другим глаголом (PerfType)

Экспериментальные данные о чередовании приставок О-/ОБ-/ОБО-
Датасет О-/ОБ-/ОБО-
Проблема этого чередования запутанна. Одни говорят, что есть отдельно приставка О- и отдельно приставка ОБ-/ОБО- с чередованием. Другие указывают, что глаголы с О- и ОБО- оказываются в дополнительной дистрибуции. В Кронгауз 1997 выдвинута гипотеза, что есть приставка с чередованием О-/ОБ- и приставка с чередованием ОБ-/ОБО-. Но к какой приставке отнести какой глагол на ОБ-, неизвестно.
Датасет описан выше, см. Likert scale. Переменные: Gender,Age,AgeGroup,Education,City,Country,SubjectCode,Score,GivenScore,Stimulus,Prefix,WordType,CorpusFrequency

Ирония

Данные лаборатории нейролингвистики (благодарим А. Лауринавичюте за предоставленные данные и комментарии)


Груши

Данные лаборатории нейролингвистики (благодарим А. Лауринавичюте за предоставленные данные и комментарии)
В лаборатории были записаны "рассказы о грушах" -- знаменитое исследовательское задание, предложенное У. Чейфом в “The pear stories: Cognitive, cultural, and linguistic aspects of narrative production” (1980). Были опрошены носители русского языка, страдающие различиными типами афазии и контрольная группа носителей русского языка, не страдающих клиническими расстройствами (см. категория Type, подкатегории Group). Были зафиксированы (в миллисекундах) общее время рассказа (total_length_ms), длительность обычых пауз (absolute_pause_ms) и их доля и медиана (absolute_pause_percent, absolute_pause_median), длительность заполненных пауз (типа э-э-э, filled_pause_length, filled_pause_percent, filled_pause_median), сумма всех видов пауз (total_pause_ms, total_pause_percent). Кроме того, зафиксировано количество клауз в рассказе (number_of_clauses) и количество диалогических единиц (number_of_Cunits), количество слов (number_of_words), количество фальстартов (number_of_falsestarts), среднее количество слов на клаузу (words_per_clause) и на диалогическую единицу (words_per_unit), а также количество клауз на диалогическую единицу (clauses_per_unit).



все данные вместе

Эвиденциальность у русско-башкирских билингвов

Данные лаборатории нейролингвистики (благодарим А. Лауринавичюте и М. Худякову за предоставленные данные и комментарии).
Анализировалась сохранность категории эвиденциальности у русско-башкирских билингвов, основным языком которых является башкирский. Каждый экспериментальный лист содержит 48 предложений, из них в 24 предложениях эвиденциальность контекста и формы глагола в целевом предложении совпадают, а в 24 предложениях – не совпадают (то есть эти предложения неграмматичны).
Если категория эвиденциальности сохранна, мы ожидаем, что начиная с глагола в целевом предложении все неграмматичные предложения будут читаться медленнее, чем грамматичные преложения. Если категория эвиденциальности нарушена, мы не найдем разницу в скорости чтения грамматичных и неграмматичных предложений.

описание

Язык падонкофф

Данные исследования Berdicevskis Aleksandrs, Zvereva Vera. 2014. Slangs go online, or the rise and fall of the Olbanian language. In: Digital Russia: The Language, Culture and Politics of New Media Communication, edited by Lunde, Ingunn; Paulsen, Martin; Gorham, Michael S. Routledge, pp. 123-140. Оригинальные данные опубликованы в Trolling


Перфект по данным параллельного корпуса

Данные любезно предоставлены Д.В.Сичинавой.
Формы перфекта глагола в текстах английского языка могут переводиться на другие языки как перфектными формами (1), так и формами простого прошедшего и других времен (0). В таблице (tab-separated) представлена разметка текста "Алисы в стране чудес" Л. Кэролла.

==


Учебные данные (симуляция)

Участникам эксперимента давали слушать слова на родном языке и неродном языке (MTONGE: Y|N). Фиксировалось время реакции (нормированная величина RT_SCORE).



Произнесение ЧТО в русских диалектах

Д.Шершнева, В.Гуц, github page


Репозитории данных