Уточнение методики аннотации и сегментации спонтанных диалоговых корпусов
Павел Анатольевич Скрелин
Докладчик
профессор
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Татьяна Васильевна Качковская
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2019-03-19
17:40 -
18:00
Ключевые слова, аннотация
Речевые
корпуса, диалог, спонтанная речь, аннотация, сегментация.
Тезисы
Набор речевых и неречевых явлений, которые описываются при
аннотации и сегментации речевых корпусов, отличается от корпуса к корпусу.
Однако некоторые из них часто остаются за рамками внимания исследователей —
хотя играют существенную роль в обеспечении коммуникации. Так, выделение пауз в звуковом
материале, на первый взгляд, представляет собой простую задачу. Однако
существует ряд сложных случаев. Наибольшую трудность здесь представляет
аннотация и сегментация явлений на смене реплик, где возможны как минимум три
ситуации: (1) с перерывом фонации (паузой тишины) между репликами, (2) без
перерыва фонации, но без наложения речи собеседников, (3) с наложением речи
собеседников. Все эти случаи должны быть отражены в аннотации, если в задачи
исследования входит изучение естественного ведения диалога. Помимо выделения
пауз необходимо также обращать особое внимание на контактоподдерживающие
единицы («угу» и др.), изменение темпа речи и удлинение отдельных звуков, смену
регистра голоса (обеспечивающую деление блоков информации на более важные и
менее важные), изменения тембра голоса. Отдельную группу явлений представляют «оборванные»
синтагмы (в том числе без интонационного центра) и «разорванные» (как правило,
паузой хезитации). Целесообразно было бы также включать в аннотацию сведения о
мимике и жестах, а также проводить оценку комфортности коммуникации
(предполагая, что в комфортной ситуации общения собеседники легко находят общие
темы для обсуждения).
Включение такой информации в аннотацию спонтанных
диалоговых корпусов поможет получить новые данные о ведении естественного
диалога. Это будет полезно при доработке диалоговых систем, где комфортность
коммуникации играет ключевую роль в успешности диалога «человек — машина».