Кибер-речь: ДВФУ оцифровуют русский язык.

Кибер-речь: ДВФУ оцифровуют русский язык.

В Школе цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ) создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе
искусственного интеллекта. Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Электронный сбор
заявок на участие в первом этапе работы будет открыт в сентябре.

Одним из первых продуктов по итогам проведённой работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем,
задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам,
переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

«Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы
русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию
цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам». — Рассказал Илья Мирин, директор Школы
цифровой экономики ДВФУ.

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый
главный шаг на этом пути – собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

Первичный этап накопления языкового материала планируется завершить через год, после чего начнется оцифровка.

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной
разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты,
начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

В 2019-20 учебных годах основным исследовательским направлением на магистерской образовательной программе «Искусственный интеллект и большие данные», открытой в ШЦЭ ДВФУ при поддержке
Корпоративного университета «Сбербанка» и «Нейросетей Ашманова», станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как
иностранному, азиатским языкам, а также журналисты и инженеры-программисты.

Источник: http://www.it-world.ru/it-news/it/146844.html