Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save anonymous/d03019da7660e53b9620666716c2fdcf to your computer and use it in GitHub Desktop.
Save anonymous/d03019da7660e53b9620666716c2fdcf to your computer and use it in GitHub Desktop.
Выполнить нормализацию схемы r методом синтеза

Выполнить нормализацию схемы r методом синтеза



Настоящее изобретение относится к способу кодирования сигнала возбуждения в целевой речи. Технический результат заключается в обеспечении сигналов возбуждения для синтеза речи без эффекта приглушенности синтезированной речи. Извлекают из набора обучающих нормализованных остаточных кадров набор подходящих нормализованных остаточных кадров, при этом указанные обучающие остаточные кадры извлекают из обучающей речи; синхронизируют по моменту закрытия голосовой щели МЗГЩ GCI и нормализуют по основному тону и энергии; определяют целевой сигнал возбуждения исходя из целевой речи. Разделяют указанный целевой сигнал возбуждения на целевые кадры, синхронизированные по моментам МЗГЩ GCI. Определяют локальный основной тон и энергию целевых кадров, синхронизированных по моментам МЗГЩ GCI. Нормализуют синхронизированные по моментам МЗГЩ GCI целевые кадры по энергии и по основному тону с получением целевых нормализованных остаточных кадров. Определяют коэффициенты линейной комбинации указанного извлеченного набора подходящих нормализованных остаточных кадров, чтобы построить для каждого из целевых нормализованных остаточных кадров близкие к ним синтезированные нормализованные остаточные кадры, при этом параметры кодирования для каждого из целевых остаточных кадров содержат полученные коэффициенты. Эти методы опираются на огромные корпусы обычно в несколько сотен мегабайт , покрывающие как можно большее многообразие речевых сигналов. В процессе синтеза речь создается конкатенацией естественных единиц, извлекаемых из корпуса. Поскольку база данных содержит по несколько примеров для каждой единицы речи, возникает проблема нахождения оптимального пути в сетке потенциальных кандидатов, обеспечивающего сокращение затрат на выбор и конкатенацию. Однако качество может значительно снижаться, если требуется недостаточно представленная в корпусе единица или когда нарушается плавность из-за плохого стыка между двумя выбранными единицами. IEEE Workshop on Speech Synthesis, , с. Этот подход опирается на статистическое моделирование параметров речи. Предполагается, что такая модель, пройдя обучение, может создавать реалистичные последовательности этих параметров. Наиболее известная методика в рамках такого подхода - это, разумеется, синтез речи на основе скрытой марковской модели СММ НММ. Синтезаторы с использованием этой методики в недавних субъективных испытаниях продемонстрировали показатели, сопоставимые с системами на основе выбора единиц. Важным преимуществом такой методики является гибкость в управлении речевыми вариациями например, эмоциями, экспрессивностью и простота создания новых голосов через статистическое преобразование голоса. К двум основным недостаткам, свойственным способу в силу его природы, относятся:. Традиционный подход предполагает, что в качестве сигнала возбуждения используется либо белый шум, либо последовательность импульсов - для невокализованных и вокализованных сегментов, соответственно. Чтобы ближе воспроизвести физиологический процесс фонации, в котором голосовой сигнал состоит из комбинации периодических и непериодических компонент, было предложено использовать смешанное возбуждение СВ ME. CB ME обычно получают так, как показано на фиг. ISCA SSW6, , описывает прямое обучение многоступенчатых фильтров, зависимых от состояния, с использованием процессов обратной связи. В этом случае коэффициент, связанный с центроидом кластера, ближайшим к целевому нормализованному остаточному кадру, предпочтительно будет равен единице, а другие - нулю, или, что эквивалентно, будет использоваться только один параметр, представляющий параметр ближайшего центроида. Под собственными остаточными векторами здесь понимаются собственные векторы, получаемые методом МГК РСА. Указанный высокочастотный шум может иметь границу отсечки низких частот, составляющую от 2 до 6 кГц, предпочтительно - от 3 до 5 кГц, наиболее предпочтительно - приблизительно 4 кГц. Эта операция выполняется посредством деления образца речи на обучающие подкадры предварительно заданной продолжительности, анализа каждого обучающего подкадра для определения фильтров синтеза, например фильтров линейного предсказания, а затем применения соответствующего инверсного фильтра к каждому из подкадров в образце речи с получением остаточного сигнала, разделенного на остаточные кадры. Найденные таким образом коэффициенты затем используются для определения фильтра синтеза на основе линейного предсказания. Далее для извлечения остаточных кадров используется инверсия найденного фильтра синтеза. Для определения моментов МЗГЩ GCI может использоваться способ, основанный на центре тяжести ЦТ CoG энергии речевого сигнала. Предпочтительно, остаточные кадры центрованы по моментам МЗГЩ GCI. Чтобы обеспечить точку сравнения между остаточными кадрами до извлечения большей части подходящих остаточных кадров, выравнивание по моментам МЗГЩ GCI будет недостаточным и потребуется нормализация по основному тону и энергии. Под набором подходящих кадров понимается минимальный набор кадров, обеспечивающих максимальное количество информации, чтобы воссоздать остаточные кадры, наиболее близкие к целевым остаточным кадрам, или, иными словами, набор RN-кадров, допускающий в описании целевых кадров максимальное понижение размерности с минимальной потерей информации. Этот базис содержит ограниченное количество RN-кадров и вычисляется на относительно небольшой базе речевых данных приблизительно 20 мин , из которой извлекают набор вокализованных кадров. Можно показать, что применение критерия НК LS эквивалентно максимизации дисперсии данных по новым осям координат. После этого может быть применен собственно метод МГК РСА , посредством вычисления собственных значений и собственных векторов матрицы ковариации данных. Например, первый собственный остаточный вектор для конкретного диктора-женщины представлен на фиг. Этот показатель важен для понижения размерности. Определим информационный коэффициент I k при использовании k первых собственных остаточных векторов как отношение дисперсии по этим k осям к общей дисперсии:. Если вернуться к примеру на фиг. Из этого следует, что целевые кадры могут быть эффективно описаны вектором, имеющим размерность 20, который будет определен преобразованием МГК РСА проекция целевого кадра на 20 первых собственных остаточных векторов. Эти собственные остаточные векторы образуют набор подходящих RN-кадров. Блок-схема синтеза для этого случая представлена на фиг. Это позволяет уменьшить количество собственных остаточных векторов для кодирования и синтеза возбуждения вокализованных сегментов без снижения качества синтеза. В этом случае сигнал возбуждения раскладывают на детерминированную низкочастотную составляющую r d t и стохастическую высокочастотную составляющую r s t. Максимальная частота F max вокализованного участка обозначает границу между детерминированной и стохастической составляющими. Для этого может использоваться, например, авторегрессивный фильтр. Предпочтительно, чтобы на усеченный по частоте белый шум накладывалась дополнительная временная зависимость. Может использоваться, например, треугольная огибающая, центрированная по моментам МЗГЩ GCI. Получаемый при этом остаточный нормализованный кадр затем денормализуют, приводя его к целевым значениям частоты основного тона и энергии. Общая блок-схема данной модели возбуждения представлена на фиг. В этом случае возбуждение характеризуется только частотой основного тона, и поток весов, получаемых методом МГК РСА , можно исключить. Это дает максимально простую модель, в которой сигнал возбуждения является ниже F max по существу привязанным к временной шкале колебательным сигналом, что почти не требует ощутимой вычислительной нагрузки, обеспечивая в то же время высокое качество синтеза. При этом предполагается, что признаки объектов образуют векторное пространство. Ставится цель минимизировать общую дисперсию внутри отдельных кластеров или функцию квадратичной ошибки:. Эти выбранные центроидов образуют набор подходящих нормализованных остаточных кадров для кодовой книги. Тогда каждому центроиду может быть поставлен в соответствие реальный остаточный кадр. При этом следует принять во внимание сложности, которые проявятся при обратном преобразовании остаточных кадров в целевые кадры с основным тоном. Для каждого центроида отбирают N наиболее близких по расстоянию после нормализации кадров и сохраняют только самый длинный кадр. Указанный ближайший центроид определяют, вычисляя на компьютере среднюю квадратичную ошибку между целевым нормализованным остаточным кадром и каждым центроидом и принимая за ближайший центроид тот, у которого вычисленная средняя квадратичная ошибка минимальна. Этот принцип разъясняется на фиг. Указанный анализ ОМКК MGC позволил определить фильтры синтеза. Были найдены такие моменты МЗГЩ GCI , чтобы кадры вокализованных участков оказались центрированы по этим моментам МЗГЩ GCI и имели продолжительность в два периода. Для выполнения отбора эти кадры подвергли повторной дискретизации и нормализовали, получив RN-кадры. Эти последние использовались в алгоритме реконструкции сигнала возбуждения, показанном на фиг. Результирующий сигнал возбуждения был затем отфильтрован с использованием ранее извлеченных первоначальных коэффициентов ОМКК MGC. Эксперимент выполняли, используя кодовую книгу по кластерам и соответствующих остаточных кадров. Векторы признаков представляли собой параметры ОМКК MGC го порядка, логарифмическое выражение F0 и коэффициенты МГК РСА , порядок которых был определен так, как пояснялось выше, и которые были подвергнуты конкатенации с их первыми и вторыми производными. Для обработки границ между вокализованными и невокализованными участками применялось многопространственное распределение МПР MSD F0 в логарифмическом выражении и МГК РСА определялись только на вокализованных кадрах , что дало в общей сложности 7 потоков. Были применены фонемные контекстно-зависимые СММ НММ с 5 состояниями и проходом слева направо с использованием одинарных гауссовых распределений с диагональной матрицей ковариации. По статистике пребывания в отдельных состояниях СММ НММ была также определена модель длительности состояний. В процессе синтеза речи сначала с помощью модели длительности определили наиболее вероятную последовательность состояний. Затем построили наиболее вероятную последовательность векторов признаков, связанную с указанной последовательностью состояний. И, наконец, векторы признаков ввели в вокодер, чтобы произвести речевой сигнал. Выбор вокализованного или невокализованного решения зависит от генерируемого значения F0. Во время невокализованных кадров используется белый шум. Что касается вокализованных кадров, то они строятся в соответствии с синтезированными коэффициентами МГК РСА. Первую версию получают с помощью линейной комбинации с собственными остаточными векторами, которые были извлечены, как поясняется в настоящем описании. Поскольку эта версия нормализована по размеру, требуется преобразование в целевое значение частоты основного тона. Как уже указывалось, это может быть достигнуто повторной дискретизацией. После этого кадры соединяют с наложением, получая сигнал возбуждения. В конечном счете, для получения синтезированного речевого сигнала используется так называемая аппроксимация по меллогарифмическому спектру, АМЛС MLSA , основывающаяся на полученных коэффициентах ОМКК MGC. Бруно мужчина, француз, не из базы данных CMU ARCTIC , AWB мужчина, шотландец и SLT женщина, США из базы данных CMU ARCTIC. Обучающий набор характеризовался продолжительностью приблизительно 50 мин для AWB и SLT и 2 часа для Бруно и был составлен из фонетически сбалансированных высказываний с частотой дискретизации 16 кГц. Он состоял из 4 синтезированных предложений длительностью приблизительно 7 секунд для каждого диктора. Для каждого предложения были представлены два варианта, с использованием традиционного возбуждения или возбуждения согласно настоящему изобретению, и испытуемые должны были указать, какой вариант они предпочитают. В традиционном методе при возбуждении вокализованных сегментов использовалась последовательность импульсов то есть основной метод, применяемый при синтезе, основанном на СММ НММ. Но и в рамках этой традиционной методики для отражения микропросодических характеристик использовались импульсы, синхронизированные по моментам МЗГЩ GCI , и создаваемая вокодером речь благодаря этому опиралась на качественную основу. Результаты приведены на фиг. Как видно из чертежа, в каждом из трех экспериментов, пронумерованных от 1 до 3, видны улучшения. Способ кодирования сигнала возбуждения целевой речи, включающий в себя следующие шаги: Способ по любому из пп. Способ синтеза сигнала возбуждения, использующий способ кодирования по любому из пп. Способ синтеза сигнала возбуждения по п. Способ параметрического синтеза речи, в котором для определения сигнала возбуждения вокализованных последовательностей используют способ по любому из пп. Машиночитаемый носитель, на котором записан набор команд, который, при выполнении на компьютере, реализует способ по любому из пп. Способы синтеза и кодирования речи. Изобретение относится к средствам кодирования комбинированной обновляющей кодовой книги. Технический результат заключается в обеспечении возможности быстрого поиска даже с очень большими кодовыми книгами. Предложены устройство и способ квантования, в суперкадре, включающем в себя последовательность кадров, LPC-фильтров, вычисленных во время кадров из этой последовательности. Изобретение относится к обработке цифровых сигналов, например сигналов речи, музыки, в области телекоммуникаций. Объектом изобретения является способ маскирования ошибки передачи в цифровом сигнале, разбитом на множество последовательных фреймов, связанных с различными временными интервалами, в котором при приеме сигнал может содержать стертые фреймы и нормальные фреймы, при этом нормальные фреймы содержат информацию inf , связанную с маскированием потери фрейма. Изобретение относится к области способов передачи мультимедийной информации в сетях связи и запоминания в электронных устройствах, в частности к кодированию речи. Изобретение относится к области методов сжатия данных, в частности к способу и устройству для многоступенчатого квантования. Изобретение относится к области цифровой обработки речевых сигналов. Изобретение относится к звуковому или речевому синтезатору для использования со сжатыми закодированными в цифровом виде звуковыми или речевыми сигналами и может быть использовано для постпроцессорной обработки сигналов, выделенных из словаря кодов возбуждения и словаря адаптивных кодов речевого декодера типа линейного кодирования с предсказанием ЛКП. Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении регулировки общего усиления без декодирования и дополнительного этапа повторного кодирования. Многорежимный аудио декодировщик для формирования декодированного представления аудио контента на основе закодированного потока, который настроен на декодирование значения коэффициента общего усиления в фрейме из закодированного потока битов, причем первое подмножество фреймов кодируется в первом режиме кодирования, а второе подмножество фреймов кодируется во втором режиме кодирования, причем каждый фрейм второго подмножества состоит более чем из одного подфрейма, декодирование, для подфрейма, состоящего, по крайней мере, из подмножества подфреймов второго подмножества фреймов, соответствующего элемента битового потока независимо от значения глобального коэффициента усиления соответствующего фрейма и завершающее декодирование битового потока с использованием значения коэффициента общего усиления и соответствующего элемента битового потока при декодировании подфреймов из подмножества подфреймов второго подмножества фреймов и значения коэффициента общего усиления при декодировании первого подмножества фреймов. Оказать финансовую помощь проекту FindPatent.


Проектирование операций методом синтеза
Где находится олимпийский в москве на карте
Сочинение о школе 11 класс
Ground and pound перевод
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment