• Система автоматизации с открытым исходным кодом на базе esp8266/esp32 микроконтроллеров и приложения IoT Manager. Наша группа в Telegram

JL SoC

beacon

Member
Место освободил за счет обрезки китайских шрифтов. Штатно они 252 кб занимают. После обрезки 214 байт. Еще звуки убрал. Пока проблем не испытываю с нехваткой места.
А где они обрезаются? Ткните пальцем, лень искакть - "друг интересуется"(с) :LOL:
 

8465

Member
А как можно дизассемблировать fs_lib.a? Надо там занопить один зловредный printf.
 

8465

Member
А где они обрезаются? Ткните пальцем, лень искакть - "друг интересуется"(с) :LOL:
В точно сти инструкцию вспомнить не могу. Наверное, просто заменить файлы в ui_resource на эти. Это безобразные минимальные обрезки китайских шрифтов. Полностью удалить вроде нельзя, хз.
 

Вложения

8465

Member
Ой блин, вспомнил. Это когда дисплей задействован поможет. В остальных случаях толка нет.
 

beacon

Member
А как можно дизассемблировать fs_lib.a? Надо там занопить один зловредный printf.
C:\JL\mc\bin\mc-uclinux-ar.exe -x fs_lib.a
Получаем кучу "объектных" файлов .о
В кавычках - потому, что magic numbers там 42 43 c0 de - llvm биткод:
(с llvm особо не разбирался)
Ой блин, вспомнил. Это когда дисплей задействован поможет. В остальных случаях толка нет.
Эээ... в смысле, ну объем бинарника-то сократится?
Или без дисплюя ui_resource можно вообще выбросить?
 
  • Like
Реакции: 8465

8465

Member
Эээ... в смысле, ну объем бинарника-то сократится?
Или без дисплюя ui_resource можно вообще выбросить?
Без дисплея они не добавляются в прошивку, разницы нет, есть они или нет их в папке. А вот если с дисплеем, то это уменьшит прошивку существенно. Ну, если, конечно вы не будете китайские шрифты выводить на дисплей.
 

beacon

Member
Там эндифы стоят в нуных местах. Если дисплей не подключен в конфиге, ненужное не компилируется.
Видимо, я что-то пропустил (хотя, всё ненужное отключал - но давно было, не помню), но у меня что-то меньше 600К не получалось...
 

nikolz

Well-known member
собрал проект TTS flite
кому лень искать он тут:
-----------------------
сначала собрал на компе под виндой.
тест показал, что скорость преобразования текста в речь в 380 раз быстрее реального времени, поэтому перешел к сборке на ESP8266
собрал на ESP ,
в проекте примерно 100 файлов ив них примерно 400 функций.
Объем занимаемой памяти такой:
Section| Description| Start (hex)| End (hex)|Used space
------------------------------------------------------------------------------
data| Initialized Data (RAM)| 3FFE8000| 3FFE8580| 1408
rodata| ReadOnly Data (RAM)| 3FFE8580| 3FFF244C| 40652
bss| Uninitialized Data (RAM)| 3FFF2450| 3FFF26C0| 624
text| Cached Code (IRAM)| 40100000| 4010303D| 12349
irom0_text| Uncached Code (SPI)| 40210000| 40404674| 2049652
Total Used RAM : 42684
Free RAM : 39236
Free IRam : 20437
Run objcopy, please wait...
objcopy done
работу на ESP пока не тестил.
==================
Объем базы голоса англ. сейчас примерно 2 МБ.
 

nikolz

Well-known member
pvvx как всегда, когда это не про взлом программ, нагородил чушь про нейронные сети и TTS.
чтобы было немного у Вас представление что такое TTS выкладываю пару блок схем алгоритма синтеза речи из текста:

1660829301613.png
1660829335098.png
 

nikolz

Well-known member
а это блок схема синтеза речи на основе нейронной сети:
1660829551208.png

это лишь синтез звука . т е в терминах предыдущего рисунка - это фрагмент акустического процессора.
 

nikolz

Well-known member
а это блок схема TTS:
1660830113726.png

При условии, что Вы имеете базу голоса и обученную модель.
====================
 

nikolz

Well-known member
пояснение к приведенным ранее картинкам. Перевод гугл.
---------------------------------------
Мы предлагаем HiFi-GAN, который обеспечивает более высокую вычислительную эффективность и качество выборки, чем AR или модели на основе потоков.
Поскольку речевой звук состоит из синусоидальных сигналов с различными периодами, моделирование периодических паттернов имеет значение для создания реалистичного речевого звука.
Поэтому мы предлагаем дискриминатор, состоящий из небольших поддискриминаторов, каждый из которых получает только определенные периодические части необработанных сигналов.
Эта архитектура является основой нашей модели, успешно синтезирующей реалистичный речевой звук.
Поскольку мы извлекаем разные части звука для дискриминатора, мы также разрабатываем модуль, который размещает несколько остаточных блоков,
каждый из которых параллельно наблюдает паттерны различной длины, и применяем его к генератору.

HiFi-GAN имеет более высокий балл MOS, чем лучшие общедоступные модели, WaveNet и WaveGlow.
Он синтезирует звук речи человеческого качества на частоте 3,7 МГц на одном графическом процессоре V100.
Далее мы показываем универсальность HiFi-GAN для инверсии мел-спектрограммы невидимых динамиков и сквозного синтеза речи.
Наконец, миниатюрная версия HiFi-GAN требует всего 0,92 млн параметров,
при этом превосходя лучшие общедоступные модели и самую быструю версию образцов HiFi-GAN в 13,44 раза быстрее,
чем в режиме реального времени на ЦП, и в 1186 раз быстрее, чем в режиме реального времени на одном устройстве.
Графический процессор V100 с качеством, сравнимым с авторегрессивным аналогом.
Наши аудио образцы доступны на демо-сайте1, и мы предоставляем реализацию с открытым исходным кодом для воспроизводимости и будущей работы.
 

beacon

Member
По первой картинке: а разве фонемы не слогам должны соответствать? (а не буквам)
По-крайней мере, естественная речь - она именно по слогам строится, никто по буквам слова не произносит.
 
Сверху Снизу