1. Пишем некий длинный JSON - конфиг про то, какой файл с какого времени и с какой громкостью должен звучать. Типа, kick-bass.ogg кажые полсекунды, share.ogg каждую секунду. Каждое воспроизведение прописано отдельно с указанием числа секунд (float) с абсолютного начала итогового файла (поэтому конфиг будет жирным), а не ритмом.
2. Запускаем, оно рожает wav/ogg файл где все звучит как определено.