Objektipohjainen äänentoisto

Jyrki_H

Moderaattori
Hifiharrastaja
Liittynyt
6.8.2006
Viestejä
25 726
Kaupunki
Oulunsalo
Asiaa on sivuttu useassa ketjussa, mutta tälle tärkeälle aiheelle ei löytynyt omaa otsikkoa. Yksinkertaistettuna kyseessä on tulevaisuuden ääniformaatti, jossa erillisten kanavien (L&R tai 5.1) sijaan ääni kuvataan objekteina. Itse äänisignaalin lisäksi sen mukana on metatietoa, joka kuvailee äänen ominaisuuksia kuten etäisyyttä ja tulosuuntaa. Ääni renderöidään toistolaitteessa niin hyvin kuin voidaan. Sama ääniformaatti soveltuu siis erilaisille toistolaitteistoille. Immersiiviset monikanavalaitteet (esim. Dolby Atmos -kotiteatteri) tai binauraalisesti prosessoivat kuulokejärjestelmät (Sony 360 Reality Audio) voivat toistaa ääntä käytännössä mistä suunnasta tahansa. Renderöinnin ansiosta jokaista toistokanavaa ei tarvitse tallentaa erikseen, vaan toisto on skaalattavissa.

Minusta tämä on erittäin järkevä lähestymistapa, koska sama äänitiedosto soveltuu kaikkiin toistotilanteisiin. Prosessoinnin tarve tietysti lisääntyy toistolaitteiston päässä, mutta sekin on mahdollista skaalata siten, että esimerkiksi kännykän prosessori siitä selviää. Yksinkertaisissa laitteissa, kuten kaksikanavaisessa stereossa prosessointia ei tarvita juurikaan.

object-based.png
 
Yksittäisen ääniobjektin sijoitus 3d koordinaatteihin on varmaankin aika simppeli, mutta tuli mieleen että mitenkä erilaiset ambienttiefektit mahtaa olla koodattu? Esim sormien napsautus ilman tilaefektiä voidaan häittää xyz jutuilla, mutta esim vastaava jossain katedraaliakustiikassa pitäisi heijastuneiden äänien olla jotenkin jokainen oma ääniobjektinsa varsinaisen sormien napsautuksen sijaan..kö? Tai tilaefekti generoidaan Atmos piirillä jonkin akustisten ympäristöjen kirjaston avulla joka määritellään metadatassa...
Erittäin hyvä kysymys. Ainakin tällaisen sitaatin löysin:
Scene-based Audio uses a sound-field technology called "Higher Order Ambisonics" (HOA) to create holistic descriptions of both live-captured and artistically-created sound scenes that are independent of specific loudspeaker layouts. For efficient representation, the audio can be carried as a set of PCM channels that contain predominant sounds and ambience in separate tracks. Standard audio bandwidth-compression techniques then can be applied to the PCM channels...
Ilmeisesti myös äänikenttäsynteesiä käytetään näissä immersiivisissä äänitekniikoissa, mutta minulla ei ole tarkempaa ymmärrystä miten tämä tapahtuu.
 
Onko objektipohjainen äänen tuotanto jo OT:tä tähän ketjuun? ;) Nimittäin objektipohjaisuuden ymmärtäminen on ehkä helpompaa, kun ei rajaa käsitettä pelkästään tilaääniin, tai erityisesti monikanavaääniin, eikä kuluttajan näkökulmaan. Nimimerkki ana80 tuolla Atmos-ketjussa ottikin asian jo esille. Objektipohjaisuus tosiaan mahdollistaa myös virtuaaliakustiikaan. Sitä tutkii mm. Tapio Lokin ryhmä Aalto YO:lla.
 
Tässä vaiheessa näkisin, että yleisen ymmärryksen lisääminen aiheesta on hyväksi. Ei siis turhaan rajata aihetta, kunhan pysytään objektipohjaisessa äänessä.
 
Pelimaailmassa (ainakin fps pelit) tämä objektipohjausuus taitaa olla ollut jo pitkään käytössä, kun äänimaiseman ja efektien pitää liikkua pelaajan mukaan. Muulla tekniikalla toteutus lienee vähintäänkin haastavaa...
 
Pelimaailmassa (ainakin fps pelit) tämä objektipohjausuus taitaa olla ollut jo pitkään käytössä, kun äänimaiseman ja efektien pitää liikkua pelaajan mukaan. Muulla tekniikalla toteutus lienee vähintäänkin haastavaa...
Vanhin oikeasti käyttökelpoinen 3D-ääni peleissä, mistä on omaa kokemusta, oli Aureal A3D vuosituhannen vaihteessa. Hyvin toteutettuja olivat esim. Dark Engine -pelit Thief: The Dark Project, Thief 2: The Metal Age ja System Shock 2. Jo silloisella teknologialla oli mahdollista käyttää tilavaikutelman luomiseen heijastusten mallinnusta 3D-tilassa, ei pelkästään äänilähteen suuntaa ja etäisyyttä yhdistettynä kiinteään jälkikaikuun.
 
Vanhin oikeasti käyttökelpoinen 3D-ääni peleissä, mistä on omaa kokemusta, oli Aureal A3D vuosituhannen vaihteessa. Hyvin toteutettuja olivat esim. Dark Engine -pelit Thief: The Dark Project, Thief 2: The Metal Age ja System Shock 2. Jo silloisella teknologialla oli mahdollista käyttää tilavaikutelman luomiseen heijastusten mallinnusta 3D-tilassa, ei pelkästään äänilähteen suuntaa ja etäisyyttä yhdistettynä kiinteään jälkikaikuun.
Mitenkähän nykyään mahtaa mennä uusissa peleissä, missä on esim dolby atmos sertifikaatti? Äänitekniikka on taitaa olla integroitu järjestään pelimoottoreihin (Unreal engine, Cryengine) ja pelimottorissa ovat "äänilähteet" vielä objekteina jonka jälkeen työnnetty ulos esim pcm:nä audiolaitteille/äänikortille. Eikö tuon Atmoksen pitäisi nimenomaan kuulua tuotantovaiheen tekniikkaan jossa objekteille annetaan koordinaatit ja työnnetään sitten esim av vahvarille joka jakelee sitten ääntä sen mukaan eri kaiuttimien kesken? Ilmeisesti joku dolbyn encoderi plugin jolla pelimoottorista objektitiedot napataan?
 
Mitenkähän nykyään mahtaa mennä uusissa peleissä, missä on esim dolby atmos sertifikaatti? Äänitekniikka on taitaa olla integroitu järjestään pelimoottoreihin (Unreal engine, Cryengine) ja pelimottorissa ovat "äänilähteet" vielä objekteina jonka jälkeen työnnetty ulos esim pcm:nä audiolaitteille/äänikortille. Eikö tuon Atmoksen pitäisi nimenomaan kuulua tuotantovaiheen tekniikkaan jossa objekteille annetaan koordinaatit ja työnnetään sitten esim av vahvarille joka jakelee sitten ääntä sen mukaan eri kaiuttimien kesken? Ilmeisesti joku dolbyn encoderi plugin jolla pelimoottorista objektitiedot napataan?
Uusissa peleissä välikätenä toimii Microsoft Spatial Sound API eli toisto ei ole sidottu tiettyyn formaattiin tai codec:iin tekovaiheessa.
https://docs.microsoft.com/en-us/windows/win32/coreaudio/spatial-sound
 
Itseäni kiinnostaisi ymmärtää paremmin objektipohjaisen äänitteen kuuntelua kuulokemaailmassa. Osin jo tähän mennessä lienee tässä ketjussa tullutkin vastauksia, esimerkiksi aloituksessakin. Sama ääniformaatti soveltuu siis erilaisille toistolaitteistoille, esim. kuulokkeille, sama äänitiedosto soveltuu kaikkiin toistotilanteisiin.
Jotta kuitenkin asia tulisi mahdollisimman selkeäksi pohjia myöten, niin aloitan lapsellisen yksikertaisella kysymyksellä: Jos kuuntelen kuulokkeilla objektipohjaista äänitettä, niin mitä kuulen?
Edit. Onko väärin kysyä kuulokkeista tässä osiossa? (Toisaalta, miksi ketju on monikanavassa eikä esim. hifi-osiossa, jos objektipohjaisuus ei ole toistolaitteistotyyppiriippuvainen?)
 
Viimeksi muokattu:
Itseäni kiinnostaisi ymmärtää paremmin objektipohjaisen äänitteen kuuntelua kuulokemaailmassa.
Koska en saanut yhtään vstausta, niin mahdollisesti kysymys on tyhmä eli vastaus itsestään selvä, tai vastaus on liian työläs tai vaikea tai sitten kukaan ei sitä tiedä. No, annetaan mahdollisuus AI:lle:
"Objektipohjaisen äänitteen kuuleminen kuulokkeilla edellyttää tiettyä tekniikkaa. Esimerkiksi Sony 360 Reality Audio on äänimuoto, joka käyttää Sonyn objektipohjaista spatiaalista ääniteknologiaa tarjoamaan täyden 360 asteen äänikokemuksen. Tämän kokemuksen saamiseksi tarvitset yhteensopivan laitteen ja ohjelmiston. Sony 360 Reality Audio -kokemuksen saamiseksi kuulokkeilla sinun on ensin ladattava iOS/Android-sovellus yhteensopivalle suoratoistopalvelulle. Tällä hetkellä näitä ovat Deezer, Tidal, Amazon Music HD ja nugs.net. Dolby Atmos -musiikin kuuntelemiseksi tarvitset pääsyn suoratoistopalveluun, joka tukee objektipohjaista formaattia, sekä Dolby Atmos -toistoa tukevan laitteen, olipa kyseessä sitten langaton kaiutin, soundbar, kuulokkeet tai jopa yhteensopiva älypuhelin tai tabletti. On tärkeää huomata, että vaikka korkealaatuiset ja tehokkaammat kuulokkeet luovat paremman äänen, ohjelmisto tarjoaa äänen, joten laitteiston laatu ei välttämättä ole ratkaiseva."

Aloituksen mukaan "(objektiivinen) äänitiedosto soveltuu kaikkiin toistotilanteisiin". AI:n antaman vastauksen perusteella näin ei kuitenkaan ilmeisesti olisi. :unsure:
 
"Soveltuu kaikkiin toistotilanteisiin" tietysti olettaa, että toistolaitteisto ymmärtää tallennusformaatin perustasolla. Kuvitteellisessa esimerkissä mahdollisimman yksinkertainen stereotoisto menisi sunnilleen: Kaksi objektia/kanavaa, koordinaatit (0,0,0) ja (0,0,0), metadata käskee syöttämään nämä L&R ja prosessointi pidetään minimissä.

Hienostuneempi käyttö alkaa jo tuotantovaiheesta ja voi oikeastaan sisältää useamman teoksen samassa paketissa, jos suuri osa miksauksesta tapahtuu käyttökohteessa. Esim. stereokuulokekuunteluun voitaisiin tehdä vokaaleista tilaefektit sisältävä versio ja objektien sijoittelu olisi yksinkertainen, kun taas monikanavasysteemissä efektejä luotaisiin tilan mukaan (lähes) käsittelemättömästä äänityksestä. Mahdollisuuksia näissä on vaikka millaisiin luomuksiin hyvässä ja pahassa.
 
Back
Ylös