Audio resolution test: 192kHz vs 96kHz vs 44.1kHz

spy · 21 Φεβρουαρίου 2010

Ourdarkness, ενώ συμφωνώ με πολλά από όσα γράφεις, η διατύπωσή σου με μπερδεύει. Π.χ. διαβάζοντας το πρώτο μισό του post σου κάποιος συμπεραίνει ότι τα 44.1 kHz είναι επαρκή, αλλά διαβάζοντας το δεύτερο μισό καταλαβαίνει ότι το oversampling είναι σχεδόν αναγκαίο.

Ενα γενικό σχόλιο (που δεν σχετίζεται με το post σου) είναι ότι το θέμα που συζητάμε μπορεί να μελετηθεί επακριβώς (με την εξαίρεση των φαινομένων που σχετίζονται με την ψυχοακουστική και των παραμορφώσεων στην τελική αναπαραγωγή του σήματος), αρκεί να γνωρίζουμε την υλοποίηση των φίλτρων που χρησιμοποιούνται στην όλη διαδικασία. Εδώ δεν ισχύει το ανέκδοτο με τον φυσικό και τα σφαιρικά κοτόπουλα στο κενό, ούτε μπαίνουν υποκειμενικές έννοιες του τύπου "αναλογική ζεστασιά", "σφιχτά μπάσα" κλπ.

Όσον αφορά το post σου, κάνω κάποιες διευκρινίσεις.

Δεν υπάρχουν άπειρες αρμονικές.

Υπάρχουν. Μπορεί η ενέργεια του σήματος στις υψηλές αρμονικές να είναι πολύ μικρή έως αμελητέα, αλλά είναι λάθος να γράφουμε ότι δεν υπάρχουν.

Ούτε καν ο θόρυβος που είναι η πιο πλούσια κυματομορφή, είτε φυσικός είτε τεχνητός, έχει άπειρες αρμονικές.

Για τον θόρυβο δεν έχει έννοια ο όρος "αρμονική". Εξ' ορισμού η αρμονική είναι ένα πολλαπλάσιο μιας θεμελιώδους συχνότητας.

Ακόμη και να υπάρχουν αρμονικές πάνω από τα 22,05 KHz...

Σε κάποια μουσικά όργανα υπάρχουν αρμονικές με μη αμελητέα ενέργεια πάνω από τα 22 kHz.

...για ποιό λόγο να μπούμε στην διαδικασία να τις ηχογραφήσουμε; Αφού κατ' αρχάς δεν τις ακούμε!

Αυτά τα έχουμε συζητήσει αρκετές φορές. Το oversampling δεν γίνεται τόσο για να ηχογραφηθούν οι υψηλές αρμονικές οι οποίες μπορεί να έχουν μία - μάλλον αμελητέα - συνεισφορά σε φαινόμενα όπως combination tones, αλλά για να περιοριστούν κάποια φαινόμενα που οφείλονται στο ότι οι D/A δεν υλοποιούν ακριβώς τη συνάρτηση Whittaker-Shannon αλλά κάποια προσέγγιση αυτής. Το λες κι εσύ παρακάτω. :)

Στα 44,1 KHz το lowpass φίλτρο του μετατροπέα έχει συχνότητα αποκοπής που βρίσκεται συνήθως από τον τύπο:

44,1 KHz * 0,455 (δεν είμαι σίγουρος 100% αν είναι 0,455 καθότι δεν μπορώ να βρώ ένα pdf από το οποίο έχω την πληροφορία αυτή).

= 21,84 KHz.

Νομίζω ότι αυτά ποικίλλουν από φίλτρο σε φίλτρο. Δεν νομίζω το 0.455 να είναι κάποια οικουμενική σταθερά.

...τα hi-hat που παράγουν αρκετές υψίσυχνες συχνότητες δεν ακούγονται καθαρά κ.λ.π. καθ' ότι κάποιες από τις αρμονικές τους είναι κοντά στα 20,0655 Hz...

Για τα κρουστά είναι επίσης αδόκιμο να μιλάμε για "αρμονικές".

haryy · 22 Φεβρουαρίου 2010

Από την άλλη, τα 96KHz πιστεύω θα ήταν πολύ πιο χρήσιμα αν έπρεπε το αρχείο να υποστεί κάποιου είδους επεξεργασία. Τότε ναι, και χρειάζονται και ακούγονται τα παραπάνω KHz ανάλυσης καθώς όλες οι μαθηματικές πράξεις που πραγματοποιεί ο επεξεργαστής ενός Η/Υ γίνονται με πολύ μεγαλύτερη ακρίβεια καθώς απαιτούνται λιγότερες στρογγυλοποιήσεις.

Καλημέρα. Και αυτή η παράμετρος των "στρογγυλοποιήσεων" είναι θέμα του quantizer (bits) και όχι του sample rate που χρησιμοποιούμε.

Απλώς όταν έχουμε μεγαλύτερη δειγματοληψία, τα "σκουπίδια" των στρογγυλοποιήσεων (quantization distortion) δεν παραμένουν μόνο στο ακουστικό φάσμα αλλά μεταφέρονται και στο μη-ακουστό οπότε και μειώνεται ουσιαστικά η ποσότητά τους (άλλο ένα πλεονέκτημα των υψηλών sample rates).

theonik · 22 Φεβρουαρίου 2010

Καλημέρα. Και αυτή η παράμετρος των "στρογγυλοποιήσεων" είναι θέμα του quantizer (bits) και όχι του sample rate που χρησιμοποιούμε.

Απλώς όταν έχουμε μεγαλύτερη δειγματοληψία, τα "σκουπίδια" των στρογγυλοποιήσεων (quantization distortion) δεν παραμένουν μόνο στο ακουστικό φάσμα αλλά μεταφέρονται και στο μη-ακουστό οπότε και μειώνεται ουσιαστικά η ποσότητά τους (άλλο ένα πλεονέκτημα των υψηλών sample rates).

Thanks haryy ;)

Superfunk · 22 Φεβρουαρίου 2010

Να πω απλά ότι δεν κατάλαβα διαφορές.

Μπορεί να φταίει το σύστημα ακρόασης μου ή απλά ότι η διαφορά είναι μηδαμινή για το συγκεκριμένο περιεχόμενο.

Αν έπρεπε να επιλέξω για να ηχογραφήσω μια δουλειά, θα διάλεγα τα 44,1kHz μιας και είμαι και τσίπης. ;D

Σε τελική ανάλυση θεωρώ ότι το σημαντικό είναι γράφουμε και να ακούμε σωστά. Σε αυτή την περίπτωση λοιπόν το 99,99% της πληροφορίας φαίνεται να αποδίδεται στα 44,1. Αν προκύπτει διαφορά παραπέρα, αφορά αυτό το 0,κάτι %, που έτσι κι αλλιώς ίσως ανήκει περισσότερο στη σφαίρα του μεταφυσικού για να αποδειχτεί ή απλά δεν είναι και τόσο σημαντικό να υπάρχει. Ισως το μικρόφωνο, ο προενισχυτής, τα ηχεία του ακροατή, ο κονβέρτορας να παίζουν σημαντικότερο ρόλο σε μια ηχογράφηση παρά η παραπάνω ανάλυση.

Θενκ γιου haryy.

+1000 ;)

22 Φεβρουαρίου 2010

Ενδιαφέρον θα είχε ακόμη για μένα να συζητήσουμε τα εντός του ακουστικού φάσματος.

Π.χ.

α) Τι χάνει(?) ένας converter κατά τη διάρκεια της διαδικασίας sample-and-hold και συγκεκριμένα στο στάδιο hold όπου περιμένει μέχρι να "πάρει" το επόμενο snapshot από τον αναλογικό ήχο?

Απ'ότι γνωρίζω, ιδανικά ένος τέτοιος μετατροπέας θα έπρεπε να παράγει ένα στιγμιαίο "spike" τάσης στην κατάλληλη τιμή και μετά να ξαναπέφτει στιγμιαία σε τάση 0 (το λεγόμενο "impulse train" στην βιβλιογραφία), και όχι αυτή την "κατά τμήματα συνεχή" γραφική παράσταση που προκύπτει απ'τη διαδικασία sample 'n' hold. Το ..."στιγμιαία"... είναι πολλές φορές μικρότερο του sample rate. Η απόκλιση του θεωρητικού σήματος (impulse train) απ'το πρακτικό (sample and hold) προκαλεί μια παραμόρφωση που δημιουργεί nulls (ακυρώσεις) στο φάσμα του ήχου στην έξοδο του κονβέρτερ. Το "bandwidth" κάθε ακύρωσης εξαρτάται απ'την διάρκεια της φάσης "hold".

Πχ. στην πρώτη εικόνα βλέπετε ένα white noise σήμα (κόκκινο), το ίδιο σήμα με "sample and hold" (μπλε) και το σήμα σαν impulse train (πράσινο).

Στις 3 τελευταίες εικόνες, βλέπετε το φάσμα των παραπάνω σημάτων για διαδοχικά αυξανόμενες τιμές της διάρκειας του hold. Βέβαια, στις πραγματικές υλοποιήσεις, το φαινόμενο δεν είναι τόσο έντονο. Συνήθως προκαλεί μια εξασθένιση ελάχιστων dB στο άνω άκρο του φάσματος. Υπήρχε παραπομπή προσφάτως σε κάποιο thread, πάνω σε αυτό το θέμα.

Απ'αυτά που έχω διαβάσει, καταλήγω στο συμπέρασμα ότι η αυξημένη δειγματοληψία κατά τη διάρκεια μιας ηχογράφησης δεν προσφέρει θεωρητικά κάτι παραπάνω στον ήχο, αλλά μπορεί να μας βοηθήσει να αποφύγουμε παραμορφώσεις κατά τη διάρκεια του κονβέρσιον στο ακουστό φάσμα. Παρόλο που το θεώρημα Shannon-Nyquist μας εγγυάται ότι δεν χάνουμε ακουστή πληροφορία από ένα σήμα στα 44.1ΚΗz, κανείς δεν μας εγγυάται ότι το σήμα μας δεν παραμορφώνεται πριν γίνει το σάμπλινγκ. Τι να το κάνω άμα δεν χάνεται ακουστή πληροφορία, όταν το σήμα που σαμπλάρεται είναι παραμορφωμένο;

Σε ένα βιβλίο που είχα διαβάσει, υποστήριζε ο συγγραφέας ότι τα κλασικά αναλογικά φίλτρα υποφέρουν σε τουλ. έναν από 3 αλληλοεπηρρεαζόμενους τομείς: στην παραμόρφωση του σήματος που αφήνουν να περάσει (passband ripple), στο step response όταν η είσοδος μεταβάλλεται γρήγορα (κουδούνισμα και overshoot) και στην "κλίση" της εξασθένισης που εισάγουν πριν ή μετά τη συχνότητα αποκοπής. Κάθε φίλτρο (chebyshev, bessel, ελλειπτικό) που τα πάει καλά σε έναν απ'αυτούς τους τομείς, υστερεί σημαντικά στους άλλους δύο, και φυσικά το οποιοδήποτε cascading τους σε 2 ή περισσότερες διατάξεις, κάνει τα προβλήματα πιο εμφανή.

Για το Low pass φίλτρο ενός μετατροπέα λοιπόν, προτεινόταν η χρήση ενός φίλτρου bessel, που έχει την λιγότερη passband παραμόρφωση και το πιο ομαλό step response. Η λύση που πρότεινε ο συγγραφέας για το μη επαρκές roll off ώστε να αποφευχθεί κάθε περίπτωση aliasing, ήταν απλά η επιλογή μεγαλύτερης δειγματοληψίας. Αντί να "κυνηγάς" εξασθένιση από 0 σε μείον άπειρο μέσα σε ~22KHz (στην περίπτωση των 44.1KHz), μπορείς να επιτύχεις την ίδια εξασθένηση (κρατώντας την κλίση του φίλτρου σταθερή) σε διπλάσιο/τριπλάσιο bandwidth, κερδίζοντας παράλληλα πολύ καλύτερη συμπεριφορά στο Passband (μισό απ'το οποίο δεν θα είναι καν ακουστό) και σε περίεργα σήματα εισόδου που μπορεί να παρουσιάσουν πρόβλημα με άλλες υλοποιήσεις.

audiobox · 22 Φεβρουαρίου 2010

Λοιπόν μάγκες, το θέμα λύνεται πολύ εύκολα, στην... μεταφυσική του διάσταση. Δηλαδή : Εφόσον κάποιος ορκίζεται ότι μιά Fender του ΄70 έχει καλύτερο ήχο από μιά σημερινή, ότι το TR-808 αξίζει να το πληρώσεις 1000 ευρώ γιατί "σκοτώνει", ότι τα strings της Roland είναι καλύτερα από της Korg, ενώ κάποιος άλλος ακριβώς το ανάποδο, ότι το 57άρι είναι το σωστό μικρόφωνο για ηχογράφηση κιθάρας, ότι το Nuendo έχει καλύτερο ήχο από το Cubase, ότι τα pc υστερούν σε σχέση με τα mac, ότι τα Sabian είναι καλύτερα από τα Zildjian, κτλ. κτλ. τότε είναι ΕΜΦΑΝΕΣ και ΣΙΓΟΥΡΟ ότι τα 96Khz είναι καλύτερα από τα 48ΚHz. Βλέπετε? Είναι απολύτως ξεκάθαρο!

bloody_sunday · 23 Φεβρουαρίου 2010

Tα ίδια έλεγε και αυτός:

;D ;D

audiobox · 23 Φεβρουαρίου 2010

...Και μου μοιάζει κιόλας...

haryy · 23 Φεβρουαρίου 2010

Απ'ότι γνωρίζω, ιδανικά ένος τέτοιος μετατροπέας θα έπρεπε να παράγει ένα στιγμιαίο "spike" τάσης στην κατάλληλη τιμή και μετά να ξαναπέφτει στιγμιαία σε τάση 0 (το λεγόμενο "impulse train" στην βιβλιογραφία), και όχι αυτή την "κατά τμήματα συνεχή" γραφική παράσταση που προκύπτει απ'τη διαδικασία sample 'n' hold. Το ..."στιγμιαία"... είναι πολλές φορές μικρότερο του sample rate. Η απόκλιση του θεωρητικού σήματος (impulse train) απ'το πρακτικό (sample and hold) προκαλεί μια παραμόρφωση που δημιουργεί nulls (ακυρώσεις) στο φάσμα του ήχου στην έξοδο του κονβέρτερ. Το "bandwidth" κάθε ακύρωσης εξαρτάται απ'την διάρκεια της φάσης "hold".

Πχ. στην πρώτη εικόνα βλέπετε ένα white noise σήμα (κόκκινο), το ίδιο σήμα με "sample and hold" (μπλε) και το σήμα σαν impulse train (πράσινο).

Στις 3 τελευταίες εικόνες, βλέπετε το φάσμα των παραπάνω σημάτων για διαδοχικά αυξανόμενες τιμές της διάρκειας του hold. Βέβαια, στις πραγματικές υλοποιήσεις, το φαινόμενο δεν είναι τόσο έντονο. Συνήθως προκαλεί μια εξασθένιση ελάχιστων dB στο άνω άκρο του φάσματος. Υπήρχε παραπομπή προσφάτως σε κάποιο thread, πάνω σε αυτό το θέμα.

Απ'αυτά που έχω διαβάσει, καταλήγω στο συμπέρασμα ότι η αυξημένη δειγματοληψία κατά τη διάρκεια μιας ηχογράφησης δεν προσφέρει θεωρητικά κάτι παραπάνω στον ήχο, αλλά μπορεί να μας βοηθήσει να αποφύγουμε παραμορφώσεις κατά τη διάρκεια του κονβέρσιον στο ακουστό φάσμα. Παρόλο που το θεώρημα Shannon-Nyquist μας εγγυάται ότι δεν χάνουμε ακουστή πληροφορία από ένα σήμα στα 44.1ΚΗz, κανείς δεν μας εγγυάται ότι το σήμα μας δεν παραμορφώνεται πριν γίνει το σάμπλινγκ. Τι να το κάνω άμα δεν χάνεται ακουστή πληροφορία, όταν το σήμα που σαμπλάρεται είναι παραμορφωμένο;

Σε ένα βιβλίο που είχα διαβάσει, υποστήριζε ο συγγραφέας ότι τα κλασικά αναλογικά φίλτρα υποφέρουν σε τουλ. έναν από 3 αλληλοεπηρρεαζόμενους τομείς: στην παραμόρφωση του σήματος που αφήνουν να περάσει (passband ripple), στο step response όταν η είσοδος μεταβάλλεται γρήγορα (κουδούνισμα και overshoot) και στην "κλίση" της εξασθένισης που εισάγουν πριν ή μετά τη συχνότητα αποκοπής. Κάθε φίλτρο (chebyshev, bessel, ελλειπτικό) που τα πάει καλά σε έναν απ'αυτούς τους τομείς, υστερεί σημαντικά στους άλλους δύο, και φυσικά το οποιοδήποτε cascading τους σε 2 ή περισσότερες διατάξεις, κάνει τα προβλήματα πιο εμφανή.

Για το Low pass φίλτρο ενός μετατροπέα λοιπόν, προτεινόταν η χρήση ενός φίλτρου bessel, που έχει την λιγότερη passband παραμόρφωση και το πιο ομαλό step response. Η λύση που πρότεινε ο συγγραφέας για το μη επαρκές roll off ώστε να αποφευχθεί κάθε περίπτωση aliasing, ήταν απλά η επιλογή μεγαλύτερης δειγματοληψίας. Αντί να "κυνηγάς" εξασθένιση από 0 σε μείον άπειρο μέσα σε ~22KHz (στην περίπτωση των 44.1KHz), μπορείς να επιτύχεις την ίδια εξασθένηση (κρατώντας την κλίση του φίλτρου σταθερή) σε διπλάσιο/τριπλάσιο bandwidth, κερδίζοντας παράλληλα πολύ καλύτερη συμπεριφορά στο Passband (μισό απ'το οποίο δεν θα είναι καν ακουστό) και σε περίεργα σήματα εισόδου που μπορεί να παρουσιάσουν πρόβλημα με άλλες υλοποιήσεις.

Πάρα πολύ καλή ανάλυση φίλε infectme247.

Όλα αυτά τα μειονεκτήματα των φίλτρων στις χαμηλές αναλύσεις έχουν οδηγήσει πολλούς κατασκευαστές στην επιλογή oversampling converters.

Οποιοδήποτε sample rate και να θέλουμε, ο converter κάνει oversampling σε πολλαπλάσια της αρχικής, δειγματοληψία, και έτσι μπορεί να χρησιμοποιηθεί στην αρχή χαμηλότερης "ποιότητας" αναλογικό LPF αφού η αποκοπή μπορεί να επιτευχθεί πια πολύ ομαλά (μεγαλύτερο εύρος συχνοτήτων).

Η επιστροφή στο επιθυμητό sample rate γίνεται έπειτα με downsampling και ψηφιακό LPF το οποίο δεν έχει τα προαναφερθέντα μειονεκτήματα των αναλογικών.

Σύνδεση

Audio resolution test: 192kHz vs 96kHz vs 44.1kHz

Προτεινόμενες αναρτήσεις

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Περισσότερες συμμετοχές

Περισσότερες συμμετοχές

Εικόνες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

ex-infectme247

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργήστε λογαριασμό

Σύνδεση

Συζητήσεις

odis13

Oldies but goodies

Τα cookies