Τι ακριβώς παραλείπεται σε ένα mp3;

Vaggelis_Revolted · 5 Σεπτεμβρίου 2011

Καλησπέρα, ξεκινάω αυτό το θέμα με αφορμή ένα παλιότερο άρθρο που βρήκα εδώ σχετικά με τα mp3 (http://www.noiz.gr/index.php?action=articles;sa=view;article=380)

Το άρθρο αναφέρει τα εξής:

Τι είναι επιτέλους αυτό το MP3;
Κάθε ηλεκτρονικός υπολογιστής με λειτουργικό Windows χρησιμοποιεί σαν βασικό αρχείο αποθήκευσης ήχου το Wave (.wav). Το MP3 (.mp3) δεν είναι τίποτ’ άλλο παρά μια συμπιεσμένη μορφή του. Παράγεται μέσω software το οποίο χρησιμοποιεί έναν απωλεστικό αλγόριθμο συμπίεσης (σημ. ο απωλεστικός αλγόριθμος κατά τη διαδικασία της συμπίεσης χάνει για πάντα κάποιο μέρος της πληροφορίας το οποίο δεν μπορεί πλέον με κανένα τρόπο ν’ ανακτηθεί). Ο εν λόγω λοιπόν, για να μειώσει το μέγεθος του αρχικού ασυμπίεστου αρχείου εκμεταλλεύεται μια ιδιαιτερότητα της ανθρώπινης ακοής που ονομάζεται ακουστική σκίαση. Με απλά λόγια, ανιχνεύει τα στοιχεία εκείνα από την αρχική μουσική πληροφορία που δεν θα είναι σε θέση (θεωρητικά) το ανθρώπινο αυτί να διακρίνει και τ’ αφαιρεί.

Η ερώτησή μου είναι η εξής: τι ακριβώς αφαιρείται από τον αρχικό ήχο του wav?

Ποιά είναι τα στοιχεία δηλαδή που δεν γίνονται αντιληπτά θεωρητικά από ένα wav αρχείο και τα οποία τελικά εμείς αφαιρούμε κατά τη μετατροπή;

Πρώτη μου σκέψη είναι οι συχνότητες εκτός της 20 Hz - 20Khz, αλλά αρκεί ένα απλό high/low pass να μικρύνει το αρχείο τόσο πολύ; Η μιλάμε για κάτι άλλο;

Thanx προκαταβολικά.

skantzos · 5 Σεπτεμβρίου 2011

Πρώτη μου σκέψη είναι οι συχνότητες εκτός της 20 Hz - 20Khz, αλλά αρκεί ένα απλό high/low pass να μικρύνει το αρχείο τόσο πολύ; Η μιλάμε για κάτι άλλο;

αυτές οι συχνότητες δεν υπάρχουν ούτε στο ασυμπίεστο (.wav), το φάσμα είναι περιορισμένο όταν κάνουμε αναλογικο-ψηφιακή μετατροπή

λεπτομέρειες για το mp3 δεν ξέρω, αλλά χρησιμοποιούνται οι λεγόμενοι ψυχοακουστικοί αλγόριθμοι, με τους οποίους αφαιρείται πληροφορία η οποία δε γίνεται εύκολα αντιληπτή με το αυτί

Με ένα καλό ζευγάρι ηχεία και το ίδιο κομμάτι ασυμπίεστο και σε mp3 ακούγεται διαφορά, ειδικά όσο χαμηλώνει το bitrate.

blue · 5 Σεπτεμβρίου 2011

λεπτομέρειες για το mp3 δεν ξέρω, αλλά χρησιμοποιούνται οι λεγόμενοι ψυχοακουστικοί αλγόριθμοι, με τους οποίους αφαιρείται πληροφορία η οποία δε γίνεται εύκολα αντιληπτή με το αυτί

Παραλείπεται πληροφορία η οποία "υπονοείται" από το αντιληπτικό μας σύστημα, δηλαδή "σχηματίζεται" στον εγκέφαλο επειδή "περιμένει" να είναι υπαρκτή ενώ δεν είναι μετρήσιμη με φυσικές μεθόδους (γιατί δεν υπάρχει). Κοινώς αφαιρούνται συστατικά που ο εγκέφαλος είναι ικανός να τοποθετήσει εκεί που θα έπρεπε να βρίσκονται αρχικά.

Ένα απλό παράδειγμα (όχι για το mp3, αλλά για τον αντιληπτικό μηχανισμό που εκμεταλλεύεται) είναι οτι αν απουσιάζει η θεμελιώδης συχνότητα ενός τόνου, τότε αυτή συνάγεται από τις αρμονικές της στο αντιληπτικό μας σύστημα και ένα οπτικό παράδειγμα είναι οτι είναι εύκολο να αντιληφθούμε ένα σχήμα ως κύκλο, ακόμη και αν λείπουν τμήματα από την περιφέρειά του.

Μέχρι εκεί κσέρο εγό και δίνω το mic σ' αυτόν που έχει να πει περισσότερα :)

odis13 · 5 Σεπτεμβρίου 2011

Σε γενικες γραμμες, ισχυουν αυτα που σου ανεφεραν ηδη. Οπως ειπε ο skantzos, οι συχνοτητες που αφαιρουνται ανηκουν στο audible range και το ψυχοακουστικο φαινομενο λειτουργει οπως στο περιεγραψε ο blue.

To MPEG-1 standard ομως, συμφωνα με το οποιο γινεται η κωδικοποιηση σε mp3, δεν περιγραφει ακριβως πως γινεται αυτη η διαδικασια. Ο καθε κατασκευαστης encoding software χρησιμοποιει τους δικους του αλγοριθμους βασισμενος σε παραδειγματα και guidelines που δινει το MPEG-1. Ως εκ τουτου, το ΤΙ ακριβως (και ΠΩΣ) αφαιρειται μπορει να διαφερει απο encoder σε encoder (οπως μπορει να διαφερει ποιοτικα και το αποτελεσμα).

parasvag · 5 Σεπτεμβρίου 2011

Πωλι καλλα τα υπαις πεδη μου Blue, σου βαζο τγια! ;D ;D ;D

Η βάση είναι όπως την εξήγησε ο Blue. Οι λίγες παραπάνω λεπτομέρειες (πολύ λίγες) που ξέρω κι εγώ είναι οι εξής: Συμπίεση γίνεται στον χρόνο και στις συχνότητες. Υπάρχουν τυποποιημένα συστήματα για την συμπίεση αυτή που κυκλοφορούν σε αλγόριθμους. Αυτά όντως βασίζονται στις ανακαλύψεις της ψυχοακουστικής, εννοώντας οτι για να μικρύνουν το αρχείο υπολογίζουν ποιά ακουστικά γεγονότα δεν θα γίνουν αντιληπτά απο το αυτί και θα συμπληρωθούν απο τον ακουστικό φλοιό. Αυτά συνήθως έχουν να κάνουν με: τις συχνότητες που δεν ακούμε (band pass filter 18,5 -22), με τις συχνότητες που βρίσκονται κάτω απο το όριο της ακοής (σε ένταση), με συχνότητες που υπερκαλύπτονται απο άλλες την ίδια στιγμή (οπότε το αυτί δεν τις διακρίνει), με ήχους που επισκιάζονται απο άλλους που έρχονται αμέσως μετά (ή πριν) καθώς και με μείωση των bit του τύπου -> 111111 => 1_1_1. Το τελευταίο απλά το συμπληρώνει ο εγκέφαλος (ακουστικός φλοιός) όπως περιέγραψε ο blue για την missing fundamental.

Όντος έχει πέσει πολύ δουλειά στον υπολογισμό και οι αλγόριθμοι είναι φτιαγμένοι απο επιστήμονες με μεγάλο κύρος στην ψυχοακουστική. Αλλά κενά πάντα θα υπάρχουν. ;)

Edit: Και ο Odis13 έχει δίκιο :D οτι τα συστήματα αυτά δεν περιγράφουν ακριβώς τι κάνουν αλλά τις βασικές ψυχοακουστικές γραμμές που πρέπει να ακολουθηθούν. Έτσι, έχεις και διαφορετικους αλγόριθμους για να διαλέξεις υποτίθεται τον καλύτερο.

Vaggelis_Revolted · 5 Σεπτεμβρίου 2011

Thanx παιδιά για τις απαντήσεις σας.

Η αλήθεια είναι ότι θεωρητικά περίμενα πως η απάντηση θα ήταν του τύπου, "θυσιάζονται οι χ, ψ συχνότητες".

Μιλάμε όμως για ένα ευρύτερο σύνολο πληροφοριών, οπότε εκεί οφείλεται και η ελλειψη μονολεκτικής απάντησης τόσο εδώ, όσο και σε σχετικό googlάρισμα.

Και πάλι ευχαριστώ για τις απαντήσεις σας, cheers!

harilatron · 5 Σεπτεμβρίου 2011

Κράτα κατά νου, ότι η απλή απόρριψη κάποιων συχνοτήτων δεν θα μείωνε το μέγεθος της πληροφορίας που απαιτείται για την αποθήκευση του αρχείου.

Η λογική στη συμπίεση είναι ότι καταγράφεις και αποθηκεύεις λιγότερη πληροφορία ή οποία όμως -με κάποιο τρόπο- είναι αρκετή ώστε να καθίσταται δυνατή η αναπαραγωγή του αρχείου (με κάποια "σφάλματα" σε σχέση με το αρχικό).

Για να δώσω ένα παράδειγμα, (χωρίς να σημαίνει ότι το encoding mp3 γίνεται με αυτό τον τρόπο) φανταστείτε τα ακόλουθα:

Έστω ένα κόμμάτι το οποίο είναι stereo 44.1 KHz, 16bit και διαρκεί 200 sec. Η συνολική πληροφορία είαι 2*44100*16*200=282240000 bit = 35280000 byte δηλαδή περίπου 34.4 ΜΒ

Αν ένας αλγόριθμος διαπιστώσει ότι στο κομμάτι δεν υπάρχει καμμία πληροφορία πάνω από τα 4 KHz (έστω ότι τραγουδάει ο Κώστας Χατζής συνοδεία μόνο ενός μπάσου :P ) τότε θεωρητικά μπορεί να κάνει ένα resampling στα 8KHz και να αποθηκεύσει το κομμάτι στο 1/5 του αρχικού χώρου. Ασφαλώς θα πρέπει και με κάποιο τρόπο να δηλώσει αυτή του την ενέργεια στη συσκευή που θα κάνει την αναπαραγωγή.

Σε μια τέτοια υποθετική περίπτωση (δηλαδή μηδενικό φασματικό περιεχόμενο πάνω από τα 4 KHz) η παραπάνω διαδικασία οδηγεί σε μια μη-απωλεστική συμπίεση (δηλαδή δεν χάνεις τίποτα από πληροφορία και το κομμάτι θα ακούγεται ακριβώς ίδιο).

Αν θέλεις να το παρακάνεις, μπορείς να δειγματοληπτείς με δυναμικό τρόπο, δηλαδή εκεί που υπάρχουν ψηλές (π.χ. στα μεταβατικά) να δειγματοληπτείς "πυκνά" κι εκεί που παίζει μόνο το μπάσο να δειγματοληπτείς ακόμα πιο αραιά.

Και αν "επιτρέπεις" να χαθεί και κάτι από πληροφορία (πάντα με κριτήριο το αν είναι πιθανό να το ακούσει ο ακροατής ή όχι) τότε μπορείς να πετάξεις ακόμα περισσότερα. Αλλά η λειτουργία αυτή σε καμία περίπτωση δεν μπορεί να περιγραφεί απλά μέσω της απόρριψης συχνοτήτων.

estenough · 6 Σεπτεμβρίου 2011

H βασική αρχή των mp3 είναι ότι αλλάζει ο ρυθμός της δειγματοληψίας (sample & bit rate) με αποτέλεσμα να μειώνεται το συνολικό μέγεθος του κομματιού.

Όταν ηχογραφούμε σε αναλογική μορφή έχουμε μια συνεχή ροή πληροφορίας χωρίς καμία δειγματοληψία, ενώ κατα την μετατροπή σε mp3 πέρνουμε δειγματοληπτικά κάποια κομμάτια απο την συνεχή αυτή πληροφορία και τα ενώνουμε.

Η δειγματοληψία έχει 2 βασικά χαρακτηριστικά.

1) Sample rate. Είναι ο ρυθμός δειγματοληψίας και μετριεται σε Hz. Συνήθως 44.100 για τα mp3, το οποίο σημαίνει οτι πάιρνει δείγμα κάθε 1 / 44.100Hz = 22.7 μsec

2) Bit Rate. Είναι ο αριθμός των κομματιών που θα σπάσει το μέγιστο πλάτος της πληροφορίας (κάτι σαν την ένταση του κομματιού στο συγκεκριμένο σημείο της δειγματοληψίας). Αυτά είναι τα bit του mp3. π.χ. 16 bit.

Σε περίπτωση που βρεθούν 2 ή περισσότερα ίδια κομμάτια πληροφορίας κατα την δειγματοληψία αυτά θα ενωθούν στο mp3 για εξοικονόμηση χώρου.

Για παράδειγμα έστω πως έχουμε ένα αναλογικό σήμα του 1KHz για 10 δευτερόλεπτα.

το sample rate θα πέρνει κάθε 22,7 μsec σαν δείγμα το 1KHz.

το bit rate θα πέρνει κάθε 22,7 μsec την ένταση της συχνότητας αυτής.

Συνολικά θα έχουμε 10 sec / 22,7 μsec = 440.529 δείγματα

Επειδή έχουμε bit rate 16 bit, κάθε δείγμα θέλει 2 byte. Συνολικά 881058 Byte = 860 KB

Αν υπάρχουν συνεχόμενες ίδιες δειγματοληψίες τότε το συνολικό μέγεθος θα πέσει πάρα πολύ, γιατί θα γίνει η ένωση των ίδιων.

Σε αναλογική ηχογράφηση το μέγεθος μπορεί να ήταν και 10-20 φορές μεγαλύτερο.

Το ίδιο ισχύει και για πολυφωνικά σήματα (τραγούδια).

Απο συχνότητες τα mp3 δεν αφαιρούν τίποτα.

Αν διπλασιάσουμε την συχνότητα δειγματοληψίας και κρατήσουμε όλα τα άλλα σταθερά, θα έχουμε τα διπλάσια δείγματα, άρα και το διπλάσιο μέγεθος αρχείου.

Το ίδιο θα συμβεί αν κρατήσουμε ίδια συχνότητα δειγματοληψίας και διπλασιάσουμε το bit rate.

odis13 · 6 Σεπτεμβρίου 2011

To mp3, περαν του downsampling που ανεφερες, αφαιρει και συχνοτητες - ειναι ενα ειδος perceptual coding. Αφαιρει συχνοτητες που δεν γινονται αντιληπτες λογω του auditory masking που αναφερθηκε νωριτερα. Φυσικα δεν μπορεις να πεις εκ των προτερων οτι αυτες οι συχνοτητες ειναι η ταδε και ταδε.

Steps in the MP3 algorithm:

1)Use convolution filters to divide the audio signal (for example, 48 kHz sound) into frequency sub-bands that approximate the 32 critical bands (sub-band filtering).

2)Determine amount of masking for each band caused by nearby band (the psychoacoustic model).

3)If the power in a band is below the masking threshold, it is rejected.

4)If the power is within acceptable limits, determine number of bits needed to represent the coefficient such that noise introduced by quantization is below the masking effect (1-bit of quantization introduces about 6 dB of noise).

5)Format bitstream.

A high-quality critical band filter is used (non-equal frequencies) for MP3. In addition, the psychoacoustic model includes temporal masking effects, takes into account stereo redundancy, and uses a Huffman coder.

estenough · 6 Σεπτεμβρίου 2011

Αυτές οι συχνότητες που αφαιρεί είναι συνήθως θόρυβος και μπορεί να είναι διαφορετικές σε κάθε δείγμα. Αν είναι κάτω απο κάποιο συγκεκριμένο όριο (πλάτος σήματος) τις απορίπτει.

Αυτό που έγραψα πριν οτι τα mp3 δεν αφαιρούν τίποτα απο συχνότητες, ήθελα να πω οτι δεν υπάρχει περίπτωση π.χ. να αφαιρέθούν μόνο τα 500 Hz απο όλο το κομμάτι, δλδ κάτι σαν φίλτρο, παρόλο που υπάρχουν στην raw πληροφορία.

Σύνδεση

Τι ακριβώς παραλείπεται σε ένα mp3;

Προτεινόμενες αναρτήσεις

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργήστε λογαριασμό

Σύνδεση

Συζητήσεις

odis13

Oldies but goodies

Τα cookies