Audio data datang dalam berbagai bentuk kadang-kadang membingungkan. Jumlah cara mendasar di mana suara dapat diwakili sebenarnya cukup kecil. Berbagai jenis file audio adalah karena fakta bahwa ada cukup beberapa pendekatan untuk data audio mengompresi dan sejumlah cara yang berbeda dari kemasan data. Kami pertama-tama menjelaskan bagaimana data audio sendiri diwakili, maka bagaimana itu dibungkus ke file. Orang sering berbicara tentang format audio sembarangan tanpa membedakan antara format data dan format file, tetapi sangat penting untuk menjaga perbedaan ini dalam pikiran banyak format file dapat berisi tanggal direpresentasikan di lebih dari satu cara dan sebagian besar representasi data dapat dikemas di lebih dari satu format file. Mengatakan bahwa file suara adalah ". Wav" file mengatakan apa-apa tentang format data audio. Demikian pula, mengatakan bahwa file berisi data PCM mengatakan apa-apa tentang format file.
Perwakilan dari Sound itu Sendiri
Fundamental Aspek Representasi Sound
Suara terdiri dari variasi terdengar dalam tekanan udara. Mikrofon mengubah variasi tekanan udara menjadi tegangan yang bervariasi. Untuk mewakili suara digital, kita harus mengkonversi tegangan ini bervariasi menjadi serangkaian angka yang mewakili amplitudonya. Proses ini dikenal sebagai konversi analog-ke-digital. Data Audio terdiri dari angka tersebut dikatakan dalam format modulasi kode pulsa, disingkat PCM. Audio data sering disimpan dalam format lain, biasanya dalam rangka untuk kompres itu, namun hampir selalu dimulai dalam format PCM.
Angka-angka yang dihasilkan oleh konverter analog-ke-digital, secara umum, sewenang-wenang. Meskipun data tekanan asli memiliki dimensi dynes per sentimeter persegi, hubungan antara nilai-nilai tekanan aktual dan nomor-nomor yang dihasilkan oleh konversi analog-ke-digital ditentukan baik oleh karakteristik respon mikrofon dan oleh preamplifier di analog-ke -digital converter. Kita jarang mengetahui sifat yang tepat baik mikrofon atau konverter analog-ke-digital. Selanjutnya, kita biasanya menyesuaikan konverter analog-ke-digital, atau preamplifier yang mendahului, untuk memilih tingkat input yang terbaik. Kami ingin menggunakan rentang dinamis terbesar mungkin, sehingga dapat mengambil keuntungan dari detail penuh sinyal, sementara pada saat yang sama memastikan bahwa kami tidak melampaui batas dari elektronik dan kliping menghindari, yang mendistorsi sinyal.Oleh karena itu, hampir tidak pernah terjadi bahwa kita tahu berapa banyak dynes per sentimeter persegi nomor mewakili. Untuk sebagian besar tujuan ini tidak masalah karena semua kita peduli tentang adalah amplitudo relatif dari sinyal. tingkat tekanan absolut yang menarik untuk beberapa pekerjaan di psychophysics pendengaran. Dalam hal ini, perlu untuk mengkalibrasi sistem dan memperbaiki parameter (seperti keuntungan preamplifier).
Tekanan udara variasi, dan oleh karena itu tegangan yang sesuai yang dihasilkan oleh mikrofon, yang terus menerus dalam dua-dimensi. Artinya, nilai-nilai bervariasi terus menerus, dan mereka ada di setiap titik waktu. Namun, sistem digital seperti komputer tidak dapat secara langsung merupakan sinyal kontinyu. Sebaliknya, ia harus mengukur sinyal pada himpunan terhingga kali diskrit. Ini dikenal sebagai sampling. Furtheremore, harus membuat penggunaan jumlah terbatas tingkat amplitudo diskrit. Ini dikenal sebagai kuantisasi. Jumlah level yang digunakan dikenal sebagai resolusi. Resolusi biasanya dinyatakan dalam bit, yaitu, sebagai logaritma-2 dasar tentang jumlah sebenarnya. Sebuah sistem dengan resolusi 8 bit memanfaatkan 2 ^ 8 = 256 level. Sebuah sistem dengan resolusi 16 bit memanfaatkan 2 ^ 16 = 65.536 level. Tingkat sampling dan resolusi menentukan kualitas representasi digital dari suara. "CD-kualitas" suara memiliki resolusi 16 bit dan tingkat sampling dari 44.100 sampel per detik.
Berikut ini adalah terus menerus gelombang:
dan di sini adalah representasi sampel dan terkuantisasi itu:
Sampling Rate
Tingkat pengambilan sampel adalah jumlah kali per detik bahwa amplitudo dari sinyal diukur dan memiliki dimensi sampel per detik. Semakin tinggi sampling rate, semakin akurat sinyal sampel akan mewakili sinyal asli. Pemilihan sampling rate ditentukan oleh Teorema Sampling Nyquist. Teorema ini menyatakan bahwa jika frekuensi maksimum di mana sinyal asli mengandung energi adalah F, maka jika sampel pada tingkat yang ketat lebih besar dari 2F sampel per detik, maka akan mungkin untuk merekonstruksi sinyal asli sempurna dari sinyal sampel. Dengan kata lain, sinyal sampel akan berisi semua informasi dalam sinyal asli.
Penting untuk dicatat bahwa laju sampling harus benar-benar lebih besar dari 2F.Sampling pada tingkat tepat 2F dapat mengakibatkan kesalahan. Sebagai contoh, anggaplah bahwa sinyal asli adalah gelombang sinus frekuensi F. Jika kita sampel pada frekuensi 2F, dengan sampel pertama pada waktu 0, semua contoh kami akan memiliki nilai 0. Gelombang sinus yang asli tidak bisa direkonstruksi dari seperti sinyal sampel. Hal ini mudah dilihat dalam ilustrasi berikut. Semua menunjukkan empat 1Hz gelombang sinus. Dua di sebelah kiri memiliki fase 0. Dua di sebelah kanan memiliki fase π. Kedua atas memiliki amplitudo 1.0. Dua bawah memiliki amplitudo 2.0. Jika kita sampel di dua sampel per detik dengan offset 0, semua contoh kami akan 0 pada semua empat kasus. Sinyal sampel tidak akan berisi informasi yang diperlukan untuk memutuskan mana dari empat sinyal asli untuk merekonstruksi.
Furthermore, teorema Nyquist didasarkan pada asumsi bahwa sinyal asli panjang tak terhingga. Jika tidak, sampling di lebih dari laju Nyquist dari 2F belum tentu mengizinkan reconsruction sempurna. Jika tingkat sampling hanya sedikit lebih besar dari tingkat Nyquist, kenaikan mungkin tidak menggeser titik sampling di atas cukup jauh untuk membuat nilai terkuantisasi berbeda. Perhatikan lagi contoh kita dari gelombang sinus. Mari kita anggap bahwa frekuensi adalah 1000 Hz. Jika kita sampel pada tingkat 2000 sampel per detik kita mungkin berakhir dengan setiap sampel sama dengan 0. Misalkan kita sampel pada tingkat tahun 2001 sampel per detik, yang secara teknis satsifies kriteria Nyquist. Jika sinyal cukup panjang, bahkan jika sampel pertama berada pada nol, beberapa sampel akan menjadi jarak yang signifikan dari nol dan akan ada informasi yang cukup untuk merekonstruksi sinyal.Tetapi jika sinyal cukup pendek, akan diambil sampel pada titik-titik dimana nilai yang begitu dekat dengan nol yang mungkin tidak dibedakan dari nol ketika terkuantisasi. Akibatnya, untuk sinyal pendek perlu menggunakan tingkat sampling secara signifikan lebih tinggi daripada frekuensi Nyquist.
Intuitif mungkin tampak bahwa jika suatu sinyal diambil pada tingkat terlalu rendah akibat akan menjadi bahwa komponen frekuensi yang lebih tinggi akan hilang, tetapi bahwa komponen frekuensi yang lebih rendah akan terpengaruh. Sayangnya, hal ini tidak terjadi. Sebaliknya, apa yang terjadi adalah bahwa energi dari frekuensi yang lebih tinggi diperlakukan seolah-olah berada di frekuensi yang lebih rendah; energi ditambahkan ke energi benar-benar hadir pada frekuensi yang lebih rendah. distorsi ini dikenal sebagai aliasing.
Dalam rangka untuk mendigitalkan sinyal tanpa bahaya aliasing, adalah kebiasaan untuk lulus melalui sebuah low-pass filter pertama dalam rangka untuk menghilangkan energi apapun di atas frekuensi Nyquist. Sebagai contoh, jika kita tertarik pada energi hingga 8Khz, kita dapat sampel pada frekuensi sedikit lebih dari 16.000 sampel per detik, setelah menyaring energi di atas 8Khz. Namun, realisasi fisik low-pass filter tidak cukup dengan memberikan 100% dari energi yang di bawah frekuensi cutoff dan menghilangkan semua energi di atasnya. Penurunan energi di atas frekuensi cutoff nominal bertahap. Jika kita menggunakan filter dengan cutoff nominal 8Khz, kita mungkin masih memiliki energi yang signifikan di daerah sedikit di atas 8Khz. Oleh karena itu, agar aman, jika kita tahu bahwa kita tertarik energi hingga F frekuensi, kami menggunakan low-pass filter dengan cutoff nominal F dan kita memilih tingkat sampling secara signifikan atas 2F. Dengan begitu, laju sampling kami akan cukup tinggi bahwa setiap energi di wilayah tepat di atas frekuensi cutoff nominal tidak akan alias. Praktek yang umum adalah dengan menggunakan tingkat sampling 2.5F. Konverter analog-ke-digital lama yang memungkinkan pilihan tarif sampling harus memiliki filter analog variabel sebelum digitizer. Saat ini, pengolahan sinyal hardware sangat cepat dan murah bahwa pendekatan yang biasa adalah dengan menggunakan low-pass filter dengan frekuensi cutoff tetap, maka sampel pada tingkat tinggi. Sinyal sampel ini kemudian downsampled (dikonversi ke tingkat sampling yang lebih rendah) setelah digital low-pass filter.
Tingkat sampling yang paling umum saat ini adalah 44.100 sampel per detik. Ini adalah tingkat pengambilan sampel yang digunakan untuk CD musik. Karena pasar musik jauh lebih besar dari yang lain (seperti pasar untuk penelitian fonetik akustik), off-the-rak perangkat keras dan perangkat lunak dirancang untuk spesifikasinya.Tingkat sampling memungkinkan untuk konten frekuensi sampai sedikit di atas 20kHz, yang mencakup seluruh rentang bahwa manusia bisa mendengar. Memang, kebanyakan orang dewasa tidak dapat mendengar frekuensi hampir yang tinggi.
Ketika bahan digitalisasi untuk penelitian linguistik, Anda dapat menghemat ruang dengan menggunakan tingkat sampling yang lebih rendah, mengatakan 22.050 sampel per detik. Semua informasi linguistik dalam pidato di bawah 8KHz, sehingga tingkat ini lebih dari cukup.
Sampling rate lain yang kadang-kadang terlihat adalah 8.000 sampel per detik.Angka ini sesuai (menggunakan pengali sebesar 2,5 daripada 2,0 dibahas di atas) untuk frekuensi maksimum 3.2KHz, yang merupakan batas atas dari band telepon.Tingkat ini adalah karena itu cocok untuk aplikasi yang melibatkan pembicaraan telepon. Hal ini terlalu rendah untuk pidato berkualitas baik atau musik, dan tidak diterima untuk penelitian fonetik kebanyakan.
Resolusi
Kesalahan yang dihasilkan oleh mengkuantisasi sinyal dikenal sebagai kebisingan kuantisasi. Kualitas sinyal terkuantisasi dapat diukur dengan menghitung rasio signal-to-noise (SNR), di mana kebisingan yang dimaksud adalah noise kuantisasi. Setiap bit resolusi menambahkan sekitar 6 desibel untuk sinyal-to-noise rasio. Sebuah resolusi 8 bit sehingga menghasilkan suatu SNR sekitar 48dB. Sebuah resolusi 16 bit, mampu memberikan SNR sekitar 96dB. Beberapa digitizers tua, seperti yang digunakan pada PC dan Macintoshen pada 1980-an dan awal 1990-an, hanya menghasilkan resolusi 8 bit, sehingga terkadang menemukan file lama suara 8-bit.Resolusi 16 bit ini dipertimbangkan diidamkan untuk tujuan seperti penelitian fonetik akustik dan musik berkualitas profesional. Hampir semua digitizers yang digunakan saat ini memberikan resolusi 16 bit atau lebih tinggi.
Pengaruh kuantisasi dapat dipahami secara intuitif dengan membandingkan sinyal terkuantisasi dengan sinyal kontinyu asli. Berikut ini adalah sinyal kontinyu dilapis dengan kuantisasi 2-bit:
Ketika digitalisasi sinyal analog, penting untuk mengatur tingkat input digitizer dengan benar. Ini berarti bahwa nilai-nilai ekstrim dari sinyal input harus hanya dalam kisaran digitizer. Jika mereka melebihi jangkauan digitizer, hasilnya akan menjadi bentuk distorsi yang dikenal sebagai kliping. overloading signifikan juga dapat merusak digitizer. Di sisi lain, jika tingkat input dipasang terlalu rendah, hasilnya akan efektif resolusi daripada yang lebih kecil optimal. Jika digitizer telah tersedia 65.536 tingkat tetapi sinyal hanya berkisar lebih dari setengah rentang masukan, hanya setengah dari tingkat yang digunakan. Akibatnya sinyal digital dengan resolusi 15 bit bukan 16 yang tersedia.
Saluran
Sebuah aliran tunggal suara, seperti yang dari rekaman mono biasa, merupakan satu saluran. Stereo membutuhkan dua saluran. musik Quadriphonic memerlukan empat saluran. Rekaman dilakukan di studio musik profesional mungkin memiliki banyak saluran sebelum pencampuran, satu untuk masing-masing instrumen dan penyanyi.Dalam prakteknya, nilai-nilai umum adalah satu dan dua.
Kecelakaan Representasi
Signedness
Bilangan bulat yang digunakan untuk merepresentasikan nilai amplitudo dapat ditandatangani atau unsigned. Sejumlah ditandatangani adalah salah satu yang mungkin baik positif atau negatif. Sejumlah unsigned mungkin tidak akan pernah negatif. Apakah nomor yang digunakan adalah unsigned ditandatangani atau tidak berpengaruh pada resolusi. Jumlah tingkat amplitudo yang berbeda tetap sama.Sebagai contoh, di tingkat representasi mesin biasa bilangan bulat (dikenal sebagai representasi 2's-melengkapi), 16 bit masuk bilangan bulat berkisar antara -32768 dan 32767. 16 bit unsigned integer rentang nilai dari 0 sampai 65.535. Dalam kedua kasus jumlah tingkat amplitudo adalah 65.536. Oleh karena itu, tidak terlalu penting apakah representasi terdaftar atau unsigned digunakan, tetapi untuk beroperasi pada nilai-nilai benar perlu untuk mengetahui representasi dimaksudkan. Misalnya, pola bit 1111111111111111 merupakan nilai 65.535, nilai maksimum, sebagai unsigned integer tetapi -1, di tengah rentang amplitudo, sebagai pelengkap 2's-integer ditandatangani.
Endianness
Ingat dari penjelasan kami sebelumnya endianness yang menafsirkan rangkaian komputer yang berbeda multibyte dengan cara yang berbeda. Sejak 16 bit integer mengambil dua byte, mereka dipengaruhi oleh endianness. Software Audio umumnya akan mengkonversi data urutan byte yang salah yang diperlukan. Anda hanya akan perlu berurusan dengan endian-ness jika Anda menulis perangkat lunak pemrosesan level rendah audio atau jika Anda mengalami data audio mentah sehingga perangkat lunak Anda tidak dapat menentukan urutan byte data dari header. Jika Anda menemukan sebuah file mentah dengan urutan byte yang salah, harus mudah untuk mendeteksi karena akan terdengar seperti kebisingan.
Kompresi
Audio data memakan banyak ruang, setidaknya dibandingkan dengan teks. Sebuah single kedua audio compact disc memakan sekitar ruang sebanyak 15.000 kata dari teks ASCII, yaitu, 60 halaman dari sebuah buku khas. Berikut adalah grafik yang menunjukkan jumlah ruang yang ditempati oleh jangka waktu yang berbeda suara mono pada tingkat sampling yang berbeda. Sebuah disk 10GB, misalnya, akan mengadakan hanya sekitar 31 jam audio pada tingkat-CD.
1 second 1 minute 1 hour
44,100 samples/second 16 bit l88.2KB 5.3MB 317.5MB
22,050 samples/second 16 bit 44.1KB 2.6MB 158.8MB
16,000 samples/second 16 bit 32.0KB 1.9MB 115.2MB
Perhatikan bahwa dalam tabel ini KB singkatan dari 1.000 byte dan untuk MB 1.000.000 byte. Ini adalah definisi yang digunakan oleh International Electrotechnical Commission, badan internasional yang menetapkan standar di bidang elektronik dan listrik. Disk produsen menggunakan unit untuk menggambarkan ukuran produk mereka. Sebaliknya, programer komputer umumnya menggunakan KB berarti 1.024 byte dan MB berarti 1024 * 1024 = 1.048.576 byte.
Karena data audio menempati banyak ruang, ada telah lama motivasi untuk kompres itu. Memang, kompresi audio mendahului penggunaan komputer digital dan digital transmisi data. Bell Laboratories melakukan penelitian perintis pada lokasi informasi dalam pidato dalam domain frekuensi sehingga AT & T bisa pak karena banyak percakapan telepon ke satu baris mungkin. Penelitian ini menunjukkan bahwa sebagian besar informasi dalam pidato terletak di antara 300 dan 3.000 Hz. Itu sebabnya, bahkan hari ini, sirkuit telepon menyaring energi semua di luar band ini.
teknik kompresi terdiri dari dua jenis dasar: lossless dan lossy. Sebuah teknik kompresi lossless adalah salah satu yang menghasilkan sinyal dikompresi dari mana sinyal asli dapat direkonstruksi dengan sempurna. Tidak ada informasi yang hilang sebagai akibat dari kompresi. Sebuah teknik kompresi lossy adalah salah satu yang membuang informasi. Sinyal asli tidak dapat direkonstruksi sempurna dari sinyal dikompresi dengan metode lossy.
Sebuah program atau perangkat keras yang kompres dan dekompresi data dikenal sebagai codec, kependekan dari "kompresor - decompressor".
Sebagai kecepatan prosesor, tingkat transmisi data, dan kapasitas hard drive dan media penyimpanan lainnya telah meningkat, motivasi untuk mengompresi data audio telah menurun. Untuk data penelitian, tidak ada alasan untuk menggunakan kompresi, pasti tidak kompresi lossy. Jika Anda khawatir dengan ruang yang diambil oleh rekaman Anda sendiri, berikut adalah beberapa saran untuk meminimalkan penyimpanan sementara menghindari kompresi lossy. Namun, data audio komersial, seperti musik, masih sering dikompresi dalam rangka meningkatkan jumlah yang akan muat di pemain portabel dan mengurangi waktu yang dibutuhkan untuk download.
Lossless Compression
Teknik kompresi lossless tidak banyak digunakan karena jumlah kompresi yang mereka hasilkan relatif kecil. Tingkat kompresi yang diperoleh tergantung pada isi file.Dengan pidato, kompresi lossless mengurangi ukuran file di terbaik untuk sekitar 25% dari ukuran aslinya, paling buruk sampai sekitar 50%. Tenang musik klasik hampir kompres serta pidato, sedangkan "berisik" musik modern, cenderung untuk kompres buruk, sering menjadi sekitar 75% dari ukuran aslinya. Saat ini, pengguna utama kompresi lossless tampaknya penggemar rekaman konser live. Dua format, FLAC dan SHN (Mempersingkat), sangat populer.
Di daerah seperti penelitian fonetik, penggunaan kompresi lossless yang diinginkan.Mereka menghasilkan data audio harus mempertimbangkan untuk menggunakan salah satu teknik lossless jika mereka akan memampatkan sama sekali. Informasi lebih lanjut tentang kompresi lossless dapat ditemukan di sini.
Kompresi lossy
Ada banyak teknik kompresi lossy, sebagian besar yang sekarang jarang ditemui.Dua teknik kompresi lossy adalah beberapa kepentingan: minidisc dan mp3. Minidisc kompresi ini penting karena recorder minidisc telah digunakan untuk pengumpulan data linguistik. kompresi MP3 adalah penting karena banyak audio didistribusikan dalam bentuk ini.
Minidisc Kompresi
Minidiscs kecil (7cm x 7cm) media penyimpan diperkenalkan oleh Sony pada tahun 1991. Mereka menyediakan penyimpanan data digital pada perangkat jauh lebih murah daripada digital audio tape recorder.
Data audio pada minidiscs dikompresi menggunakan Adaptive Transform Acoustic Coding, biasanya dikenal sebagai ATRAC. Algoritma ATRAC dijelaskan di sini.ATRAC coding kompres data ke sekitar 20% dari ukuran aslinya dengan kehilangan minimal informasi. Audio Minidisc umumnya dianggap "kualitas CD dekat". Karena kompleksitas dari algoritma kompresi, sulit untuk menentukan dengan tepat bagaimana mendistorsi sinyal. Namun, tampak bahwa minidisc kompresi tidak berpengaruh pada pengukuran yang paling fonetik. Jenis-satunya pekerjaan yang kompresi minidisc mungkin bermasalah adalah pengukuran tingkat rendah, komponen frekuensi tinggi dari spektrum, misalnya di frikatif lemah atau semburan berhenti.Perbandingan hati-hati pengukuran forman vokal yang diperoleh dari pidato pidato minidisc terkompresi dan dikompresi oleh Maciej Baranowski mengungkapkan tidak ada perbedaan.
Kompresi MP3
kompresi MP3 secara luas digunakan untuk musik serta untuk pidato streaming melalui internet. MP3 adalah suatu bentuk kompresi MPEG, sebuah standar yang dirancang untuk multimedia, termasuk video serta audio. MPEG singkatan dari Moving Picture Experts Group, sebuah kelompok kerja bersama dari International Standar Organization dan International Electrotechnical Commission. MP3 adalah singkatan untuk "MPEG, Layer 3". MPEG sebenarnya satu set algoritma kompresi, untuk berbagai jenis data dan derajat kompresi. Dari waktu ke waktu versi baru dari standar MPEG dikeluarkan, yang berisi algoritma tambahan untuk menampung data input format baru dan bitrate. Versi ini tidak boleh bingung dengan lapisan. Berbagai standar dapat dibaca di sini.
Untuk informasi lebih lanjut tentang kompresi MPEG, lihat MPEG Audio Web Page.
Kemasan
Ikhtisar
data Audio dapat datang tanpa kemasan sama sekali. File yang berisi data audio hanya dikenal sebagai file mentah. Mereka biasanya berisi terkompresi pulsa modulasi kode mono (PCM) data. Agar dapat menggunakan file-file seperti itu, perlu diketahui, atau mampu mengetahui, laju sampling, resolusi, signedness, dan endianness data.
Bentuk sederhana kemasan terdiri dari header. Ini adalah beberapa informasi di awal ("head") dari file. header biasanya akan berisi satu atau lebih byte, yang dikenal sebagai "angka ajaib", mengidentifikasi jenis file, dan informasi dasar tentang data audio, yakni laju sampling, resolusi, dan jumlah saluran. Header juga dapat mengidentifikasi kompresi yang digunakan, jika ada, dan menentukan aspek kebetulan dalam representasi, misalnya apakah data tersebut ditandatangani atau unsigned. Header juga mungkin menunjukkan jumlah data, yaitu jumlah byte atau sampel yang mengikuti header. Karena pasar yang dominan untuk data audio adalah industri musik, header mungkin berisi informasi seperti judul dan pemain. Format file yang dimaksudkan untuk penelitian mungkin berisi catatan pengolahan data telah mengalami.
Bentuk yang lebih kompleks kemasan memberikan semacam struktur pohon, di mana file terdiri dari "potongan" informasi, masing-masing yang pada gilirannya mungkin mengandung potongan lainnya. The WAVE dan format file AIFF adalah dari jenis ini. format file tersebut biasanya memungkinkan berkas mengandung beberapa bagian data audio, seperti beberapa lagu. Mereka juga dapat menyediakan untuk pencantuman informasi tambahan tentang audio, seperti daftar bermain. Beberapa format file yang dimaksudkan sebagai format file multimedia umum. Oleh karena itu mereka tidak hanya memberikan data audio tapi untuk jenis data lainnya, seperti video, gambar diam, atau animasi.
Common Jenis File
Di sini kita menggambarkan jenis file audio yang paling umum. diskusi di sini juga akan memberikan pembaca gambaran umum baik dari organisasi file audio.
Baku Sound File
File suara yang terdiri dari hanya data audio PCM disebut file suara mentah.Beberapa i perangkat audio o /, perangkat terutama ditujukan untuk penelitian yang lebih tua daripada pasar komersial, menghasilkan file-file tersebut. Mereka tidak lagi sering terlihat.
Sejak file suara baku tidak memiliki header di mana untuk menyimpan informasi, perlu untuk mengetahui tingkat sampling, resolusi, signedness, dan jumlah saluran.Beberapa parameter kadang-kadang dikodekan dalam nama file, tetapi tidak ada konvensi yang benar-benar umum. sufiks Filename kadang-kadang digunakan untuk menyampaikan resolusi dan signedness. Sebagai contoh, akhiran. Sb ini mungkin mengindikasikan bahwa sampel yang terdiri dari satu byte, yaitu, memiliki resolusi 8 bit, dan ditandatangani. Akhiran uw dalam sistem ini. Mengindikasikan bahwa setiap sampel diwakili oleh kata dua-byte, yaitu, memiliki resolusi 16 bit, dan ditandatangani.
AU / File SND
file AU adalah contoh yang baik dari tipe file sederhana yang terdiri dari sebuah header yang diikuti oleh data. Sebenarnya ada dua jenis file AU. akhiran ini. au awalnya digunakan oleh Sun untuk file audio headerless mengandung μ-hukum kompresi audio sampel di 8.000 sampel per detik. Selanjutnya, format yang ada diadopsi. Format SND pada komputer NeXT adalah sama dengan format AU. file AU terdiri dari sebuah header dengan format berikut diikuti dengan sepotong data audio tunggal. Nilai numerik di header harus disimpan dalam format big-endian.
Berikut adalah struktur header file format AU:
Bytes Offset Content
4 0 Magic number: .snd
4 3 Offset of the sound data from the beginning of the file = 23 + N
4 7 Number of bytes of audio data
4 11 Sound format code
4 15 Sampling rate in samples per second
4 19 Number of channels
N 23 Optional text describing data
K 23+N Audio data
Perhatikan bahwa penggunaan lapangan ukuran 4 byte membatasi ukuran data audio ke 4294967295 byte, yang sesuai dengan 13 jam 32 menit audio 16 bit linear PCM mono di CD biasa laju sampling 44.100 sampel per detik.
Perhatikan bahwa penggunaan lapangan ukuran 4 byte membatasi ukuran File GELOMBANG
Apa mungkin adalah format yang paling umum digunakan saat ini adalah format WAVE, biasanya ditandai dengan akhiran. Wav. file GELOMBANG sebenarnya kasus khusus, untuk audio, dari format RIFF untuk file multimedia. Format RIFF adalah standar Microsoft. Spesifikasi lengkap yang terkandung dalam dokumen Microsoft Multimedia Standar Update, Revisi 3.0, 15 April 1994. Salinan bisa di-download di sini. Format RIFF merupakan turunan dari format Interchange Format File yang dikembangkan oleh Electronic Arts.
Ada juga sedikit varian dari format RIFF dikenal sebagai format RIFX. RIFX berbeda dari RIFF di endianess data integer. data RIFF diwajibkan untuk little-endian; RIFX data yang diperlukan untuk menjadi besar-endian. Dalam semua hal lainnya format RIFX identik dengan format RIFF kecuali kenyataan bahwa angka ajaib ini RIFX daripada RIFF. Format RIFF dikembangkan untuk digunakan dengan prosesor Intel.Format RIFX merupakan adaptasi untuk prosesor Motorola, yang memiliki endianness berlawanan.
Penjelasan indah-ilustrasi format WAVE dapat ditemukan di sini
Berikut adalah struktur dari file GELOMBANG sederhana sesuai standar: data audio ke 4294967295 byte, yang sesuai dengan 13 jam 32 menit audio 16 bit linear PCM mono di CD biasa laju sampling 44.100 sampel per detik.
Bytes Content Offset
4 Magic number: RIFF/RIFX 0
4 WAVE chunk size = file size - 8 4
4 WAVE identifier: WAVE 8
4 Format chunk identifier: fmt
4 Format chunk size: 16 16
2 Sound format code 20
2 Number of channels 22
4 Sampling rate 24
4 Average data rate in bytes per second 28
2 Bytes per sample*
32
2 Bits per sample*
34
4 Chunk identifier: data 36
4 Chunk length in bytes: N 40
N Audio data 44
Satu kadang-kadang menemukan file sederhana yang tidak sesuai dengan standar.Dalam hal ini, header file segera diikuti dengan data audio. Chunk data pengenal dan panjang potongan yang hilang. file tersebut dapat dikonversi ke dalam format standar RepairWave.
Hal ini dimungkinkan untuk standar-sesuai file GELOMBANG menjadi lebih kompleks.Mereka mungkin mengandung beberapa bagian data, dan mereka mungkin berisi potongan jenis lainnya, seperti daftar putar, daftar isyarat, padding (untuk menyebabkan data audio untuk memulai pada lokasi tertentu), dan informasi teks yang berisi tentang asal-usul file tersebut dan pengolahan telah mengalami. Hal ini dibolehkan GELOMBANG file untuk menyertakan jenis potongan non-standar. Sesuai standar software hanya akan melewatkan potongan yang tidak tahu bagaimana menangani.
File AIFF
AIFF format yang secara luas digunakan pada komputer Apple dan, sebagai hasilnya, dalam perangkat lunak pengolahan profesional audio. Seperti, RIFF / GELOMBANG, AIFF ("Audio Interchange File Format") merupakan turunan dari format Interchange Format File yang dikembangkan oleh Electronic Arts. Ia lebih sederhana dari RIFF / format WAVE di tersebut memang ditujukan hanya untuk data audio dan mendukung berbagai format yang lebih kecil data audio.
Sebuah file AIFF terdiri dari header yang diikuti oleh satu atau lebih "potongan".Sebuah file AIFF suara minimal itu terdiri dari header dan sepotong suara. Selain suara potongan, berbagai potongan lain yang mungkin, termasuk penanda posisi dalam data gelombang, perintah synthesizer MIDI, dan komentar.
Data audio dalam file AIFF selalu terkompresi PCM. Header berisi informasi tentang jumlah saluran, sampling rate, dan resolusi. Data audio, seperti semua data integer dalam format ini, disimpan dalam format big-endian.
Informasi lebih lanjut dapat ditemukan di sini.
MP3 File
File MP3 ditandai terutama oleh pemahaman mereka, seperti dijelaskan di atas.Namun, tidak seperti beberapa jenis lain data terkompresi, yang dapat dikemas dalam berbagai cara, data dikompresi MP3 biasanya dikemas dalam cara tertentu.Hal ini tentu saja mungkin untuk data menanamkan dalam format MP3, yaitu, lengkap dengan header frame, dalam satu jenis paket. Sebagai contoh, sebuah file WAVE mungkin berisi data MP3. Dalam hal ini, chunk data terdiri dari suara MP3 terkompresi ditambah header frame. Kenyataan bahwa data terdiri dari data MPEG ditunjukkan oleh nilai 80 untuk kode format data.
Sebuah file MP3 terdiri dari satu set frame data. Setiap frame data dimulai dengan sebuah header byte empat. Header bisa diikuti oleh dua byte data Cyclic Redundancy Check (untuk mendeteksi kesalahan / koreksi), ditandai dengan penetapan 16 bit header. Sisa dari frame berisi data audio. Dalam sebuah file MP3 murni, tidak ada header file secara keseluruhan, meskipun mungkin ada satu jika data MP3 yang tertanam di dalam paket yang lain.
Penjelasan, baik rinci tentang format file MP3 dapat ditemukan di sini.
OGG File
Ogg Vorbis adalah format audio baru dimaksudkan terutama untuk musik. Hal ini kira-kira sebanding dengan format MP3, tetapi non-proprietary dan open source. Ogg Vorbis terdiri dari algoritma kompresi dan format file. Algoritma kompresi adalah algoritma kompresi persepsi, seperti ATRAC dan MP3. Hal ini dilaporkan suara yang lebih baik daripada MP3 pada tingkat bit yang lebih rendah.
Format file adalah sedikit berbeda dari yang lain telah kita bahas. Sebuah file ogg atau bitstream harus dimulai dengan tiga paket header:
1. Header identifikasi;
2. Header komentar;
3. Header setup;
Setiap paket header dimulai dengan enam "vorbis" urutan byte. Header identifikasi berisi informasi tentang versi Ogg Vorbis dan sifat dasar dari audio, seperti sampling rate. Header berisi informasi rinci pengaturan untuk digunakan oleh decoder. Header komentar terdiri dari daftar string, masing-masing berisi nama field dan nilai string yang dipisahkan oleh tanda sama. Nama field harus terdiri dari karakter ASCII non-kontrol. Nilai lapangan sewenang-wenang UTF-8 string. Standar ini mendefinisikan satu set nama field standar seperti "TITLE", "DATE", dan "PENGARANG"; nama field
tambahan dapat digunakan.
Spesifikasi format ogg dapat dibaca on-line di sini atau download sebagai file PDF di sini. Informasi lebih lanjut dan perangkat lunak dapat diperoleh dari Ogg Vorbis Proyek.
RAM File
Domba jantan ekstensi atau ra umumnya digunakan untuk file Real Audio. Ini digunakan untuk streaming audio. Sebuah file RAM adalah file teks biasa setiap baris yang berisi URL dari file audio. URL tidak hanya berisi lokasi dari file audio, tetapi parameter yang akan dilewatkan ke program yang memainkan audio streaming. Tidak ada format audio RAM tertentu. File audio yang URL titik mungkin dalam format yang didukung oleh pemain, misalnya MP3. Informasi tentang Real Audio dapat ditemukan di sini.
Jika Anda perlu untuk men-download file audio yang tercantum dalam file RAM, Anda mungkin menemukan curl berguna. Dalam beberapa kasus, adalah masalah untuk men-download file audio. Dalam hal ini, Anda dapat memutar audio streaming dan menangkap menggunakan vsound.
Bekerja Dengan File Audio
Konversi Satu Format untuk lain
sox dapat mengkonversi format audio yang paling umum. (Pastikan untuk mendapatkan versi saat Sox ada setidaknya satu ketinggalan jaman, dahulu resmi Sox halaman web masih Facebook [http://www.spies.com/Sox/].. Situs web ini situs Sourceforge.) Sebuah tutorial tentang penggunaan sox dapat ditemukan di sini.
Salah satu format yang sox tidak menangani adalah MPEG. Anda dapat menggunakan pemutar mpeg mpg123 untuk mengubah MPEG ke format baku (16 bit PCM stereo linier, urutan byte asli) dengan menggunakan flag s-perintah baris untuk mengirim output ke standard output bukan kartu suara. Anda kemudian dapat menggunakan sox untuk mengkonversi data mentah ke format lain. Sebagai contoh, urutan dari perintah akan mengkonversi MP3 dengan tingkat sampling dari 22.050 ke format WAVE:
mpg123-s foo.mp3> foo.raw
sox-w-s-r 22050-c 1 foo.wav foo.raw
Format yang lain sox tidak menangani adalah format ogg. The oggdec Program, bagian dari paket vorbistools didownload dari website Ogg Vorbis Proyek, ogg mengkonversi format WAVE atau PCM mentah.
Sebuah alat serupa sndfile-mengkonversi, yang merupakan bagian dari paket libsndfile. libsndfile adalah library yang memungkinkan programmer C untuk membaca dan menulis berbagai format file audio. sndfile-mengkonversi disediakan sebagai demonstrasi penggunaan perpustakaan. Hal ini ditemukan dalam direktori contoh distribusi libsndfile. Ia tidak memiliki semua fungsi sox, seperti efek suara, namun memiliki sintaks sederhana. Hal ini juga menangani beberapa format data yang sox tidak, seperti floating point data.
Alat lain yang berguna adalah ffmpeg. Hal ini ditujukan terutama untuk mengkonversi format video, tapi karena file video biasanya berisi audio juga, itu juga dapat mengkonversi berbagai media format audio, terutama format yang digunakan untuk tujuan komersial dan tidak biasanya ditemui dalam penelitian linguistik.
Stream audio dapat diambil dari file video RealMedia (ekstensi biasanya rm.) Menggunakan RealMedia Analyzer, yang tersedia untuk GNU / Linux, OS / 2, MS Windows, dan DOS.
Solusi yang lebih umum tersedia pada sistem GNU / Linux untuk situasi di mana Anda memiliki kemampuan untuk memutar file audio, tetapi tidak memiliki program yang dapat ekstrak. Situasi ini muncul ketika sebuah codec berpemilik hanya tersedia dalam bentuk biner atau hanya sebagai bagian dari program closed-source.vsound berkaitan dengan situasi ini dengan mencegat panggilan untuk membuka / dev / dsp, file device umumnya digunakan sebagai antarmuka ke kartu suara, dan menggantikannya dengan file yang normal untuk kartu suara. Hasilnya adalah bahwa data audio decode yang telah dikirim ke kartu suara adalah bukan ditulis ke dalam file.
Memperoleh Informasi Tentang File tersebut
Sebagaimana dibahas di atas, akhiran nama file sering memberikan informasi tentang format file audio. Utilitas file mengakui banyak format file audio. (Catatan bahwa program file yang disediakan dengan beberapa versi Unix, seperti SunOs, lebih rendah daripada yang satu ini.) Program sndfile-info, disediakan sebagai demonstrasi penggunaan perpustakaan libsndfile, akan memberikan informasi rinci tentang file suara di berbagai format. InfoWave memberikan penjelasan rinci tentang isi dari file WAVE.
Sumber : http://billposer.org/Linguistics/Computation/LectureNotes/AudioData.html
Tidak ada komentar:
Posting Komentar