Pembelajaran mendalam (juga dikenal sebagai pembelajaran terstruktur dalam atau pembelajaran hierarkis) adalah bagian dari keluarga yang lebih luas dari metode pembelajaran mesin berdasarkan jaringan saraf tiruan. Belajar dapat diawasi, semi-diawasi atau tidak diawasi.
Arsitektur pembelajaran mendalam seperti jaringan saraf dalam, jaringan keyakinan mendalam, jaringan saraf berulang dan jaringan saraf konvolusional telah diterapkan ke bidang termasuk visi komputer, pengenalan suara, pemrosesan bahasa alami, pengenalan audio, penyaringan jaringan sosial, terjemahan mesin, bioinformatika, desain obat , analisis gambar medis, inspeksi material dan program permainan papan, di mana mereka telah menghasilkan hasil yang sebanding dengan dan dalam beberapa kasus lebih unggul dari ahli manusia.
Jaringan Saraf Tiruan (JST) diilhami oleh pemrosesan informasi dan distribusi node komunikasi dalam sistem biologis. JST memiliki berbagai perbedaan dari otak biologis. Secara khusus, jaringan saraf cenderung statis dan simbolis, sedangkan otak biologis sebagian besar organisme hidup adalah dinamis (plastik) dan analog.
Deep learning adalah kelas algoritma pembelajaran mesin yang (pp199-200) menggunakan beberapa lapisan untuk secara progresif mengekstraksi fitur tingkat yang lebih tinggi dari input mentah. Misalnya, dalam pemrosesan gambar, lapisan bawah dapat mengidentifikasi tepi, sedangkan lapisan yang lebih tinggi dapat mengidentifikasi konsep yang relevan dengan manusia seperti angka atau huruf atau wajah.
Kebanyakan model pembelajaran mendalam modern didasarkan pada jaringan saraf tiruan, khususnya, Jaringan Neural Konvolusional (CNN), walaupun mereka juga dapat memasukkan formula proporsional atau variabel laten yang diorganisasikan secara bijaksana dalam model generatif mendalam seperti node dalam jaringan kepercayaan mendalam dan mendalam. Mesin Boltzmann.
Dalam pembelajaran yang mendalam, setiap level belajar mengubah data inputnya menjadi representasi yang sedikit lebih abstrak dan komposit. Dalam aplikasi pengenalan gambar, input mentah dapat berupa matriks piksel; lapisan representasional pertama dapat mengabstraksi piksel dan menyandikan tepi; lapisan kedua dapat menyusun dan menyandikan pengaturan tepi; lapisan ketiga dapat menyandikan hidung dan mata; dan lapisan keempat dapat mengenali bahwa gambar berisi wajah. Yang penting, proses pembelajaran yang mendalam dapat mempelajari fitur mana yang ditempatkan secara optimal di tingkat mana saja. (Tentu saja, ini tidak sepenuhnya menghilangkan kebutuhan untuk penyetelan tangan; misalnya, berbagai jumlah lapisan dan ukuran lapisan dapat memberikan tingkat abstraksi yang berbeda.)
Kata "mendalam" dalam "pembelajaran dalam" mengacu pada jumlah lapisan di mana data ditransformasikan. Lebih tepatnya, sistem pembelajaran yang dalam memiliki kedalaman jalur penugasan kredit (CAP) yang substansial. CAP adalah rantai transformasi dari input ke output. CAP menggambarkan potensi hubungan sebab akibat antara input dan output. Untuk jaringan saraf umpan maju, kedalaman CAP adalah dari jaringan dan jumlah lapisan tersembunyi ditambah satu (karena lapisan keluaran juga parameter). Untuk jaringan saraf berulang, di mana sinyal dapat merambat melalui lapisan lebih dari sekali, kedalaman CAP berpotensi tidak terbatas. Tidak ada yang disepakati secara universal ambang kedalaman membagi pembelajaran dangkal dari pembelajaran mendalam, tetapi sebagian besar peneliti setuju bahwa pembelajaran mendalam melibatkan kedalaman CAP lebih tinggi dari 2. CAP dengan kedalaman 2 telah terbukti sebagai pendekatan universal dalam arti bahwa ia dapat meniru fungsi apa pun. Di luar itu, lebih banyak lapisan tidak menambah kemampuan aproksimasi fungsi jaringan. Model dalam (CAP> 2) dapat mengekstraksi fitur yang lebih baik daripada model dangkal dan karenanya, lapisan tambahan membantu dalam mempelajari fitur secara efektif.
Arsitektur pembelajaran yang mendalam dapat dibangun dengan metode lapis demi lapis yang serakah. Pembelajaran mendalam membantu mengurai abstraksi-abstraksi ini dan memilih fitur mana yang meningkatkan kinerja.
Untuk tugas pembelajaran yang diawasi, metode pembelajaran yang mendalam menghilangkan rekayasa fitur, dengan menerjemahkan data ke dalam representasi menengah yang kompak yang mirip dengan komponen utama, dan mendapatkan struktur berlapis yang menghilangkan redundansi dalam representasi.
Algoritma pembelajaran mendalam dapat diterapkan untuk tugas-tugas pembelajaran yang tidak diawasi. Ini adalah manfaat penting karena data yang tidak berlabel lebih banyak daripada data yang berlabel. Contoh struktur dalam yang dapat dilatih dengan cara yang tidak diawasi adalah kompresor riwayat saraf dan jaringan kepercayaan yang mendalam.
Jaringan saraf dalam umumnya ditafsirkan dalam hal teorema aproksimasi universal atau inferensi probabilistik.
Teorema aproksimasi universal klasik menyangkut kapasitas jaringan saraf umpan-maju dengan satu lapisan tersembunyi ukuran terbatas untuk memperkirakan fungsi kontinu. Dalam 1989, bukti pertama diterbitkan oleh George Cybenko untuk fungsi aktivasi sigmoid dan digeneralisasikan untuk memberi makan arsitektur multi-layer di 1991 oleh Kurt Hornik. Pekerjaan terbaru juga menunjukkan bahwa pendekatan universal juga berlaku untuk fungsi aktivasi yang tidak terbatas seperti unit linear yang diperbaiki.
Teorema aproksimasi universal untuk jaringan saraf dalam menyangkut kapasitas jaringan dengan lebar terikat tetapi kedalamannya diizinkan untuk tumbuh. Lu et al. membuktikan bahwa jika lebar jaringan saraf dalam dengan aktivasi ReLU benar-benar lebih besar dari dimensi input, maka jaringan dapat mendekati fungsi integrable Lebesgue apa pun; Jika lebarnya lebih kecil atau sama dengan dimensi input, maka jaringan syaraf yang dalam bukan merupakan pendekatan universal.
Interpretasi probabilistik berasal dari bidang pembelajaran mesin. Ini fitur inferensi, serta konsep optimasi pelatihan dan pengujian, masing-masing terkait dengan pemasangan dan generalisasi. Lebih khusus, interpretasi probabilistik menganggap aktivasi nonlinier sebagai fungsi distribusi kumulatif. Interpretasi probabilistik menyebabkan pengenalan dropout sebagai regularizer dalam jaringan saraf. Interpretasi probabilistik diperkenalkan oleh para peneliti termasuk Hopfield, Widrow dan Narendra dan dipopulerkan dalam survei seperti yang dilakukan oleh Bishop.
Kembali ke atas