Moving-average-gaussian

Moving-average-gaussian

Cara-to-trade-biner-options-using-candlesticks
Online-futures-trading-journal
Pt-milenium-forex


Opsi saham msu Sinyal Ichimoku-trading Quantum-forex-system Online-trading-sites-in-pakistan Training-plan-agenda-template Nifty-options-day-trading

Blurring for Beginners Pendahuluan Ini adalah tutorial singkat tentang teknik blur untuk pemula. Ketika saya mempelajari hal ini, hanya ada sedikit materi yang berguna. Itu tentu saja tidak benar - ada banyak materi, tapi setengahnya terlalu sederhana dan separuh lainnya mulai Biarkan T menjadi fungsi vektor yang dievaluasi selama interval setengah terbuka. Dan penuh dengan persamaan multi-line yang sangat menakutkan dengan simbol sigma dan benda-benda itu. Artikel ini dimaksudkan untuk memperbaiki itu. Saya berbicara tentang berbagai jenis kabur dan efek yang bisa Anda gunakan untuk mereka, dengan kode sumber di Jawa. Sebuah Disclaimer Setiap kali kabur disebutkan, selalu ada seseorang yang mengatakan Hey Thats bukan sebuah gerakan nyata yang kabur, atau menulis surat-surat marah dengan tinta hijau yang mengeluh bahwa matematika itu meragukan atau bahwa ada cara yang lebih cepat untuk melakukannya dengan menggunakan register sponglerizer di HAL -9000. Abaikan orang-orang ini. Ini adalah topik yang besar, dan artikel ini hanya untuk pemula (yang menurut saya bisa saya katakan sebagai satu). Yang penting adalah Anda mendapatkan hasil yang Anda inginkan, dan jika hasil yang Anda inginkan membutuhkan matematika yang meragukan, maka jadilah itu. Jika hasilnya youre bertujuan untuk terlihat mengerikan untuk saya, maka itu baik-baik saja, asalkan mereka terlihat baik untuk Anda. Penolakan lain Theres kode sumber di Jawa untuk cukup baik semua yang saya bicarakan di sini. Saya tidak membuat klaim bahwa ini dioptimalkan dengan cara apapun - saya telah memilih kesederhanaan dari kecepatan di mana-mana dan mungkin Anda akan berhasil membuat sebagian besar dari hal ini berjalan lebih cepat dengan sedikit usaha. Anda bisa menggunakan kode sumber untuk apapun yang Anda inginkan, termasuk tujuan komersial, tapi tidak ada tanggung jawab. Jika sistem pembangkit tenaga nuklir atau sistem rudal Anda gagal karena kabur yang tidak semestinya, itu bukan salah saya. Apa yang Mengaburkan Kita semua tahu apa yang kabur, jangan kita hal yang terjadi saat kamera Anda tidak fokus atau anjing mencuri kacamata Anda. Apa yang terjadi adalah bahwa apa yang harus dilihat sebagai titik tajam akan diolesi, biasanya ke bentuk disk. Dalam istilah gambar, ini berarti setiap piksel dalam gambar sumber disebarkan dan dicampur ke piksel sekitarnya. Cara lain untuk melihat ini adalah bahwa setiap piksel pada gambar tujuan dibuat dari campuran piksel sekitarnya dari gambar sumber. Operasi yang kita butuhkan untuk ini disebut konvolusi. Ini terdengar rumit tapi hanya karena matematikawan suka membuat hal-hal yang terdengar rumit untuk mempertahankan keajaiban dan menjaga agar dana tetap masuk. Nah, Im ke mereka dan saya dapat mengungkapkan bahwa konvolusi tidak terlalu rumit (pada tingkat saya) . Cara kerjanya adalah ini: kita bayangkan meluncur sejumlah angka dari gambar kita. Array ini disebut kernel konvolusi. Untuk setiap piksel pada gambar, kami mengambil nomor yang sesuai dari kernel dan piksel yang mereka lewati, memperbanyaknya bersama-sama dan menambahkan semua hasilnya bersamaan untuk membuat piksel baru. Sebagai contoh, bayangkan kita ingin melakukan blur yang benar-benar sederhana dimana kita rata-rata mengumpulkan setiap pixel dan delapan tetangga terdekatnya. Kernel yang kita butuhkan adalah: Perhatikan bahwa semua ini menambahkan hingga 1, yang berarti gambar yang dihasilkan akan sama terangnya dengan aslinya. Tanpa basa-basi lagi, mari kita blur gambar di Jawa. Semua hal konvolusi terdengar rumit untuk diterapkan, tapi untungnya Jawa hadir dengan operator built-in dan siap pakai untuk melakukan hal itu. Saya berbicara ConvolveOp di sini. Heres kode: Fantastic Sebuah gambar buram Its tidak sangat kabur sekalipun. Mari kita lakukan blur yang sangat besar seperti ini: Hmmmmmm. Well thats tidak begitu baik. Tidak hanya butuh waktu yang sangat lama, tapi hasilnya sedikit aneh - semuanya terlihat bagus, semacam persegi, dan apa yang telah terjadi di sekitar tepian First the edge: ConvolveOp adalah hal yang nakal-pamby yang menakutkan Jatuh dari tepi gambar. Jika kernel akan tumpang tindih dengan tepi gambar, itu hanya menyerah dan hanya meninggalkan pixel tidak berubah. Anda bisa mengubah ini dengan melewatkan EDGEZEROFILL dan bukan EDGENOOP, tapi itu lebih buruk lagi - piksel di sekeliling tepi hanya bisa diset ke nol dan hilang secara efektif. Apa yang harus kita lakukan Nah, kita bisa memberi bayangan di sekeliling tepinya sebelum mengaburkan dan memotong hasilnya, tapi itu hanya memberi, dan selain itu kita tidak bisa belajar apapun. Sebagai gantinya, tulislah dengan baik, operator tanpa rasa takut dan nakal yang tidak takut pada tepinya. Nah sebut itu ConvolveFilter untuk membedakannya dari ConvolveOp. Saya tidak akan membahas rincian sumber dalam artikel ini - tidak cukup waktu atau ruang dan kami memiliki lebih banyak filter untuk ditulis, namun Anda dapat mendownload atau melihat sumbernya dan harus cukup jelas. Sekarang masalah kuadrat: Alasan semuanya terlihat persegi adalah karena apa yang dilakukan di sini disebut kotak kabur - kernel kita berbentuk seperti kotak, seolah-olah menggunakan kamera yang memiliki aperture persegi. Kebetulan, jangan biarkan orang mengatakan kepada Anda bahwa kotak buram tidak ada gunanya - sebenarnya jika Anda mensimulasikan bayangan yang dilemparkan oleh cahaya persegi, persis apa yang Anda inginkan. Bagaimanapun, mereka akan berguna lebih lanjut. Hal lain: Jangan bingung - Im menggunakan istilah kotak kabur untuk merujuk pada bentuk kernel, bukan profilnya, yang akan saya sebut saringan kotak. Lebih lanjut tentang ini nanti. Untuk mendapatkan kabur yang lebih realistis, apa yang seharusnya kita lakukan adalah menggunakan sebuah kernel berbentuk lingkaran. Ini mensimulasikan lebih baik apa yang kamera sebenarnya tidak. Itu lebih baik. Nah kembali lagi nanti, tapi pertama pengalihan kembali ke kotak buram. Weve memecahkan masalah pixel tepi, tapi kabur kita masih berjalan sangat lambat, dan keadaan akan semakin memburuk. Masalahnya adalah bahwa jumlah perkalian dalam konvolusi akan naik seperti kuadrat jari-jari kernel. Dengan kernel 100x100, akan melakukan 10000 mengalikan dan menambahkan per pixel (approx). Bagaimana kita bisa mengatasi hal ini Ternyata ada banyak cara untuk mengatasi hal ini daripada mungkin saya punya waktu untuk menulis tentang, atau bahkan repot-repot untuk melihat. Salah satu cara yang akan saya sebutkan dengan cepat sebelum menyapunya di bawah karpet adalah: Anda bisa membuat kotak buram dengan mengecilkan gambar Anda, mengaburkannya dan menskalakannya lagi. Ini mungkin baik untuk tujuan Anda, dan Anda harus mengingatnya. Satu masalah adalah bahwa hal itu tidak bernyawa dengan baik, tapi mungkin tidak menjadi perhatian Anda. Mari kita lihat kotak itu buram lagi: Ternyata ada beberapa cara mudah untuk mempercepatnya. Pertama, ternyata kotak blur itu bisa dipisah. Ini berarti kita bisa melakukan blur 2D dengan melakukan dua blur 1D, sekali pada arah horizontal dan sekali dalam arah vertikal. Ini jauh lebih cepat daripada melakukan blur 2D karena waktu yang dibutuhkan naik sebanding dengan ukuran kernel, bukan sebagai kuadratnya. Kedua, Pikirkan tentang jendela yang meluncur di atas gambar. Saat kita memindahkannya dari kiri ke kanan, piksel masuk ke tepi kanan dan ditambahkan ke piksel total dan pada saat yang sama piksel meninggalkan tepi kiri dan dikurangkan dari total. Yang perlu kita lakukan hanyalah melakukan penambahan dan pengurangan untuk memasukkan dan meninggalkan piksel pada setiap langkah alih-alih menambahkan semua piksel di jendela. Kita hanya perlu menyimpan satu set run total yang merupakan lebar atau tinggi kernel. Hal ini memberikan peningkatan kecepatan yang masif dengan biaya harus menulis beberapa kode. Untungnya, saya telah menulis kode untuk Anda, jadi Anda menang semua bulat. Kita butuh dua lintasan, sekali untuk mengaburkan secara horisontal dan sekaligus vertikal. Kode untuk ini tentu saja sangat berbeda. Tapi tunggu ada trik yang bisa kita lakukan yang memungkinkan kita hanya menulis kode satu kali. Jika kita menulis fungsi blurring yang melakukan blur horizontal namun menulis gambar outputnya dialihkan, maka kita bisa menyebutnya dua kali. Jalur pertama mengaburkan secara horisontal dan transposisi, jalur kedua sama, namun karena gambarnya sekarang dialihkan, benar-benar melakukan kabur vertikal. Transposisi kedua membuat gambar dengan benar naik lagi dan voila - kotak yang sangat cepat kabur. Cobalah di applet ini: Dan heres source code. Anda mungkin telah memperhatikan bahwa kita hanya menggunakan radius bilangan bulat sejauh ini yang memudahkan untuk mengetahui indeks array untuk pengaburan tersebut. Kita dapat memperpanjang teknik untuk melakukan pengaburan sub-pixel (yaitu radius non-integral) hanya dengan interpolasi linier antara nilai array. Kode sumber saya tidak melakukan ini, tapi mudah untuk menambahkan. Gaussian Blur Sekarang waktunya untuk mengatasi masalah blur dan blur persegi pada saat yang bersamaan. Untuk menyingkirkan tampilan persegi ke kabur, kita membutuhkan sebuah kernel berbentuk lingkaran. Sayangnya, trik yang kami gunakan untuk box blurs tidak bekerja dengan lingkaran tapi ada celah: Jika kernel memiliki profil yang benar - profil Gaussian - maka kita dapat melakukan blur 2D dengan melakukan dua pengaburan 1D, seperti yang kita lakukan dengan Kotak kabur Its tidak begitu cepat karena trik jendela geser tidak bekerja, tapi masih jauh lebih cepat daripada melakukan konvolusi 2D. Profil yang kita butuhkan adalah lonceng yang dikenal, atau kurva Gaussian yang telah Anda dengar: Heres beberapa kode untuk membuat kernel Gauss 1D untuk radius tertentu. Yang perlu kita lakukan adalah menerapkannya dua kali, sekali secara horisontal dan sekali secara vertikal. Sebagai bonus, saya telah membungkusnya di GaussianFilter agar mudah digunakan. Inilah sebabnya mengapa kabur Gaussian ditemukan di setiap paket grafis - jauh lebih cepat daripada jenis blur lainnya. Satu-satunya masalah adalah bahwa hal itu tidak terlalu realistis ketika datang untuk mensimulasikan lensa kamera, namun lebih pada hal itu nanti. Jika Anda ingin melakukan hal-hal seperti simulasi bayangan, maka Gaussian blur, atau bahkan kotak blur mungkin baik-baik saja. Ada tempat untuk semua efek ini - hanya karena mereka tidak realistis berarti mereka tidak berguna. The Gaussian blur jauh lebih cepat, tapi tempat di dekat secepat kotak kabur kita lakukan sebelumnya. Kalau saja ada cara untuk menggabungkan keduanya. Saya membayangkan Anda sudah bisa menduga sekarang bahwa mungkin ada satu, jadi Sakitlah yang tidak menahan ketegangan lagi: Jika Anda membuat banyak kotak, hasilnya terlihat lebih dan lebih seperti kabut Gaussian. Sebenarnya, Anda bisa membuktikannya secara matematis jika Anda memiliki waktu luang (tapi jangan beritahu saya bagaimana - saya tidak tertarik). Dalam prakteknya, 3 sampai 5 kotak kabur terlihat cukup bagus. Jangan hanya mengambil kata-kata saya untuk itu: Kotak kabur applet di atas memiliki slider Iterasi sehingga Anda bisa mencobanya sendiri. Alpha Channels Pengalihan cepat disini untuk membahas masalah yang sering muncul: Bayangkan Anda ingin mengaburkan bentuk yang transparan. Anda punya gambar kosong, dan Anda menggambar bentuk di atasnya, lalu buram gambarnya. Tunggu - mengapa bit buram terlihat terlalu gelap Alasannya adalah bahwa kita akan mengaburkan setiap saluran secara terpisah, namun di mana saluran alfa nol (bit transparan), saluran merah, hijau dan biru nol atau hitam. Saat Anda melakukan blur, warna hitam bercampur dengan potongan buram dan Anda mendapatkan bayangan gelap. Solusinya adalah dengan premultiply gambar alpha sebelum kabur dan saat itu juga tidak. Tentu saja, jika gambar Anda sudah premultiplied, youre all set. Motion Blur Time untuk perubahan arah. Sejauh ini hanya berbicara tentang blur seragam, tapi ada tipe lain. Motion blur adalah blur yang Anda dapatkan saat sebuah benda (atau kamera) bergerak saat terpapar. Gambar menjadi kabur di sepanjang jalan yang jelas dari objek. Ini hanya akan berbicara tentang simulasi motion blur pada gambar diam yang ada - melakukan motion blur dalam animasi adalah area yang berbeda. Yang juga hanya akan mengaburkan keseluruhan gambar - tidak akan mencoba dan mengaburkan objek pada gambar. Kabar baiknya adalah bahwa weve sudah melakukan motion blur yang sederhana. Kembali ke kotak blur applet di atas dan atur radius horizontal menjadi, katakanlah 10, dan jari-jari vertikal ke nol. Ini memberi Anda gerakan horisontal yang bagus. Untuk beberapa tujuan, ini mungkin semua yang Anda butuhkan. Misalnya, salah satu cara untuk menghasilkan tekstur logam yang disikat adalah dengan mengambil gambar yang terdiri dari noise acak dan menerapkan motion blur. Jika kita ingin kabur ke arah selain horizontal atau vertikal, maka hal menjadi lebih rumit. Salah satu tekniknya adalah memutar gambar, kabur lalu memutar kembali. Apa yang baik di sini meskipun adalah untuk melakukannya dengan cara yang keras dan lambat. Yang perlu kita lakukan adalah melompati gambar, dan untuk setiap piksel, tambahkan semua piksel di sepanjang jalur gerakan. Untuk blur gerak lurus, ini berarti mengikuti garis lurus dari piksel, tapi Anda bisa mengikuti jalur wiggly jika Anda ingin mensimulasikan gamer kamera jarak jauh, misalnya. Spin dan Zoom Blur Begitu kode untuk blur di tempat, ada masalah sederhana untuk memodifikasinya agar zoom dan spin blurs, atau bahkan kombinasi ketiganya. Ini hanya masalah mengikuti jalur yang benar untuk setiap piksel. Untuk kabur radial, ikuti saja jalan yang menuju pusat blur. Untuk putaran kabur, ikuti jalur tangensial. Cobalah di applet ini: Heres kode sumber untuk melakukan ketiga jenis motion blur ini: Faster Motion Blur Anda mungkin telah memperhatikan bahwa melakukan motion blur adalah bisnis yang cukup lambat - semua sinus dan kosinus benar-benar memperlambat segalanya. Jika tidak terlalu mengkhawatirkan kualitas, kita bisa mempercepatnya. Yang perlu kita lakukan adalah menambahkan bersama-sama banyak versi gambar yang telah diubah dengan cara yang cerdas. Bagian yang pandai adalah kita bisa melakukan motion blur 1 pixel dengan merata-ratakan gambar dan gambar yang sama diterjemahkan dengan satu pixel. Kita bisa melakukan blur 2-pixel dengan mengulanginya dengan gambar buram 1-pixel. Dengan mengulangi hal ini kita bisa melakukan kesalahan pada pixel N dalam log2 (N) operasi, yang jauh lebih baik daripada melakukannya dengan cara yang keras dan lambat. Zoom dan spin blurs bisa dilakukan dengan penskalaan dan rotasi alih-alih menerjemahkan. Satu filter akan melakukan ketiganya menggunakan AffineTransform. Cobalah di applet ini: Pergeseran Domain Ada cara lain untuk melakukan gerakan ini mengaburkan: Ingat, saya katakan bahwa Anda bisa melakukan gerakan linier blur dengan memutar gambar, melakukan kotak horizontal yang kabur dan berputar kembali. Nah, hal yang sama juga terjadi pada Zoom dan spin blurs, kecuali Anda butuh sesuatu yang lebih rumit daripada rotasi. Yang Anda butuhkan adalah transformasi kutub. Setelah Anda mengubah gambar Anda, kotak horisontal kabur adalah putaran saat Anda mengubah kembali, dan kotak vertikal akan memberi Anda blur zoom. Satu detail adalah bahwa Anda memerlukan blur kotak horizontal khusus yang membungkus tepinya jika tidak Anda akan mendapatkan garis vertikal tajam di gambar buram Anda di mana sudut spin harus membungkusnya. Blurring by Fourier Transform Gaussian blur sangat baik bila Anda menginginkan efek blur Gaussian itu, tapi bagaimana jika Anda menginginkan blur lensa yang tepat yang mensimulasikan aperture kamera yang sebenarnya Tonton film atau program TV untuk sementara waktu, terutama yang ditembak di malam hari dengan lampu. Di latar belakang, dan Anda akan melihat hal-hal yang tidak fokus membentuk bentuk disk, atau mungkin pentagons. Ada juga fenomena yang disebut mekar dimana bagian terang dari gambar membersihkan gambar, menjadi lebih terang dibandingkan dengan yang lainnya. Bentuk ini disebut Bokeh. Beberapa orang menyukainya dan beberapa orang membencinya. Kami tidak peduli apakah orang menyukainya atau membencinya, kami hanya ingin memperbanyaknya. Anda tidak akan mendapatkan bentuk disk dengan Gaussian blur - yang terlalu kabur sepanjang tepi. Apa yang Anda butuhkan untuk melakukannya menggunakan kernel konvolusi tajam yang bagus dalam bentuk aperture kamera Anda. Masalah yang akan Anda sajikan di sini adalah bahwa semua trik itu berkaitan dengan kernel yang dapat dipisahkan, kotak yang diurungkan kabur dan pekerjaan biasa seperti di sini - tidak ada kernel terpisah yang akan memberi Anda pentagon (mungkin, tidak - tidak ada matematikawan) - kembali ke Masalah lama dari waktu blur naik seperti kuadrat dari jari-jari buram. Jangan takut, kita bisa mengubah senjata matematika yang berat menjadi masalah. Saya tidak tahu bagaimana senjata berat bekerja, tapi saya bisa mengarahkan mereka. Senapan beratnya adalah Fourier Transforms. Saya tidak tahu bagaimana mereka bekerja karena saya tidak mendengarkan ceramah di universitas saya, tapi ada banyak hal yang dapat Anda temukan di Internet, walaupun praktis tidak praktis (yaitu dengan kode sumber) tentang masalah pengaburan. Dengan Fourier Transforms, Anda bisa membuat blur yang membutuhkan waktu yang tidak terpengaruh oleh radius blur (dalam praktiknya, berurusan dengan tepi gambar berarti ini tidak benar). Sayangnya, ini berarti untuk radius kecil, lamban, tapi Anda benar-benar menang dengan radius besar. Salah satu cara untuk mengatasi hal ini adalah dengan menggunakan konvolusi sederhana untuk jari-jari kecil, dan beralih ke Fourier Transforms saat Anda mencapai titik crossover pada waktunya, dengan asumsi Anda telah melakukan eksperimen untuk menentukan di mana letaknya. Tapi hati-hati, jika youre menghidupkan kabur, Anda harus memastikan bahwa Anda tidak mendapatkan artefak yang terlihat pada titik di mana Anda beralih algoritma - mata benar-benar bagus untuk melihat itu. Oleh karena itu, Anda mungkin lebih memilih untuk tetap menggunakan satu algoritma untuk keseluruhan animasi. Untuk gambar diam, tidak ada yang akan memperhatikannya. Sangat. Apakah itu benar-benar terlihat berbeda Tentunya, kita bisa lolos dengan Gaussian blur Well, Heres sebuah contoh yang akan membantu Anda mengambil keputusan. Prinsip di balik melakukan blur tidak terlalu sulit, meski nampaknya seperti sihir. Apa yang kita lakukan adalah mengambil gambar dan kernel, dan melakukan transformasi Fourier pada keduanya. Kami kemudian memperbanyak keduanya secara bersamaan dan invers mengubah kembali. Ini sama persis dengan melakukan konvolusi panjang di atas (terlepas dari kesalahan pembulatan). Anda benar-benar tidak perlu tahu apa yang dilakukan transformasi Fourier untuk menerapkan ini, namun bagaimanapun, yang dilakukannya adalah mengubah gambar menjadi ruang frekuensi - gambar yang dihasilkan adalah representasi frekuensi spasial yang tampak aneh pada gambar. Kebalikannya, tentu saja, berubah kembali ke angkasa. Eh, ruang Anggap saja seperti equalizer grafis untuk gambar. Anda bisa memikirkan kabur gambar sebagai menghilangkan frekuensi tinggi darinya, jadi bagaimana transformasi Fourier masuk ke gambar. Menerapkan ini sebenarnya cukup mudah, tapi ada banyak rincian buruk yang perlu dikhawatirkan. Pertama-tama kita membutuhkan beberapa fungsi untuk melakukan transformasi dan inversnya. Ini bisa ditemukan di kelas FFT. Ini sama sekali bukan implementasi super optimal - Anda dapat menemukan banyak dari mereka di tempat lain di Internet. Selanjutnya, kita perlu mengubah kernel menjadi gambar dengan ukuran yang sama dengan gambar yang kabur (saya yakin ada beberapa cara untuk menghindari hal ini, tapi saya tidak cukup tahu matematika - jika hanya Id yang mendengarkan ceramah tersebut). Kita juga perlu memberi tahu sumber gambar kita dengan jari-jari kabur, menduplikat piksel tepi karena sulit membuat FFT menghadapinya seperti ini. Sekarang, FFT bekerja pada bilangan kompleks, jadi kita perlu menyalin gambar dan kernel ke dalam array float. Kita bisa melakukan trik disini - gambar kita memiliki empat saluran (alpha, red, green dan blue) jadi kita perlu melakukan empat transformasi plus satu untuk kernel, membuat lima, tapi karena menggunakan bilangan kompleks kita bisa melakukan dua transformasi sekaligus. Dengan menempatkan satu saluran di bagian sebenarnya dari array dan satu saluran di bagian imajiner. Sekarang semuanya menjadi mudah, cukup ubah gambar dan kernelnya, komplekskan kalikannya bersama-sama dan invers transform dan kita lihat kembali, tapi terpecahkan dengan kernelnya. Satu detail kecil terakhir adalah proses transformasi melompati kuadran gambar sehingga kita perlu melepaskannya. Hanya satu detail kecil yang tersisa: FFT hanya bekerja pada gambar yang memiliki kekuatan 2 di setiap arah. Yang harus kita lakukan adalah menambahkan dua kali radius kabur ke lebar dan tinggi, temukan kekuatan tertinggi berikutnya dari 2 dan buat ukuran array kami. Untuk gambar besar ini memiliki beberapa masalah: Salah satunya adalah dengan menggunakan banyak memori. Ingatlah bahwa kita memiliki gambar kita dalam array float dan kita membutuhkan 6 dari susunan ini, yang masing-masing berukuran 4 kali lebih besar dari gambar ketika telah diperluas menjadi kekuatan dua. Mesin virtual Java Anda mungkin mengeluh pada Anda jika Anda mencoba ini pada gambar besar (saya tahu, saya telah mencoba). Masalah kedua adalah terkait: Hal-hal hanya pergi lebih lambat dengan gambar besar karena masalah memori caching. Jawabannya adalah membagi gambar menjadi ubin dan mengaburkan setiap ubin secara terpisah. Memilih ukuran genteng yang baik adalah pilihan masalah penelitian (yaitu saya havent telah repot-repot bereksperimen banyak), tapi rumit - kita perlu tumpang tindih ubin oleh radius blur jadi jika kita memilih ukuran genteng 256 dengan radius kabur 127 , Kawin saja kabur 4 pixel dengan masing-masing genteng. Cobalah di applet ini: Threshold Blurs Sesuatu yang sering dikehendaki adalah kabur yang mengaburkan bagian gambar yang sangat mirip namun tetap mempertahankan tepi yang tajam. Ini adalah krim kerut digital dan Anda bisa melihat ini di poster film manapun yang pernah dicetak - wajah-wajah bintang memiliki noda-noda buruk yang disetrika tanpa gambar tampak buram. Seringkali ini sangat berlebihan sehingga aktor terlihat seperti waxworks atau tokoh yang menghasilkan komputer. Cara kita melakukan ini adalah dengan melakukan konvolusi biasa, namun hanya menghitung piksel sekitarnya yang serupa dengan pixel target. Secara khusus, kami memiliki ambang batas dan hanya menyertakan piksel dalam konvolusi jika berbeda dari piksel tengah kurang dari ambang batas. Sayangnya, jalan pintas yang kami ambil di atas tidak akan berfungsi di sini karena kami perlu menyertakan kumpulan piksel sekeliling yang berbeda untuk setiap piksel target, jadi kembali ke putaran penuh lagi. Sekarang, walaupun ini sangat meragukan, sebenarnya bekerja cukup baik untuk tetap melakukan dua resolusi 1D untuk kabur Gaussian yang lebih cepat daripada melakukan konvolusi 2D penuh, jadi itulah yang telah saya lakukan di sini. Merasa bebas untuk memodifikasi sumber untuk melakukan hal yang sama. Cobalah di applet ini: Variable Blurs Sejauh ini hanya berbicara tentang blur seragam - di mana jari-jari buram sama pada setiap titik. Untuk beberapa tujuan, bagus untuk memiliki kabur yang memiliki radius berbeda pada setiap titik pada gambar. Salah satu contohnya adalah mensimulasikan kedalaman lapangan: Anda bisa mengambil gambar yang fokus di seluruh dan menerapkan variabel blur padanya agar bagian terlihat tidak fokus. Kedalaman lapangan yang sebenarnya lebih rumit dari pada ini karena objek yang berada di belakang objek lain tidak boleh menerima blur dari objek di depan, tapi abaikan saja dan serahkan ke profesional. Sekarang, trik mewah kami di atas arent akan membantu kita banyak di sini karena segala sesuatu melibatkan precalculating kernel atau bergantung pada radius blur yang sama pada gambar dan pada pandangan pertama sepertinya tidak ada pilihan selain kembali pada konvolusi penuh di Setiap pixel, hanya kali ini yang jauh lebih buruk karena kernel mungkin telah berubah dari pixel sebelumnya. Namun, semua tidak hilang. Ingat trik itu dengan kotak yang buram di mana kita hanya menambahkan piksel saat mereka memasuki kernel dan menguranginya saat mereka pergi. Sepertinya ini biasa dilakukan dalam kasus radius variabel karena harus tetap total untuk setiap radius yang mungkin, namun ada modifikasi Kita bisa membuat trik yang memungkinkan kita menarik secara ajaib jumlah total radius dengan hanya satu pengurangan. Apa yang kita lakukan adalah melakukan preproses gambar dan mengganti setiap piksel dengan jumlah semua piksel ke kiri. Dengan begitu ketika kita ingin menemukan total semua pixel antara dua titik di scanline, kita hanya perlu mengurangi yang pertama dari yang kedua. Hal ini memungkinkan kita untuk melakukan blur variabel cepat menggunakan versi modifikasi kode blur box diatas. Berurusan dengan ujung-ujungnya sedikit lebih rumit karena hanya mengurangkan total yang tidak bekerja untuk piksel di luar tepi, tapi ini adalah detail kecil. Kita juga membutuhkan ruang penyimpanan yang sedikit lebih banyak karena totalnya akan melampaui nilai maksimum piksel - perlu menggunakan int per channel daripada menyimpan empat saluran dalam satu int. Well, OK, tapi ini adalah Gaussian (ish) blur isnt it Bagaimana dengan melakukan hal yang blur lensa dengan radius variabel Sayangnya, youre kurang beruntung disini. Saya tidak mengatakan bahwa tidak ada cara super cepat untuk melakukan ini, tapi sejauh yang saya tahu, Anda harus melakukan hal yang sama dengan konvolusi. Cobalah di applet ini, yang mengaburkan lebih banyak saat Anda bergerak ke kanan: Sharpening by Blurring Anda bisa menggunakan blur untuk mempertajam gambar dan juga mengaburkannya menggunakan teknik yang disebut unsharp masking. Apa yang Anda lakukan adalah mengambil gambar dan mengurangi versi buram, pastikan Anda mengimbangi hilangnya kecerahan. Ini terdengar seperti sihir, tapi benar-benar bekerja: bandingkan gambar ini dengan yang asli. Cobalah di applet ini: Jika mengurangkan versi buram dari sebuah gambar dari dirinya sendiri mempertajamnya, apa yang menambahkannya lakukan Seperti biasa, Anda tidak perlu menebak - Im di sini untuk memberi tahu Anda. Apa yang Anda dapatkan adalah semacam efek bercahaya yang bisa terlihat cukup bagus, atau sangat murahan tergantung sudut pandang Anda. Memvariasikan jumlah blur yang ditambahkan bervariasi efek bercahaya. Anda dapat melihat efek ini banyak digunakan di televisi untuk melihat mimpi. Cobalah di applet ini: Membuat Bayangan Membuat bayangan hanyalah masalah untuk menciptakan gambar yang menyerupai siluet objek bayangan, mengaburkannya, mungkin mendistorsi atau menggerakkannya, dan menempelkan gambar asli di atas. Karena ini adalah hal yang sangat biasa yang ingin dilakukan, seharusnya ada filter untuk melakukannya, dan ini dia. Ini sebenarnya adalah implementasi yang sangat sederhana - hanya mengaburkan bayangan dan menggambar gambar asli dari atas. Dalam prakteknya, lebih baik jangan repot-repot mengaburkan pixel yang benar-benar tersembunyi oleh objek. Casting Rays Kita bisa melakukan trik yang sama agar sinar tampak muncul dari suatu objek, hanya saja kali ini membuat warna bayangan putih dan menggunakan zoom blur bukan blur biasa, lalu menambahkan hasilnya di atas yang asli. Sinar sering terlihat lebih baik jika Anda hanya membuangnya dari bagian gambar yang terang, sehingga filter memiliki ambang batas yang dapat Anda setel untuk membatasi sinar ke daerah terang. Ini adalah efek yang baik untuk bernyawa: jadikan bagian tengah sinar bergerak melintasi gambar dan Anda mendapatkan efek sumber cahaya bergerak di belakang gambar. Kesimpulan Well, thats it, dan Ive bahkan tidak disebutkan metode blurring lainnya seperti filter IIR, filter rekursif dan semua hal buruk lainnya. Kuharap kau datang dengan sesuatu yang berguna dari ini, meski hanya keinginan membakar tinta hijau dan menulis surat untukku. Akhirnya, Anda mungkin telah memperhatikan bahwa sumber di atas bergantung pada beberapa kelas lainnya. Jangan khawatir, ini dia: Bell Curve BREAKING DOWN Bell Curve Bell curve adalah istilah umum yang digunakan untuk menggambarkan penggambaran grafis dari distribusi probabilitas normal. Distribusi probabilitas normal yang mendasari penyimpangan standar dari median, atau dari titik tertinggi pada kurva, adalah apa yang memberi bentuk bel melengkung. Standar deviasi adalah pengukuran yang digunakan untuk mengukur variabilitas dispersi data dalam sekumpulan nilai. Rata-rata adalah rata-rata semua titik data dalam kumpulan data atau urutan. Penyimpangan standar dihitung setelah mean dihitung dan mewakili persentase dari total data yang dikumpulkan. Misalnya, jika serangkaian 100 nilai tes dikumpulkan dan digunakan dalam distribusi probabilitas normal, 68 dari 100 nilai tes harus berada dalam satu standar deviasi di atas atau di bawah rata-rata. Memindahkan dua standar deviasi dari mean harus mencakup 95 dari 100 nilai tes yang dikumpulkan, dan memindahkan tiga standar deviasi dari mean seharusnya mewakili 99,7 dari 100 nilai tes. Setiap nilai tes yang merupakan outlier ekstrem, seperti skor 100 atau 0, akan dianggap sebagai titik data ekor panjang dan terletak di luar tiga kisaran standar deviasi. Menggunakan Distribusi Data di Keuangan Analis keuangan dan investor sering menggunakan distribusi probabilitas normal saat menganalisis tingkat pengembalian keamanan atau sensitivitas pasar secara keseluruhan. Standar deviasi yang menggambarkan tingkat pengembalian keamanan diketahui di dunia keuangan sebagai volatilitas. Misalnya, saham yang menampilkan kurva bel biasanya saham blue chip dan memiliki volatilitas yang lebih rendah dan dapat diprediksi. Investor menggunakan distribusi probabilitas normal dari return saham sebelumnya untuk membuat asumsi mengenai expected future returns. Namun, saham dan sekuritas lainnya terkadang menampilkan distribusi non-normal, yang berarti bahwa mereka tidak terlihat seperti kurva bel. Distribusi tidak normal memiliki ekor lebih gemuk daripada distribusi probabilitas normal. Jika ekor gemuk miring negatif, itu merupakan sinyal bagi investor bahwa ada kemungkinan pengembalian negatif yang lebih besar dan sebaliknya. Ekor lemak miring secara positif dapat menjadi tanda kembalinya abnormal returns.Crowdsourcing adalah cara yang sangat populer untuk mendapatkan sejumlah besar data berlabel yang memerlukan metode pembelajaran mesin modern. Meskipun murah dan cepat untuk mendapatkan, label crowdsourced mengalami sejumlah kesalahan yang signifikan, sehingga menurunkan kinerja tugas belajar mesin hilir. Dengan tujuan untuk meningkatkan kualitas data berlabel, kami berusaha mengurangi banyak kesalahan yang terjadi karena kesalahan konyol atau kesalahan yang tidak disengaja oleh pekerja crowdsourcing. Kami mengusulkan pengaturan dua tahap untuk crowdsourcing dimana pekerja pertama kali menjawab pertanyaan, dan kemudian diizinkan untuk mengubah jawabannya setelah melihat jawaban referensi (berisik). Kami secara matematis merumuskan proses ini dan mengembangkan mekanisme untuk memberi insentif kepada pekerja untuk bertindak dengan tepat. Jaminan matematis kami menunjukkan bahwa mekanisme kami memberi insentif kepada para pekerja untuk menjawab dengan jujur ​​di kedua tahap, dan menahan diri untuk tidak menjawab secara acak pada tahap pertama atau hanya menyalinnya di tahap kedua. Eksperimen numerik menunjukkan peningkatan yang signifikan dalam kinerja yang dapat dilakukan oleh 8220 sendiri-koreksi8221 saat menggunakan crowdsourcing untuk melatih algoritma pembelajaran mesin. Ada berbagai model parametrik untuk menganalisis data perbandingan berpasangan, termasuk model Bradley-Terry-Luce (BTL) dan Thurstone, namun ketergantungan mereka pada asumsi parametrik yang kuat membatasi. Dalam karya ini, kita mempelajari model fleksibel untuk perbandingan berpasangan, di mana probabilitas hasil dibutuhkan hanya untuk memenuhi bentuk alami dari transitivity stokastik. Kelas ini mencakup model parametrik termasuk model BTL dan Thurstone sebagai kasus khusus, namun jauh lebih umum. Kami menyediakan berbagai contoh model dalam kelas transitif stokastik yang lebih luas dimana model parametrik klasik memberikan kecocokan yang buruk. Terlepas dari fleksibilitas yang lebih besar ini, kami menunjukkan bahwa matriks probabilitas dapat diperkirakan pada tingkat yang sama seperti pada model parametrik standar. Di sisi lain, tidak seperti model BTL dan Thurstone, menghitung estimator optimum minimum model stochastically transitive adalah non-sepele, dan kami mengeksplorasi berbagai alternatif yang dapat dilakukan secara komputasi. Kami menunjukkan bahwa algoritma thresholding singular value sederhana konsisten secara statistik namun tidak mencapai tingkat minimax. Kami kemudian mengusulkan dan mempelajari algoritma yang mencapai tingkat minimax pada subkelas yang menarik dari kelas transitif stokastik penuh. Kami melengkapi hasil teoritis kami dengan simulasi numerik menyeluruh. Kami menunjukkan bagaimana model berpasangan biner dapat dicabut ke model simetris sepenuhnya, dimana potensi tunggal asli diubah menjadi potensi pada sisi ke variabel tambahan, dan kemudian dirender ke model baru pada jumlah variabel aslinya. Model baru ini pada dasarnya setara dengan model aslinya, dengan fungsi partisi yang sama dan memungkinkan pemulihan marginal asli atau kongres MAP, namun mungkin memiliki sifat komputasi yang sangat berbeda sehingga memungkinkan kesimpulan yang lebih efisien. Pendekatan meta ini memperdalam pemahaman kita, dapat diterapkan pada algoritma yang ada untuk menghasilkan metode perbaikan dalam praktik, menggeneralisasi hasil teoritis sebelumnya, dan mengungkapkan interpretasi yang luar biasa dari polytope triplet yang konsisten. Kami menunjukkan bagaimana metode pembelajaran yang mendalam dapat diterapkan dalam konteks crowdsourcing dan ansambel tanpa pengawasan. Pertama, kami membuktikan bahwa model populer Dawid and Skene, yang mengasumsikan bahwa semua pengklasifikasi bersifat kondisional, adalah Mesin Boltzmann yang Dibatasi (RBM) dengan satu simpul tersembunyi. Oleh karena itu, di bawah model ini, probabilitas posterior dari label sebenarnya dapat diperkirakan melalui RBM yang terlatih. Selanjutnya, untuk mengatasi kasus yang lebih umum, di mana pengklasifikasi dapat sangat melanggar asumsi independensi bersyarat, kami mengusulkan untuk menerapkan RBM berbasis Neural Net Net (DNN). Hasil eksperimen pada berbagai dataset simulasi dan data dunia nyata menunjukkan bahwa pendekatan DNN yang kami tawarkan lebih baik daripada metode state-of-the-art lainnya, terutama bila data tersebut melanggar asumsi independensi bersyarat. Meninjau kembali Pembelajaran Semi-Supervisi dengan Grafik Embeddings Zhilin Yang Carnegie Mellon University. William Cohen CMU. Ruslan Salakhudinov U. dari Toronto Paper AbstractWe menyajikan kerangka belajar semi-supervisi berdasarkan grafik embeddings. Dengan grafik antara contoh, kami melatih penyisipan untuk setiap contoh untuk bersama-sama memprediksi label kelas dan konteks lingkungan dalam grafik. Kami mengembangkan varian transduktif dan induktif dari metode kami. Dalam varian transduktif metode kami, label kelas ditentukan oleh vektor pembelajaran dan vektor fitur masukan, sementara pada varian induktif, embeddings didefinisikan sebagai fungsi parametrik dari vektor fitur, sehingga prediksi dapat dibuat pada contoh yang tidak Terlihat saat latihan. Pada rangkaian tugas benchmark yang besar dan beragam, termasuk klasifikasi teks, ekstraksi entitas yang diawasi secara ketat, dan klasifikasi entitas, kami menunjukkan peningkatan kinerja pada banyak model yang ada. Penguatan pembelajaran dapat memperoleh perilaku kompleks dari spesifikasi tingkat tinggi. Namun, menentukan fungsi biaya yang bisa dioptimalkan secara efektif dan mengkodekan tugas yang benar adalah tantangan dalam praktiknya. Kami mengeksplorasi bagaimana invers optimal control (IOC) dapat digunakan untuk mempelajari perilaku dari demonstrasi, dengan aplikasi untuk mengendalikan torsi sistem robot berdimensi tinggi. Metode kami membahas dua tantangan utama dalam pengendalian optimal terbalik: pertama, kebutuhan akan fitur informatif dan regularisasi yang efektif untuk menerapkan struktur pada biaya, dan kedua, sulitnya mempelajari fungsi biaya di bawah dinamika yang tidak diketahui untuk sistem kontinu dimensi tinggi. Untuk mengatasi tantangan sebelumnya, kami menyajikan algoritma yang mampu mempelajari fungsi biaya nonlinier sewenang-wenang, seperti jaringan syaraf tiruan, tanpa rekayasa fitur yang teliti. Untuk mengatasi tantangan terakhir, kami merumuskan perkiraan berbasis sampel yang efisien untuk MaxEnt IOC. Kami mengevaluasi metode kami pada serangkaian tugas simulasi dan masalah manipulasi robot dunia nyata, menunjukkan peningkatan yang substansial dari metode sebelumnya, baik dari segi kompleksitas tugas dan efisiensi sampel. Dalam mempelajari model variabel laten (LVMs), penting untuk secara efektif menangkap pola yang jarang terjadi dan memperkecil ukuran model tanpa mengorbankan daya pemodelan. Berbagai penelitian telah dilakukan untuk memperbaiki LVM, yang bertujuan untuk mempelajari beragam komponen laten dalam LVMs. Sebagian besar penelitian yang ada termasuk dalam kerangka regularisasi bergaya frequentist, dimana komponen dipelajari melalui estimasi titik. Dalam tulisan ini, kami menyelidiki bagaimana cara mengubah paradigma pembelajaran Bayesian, yang memiliki kelebihan yang melengkapi estimasi titik, seperti mengurangi overfitting melalui model rata-rata dan mengkuantifikasi ketidakpastian. Kami mengusulkan dua pendekatan yang memiliki keunggulan komplementer. Salah satunya adalah untuk mendefinisikan keragaman yang mempromosikan kelas sudut bersama yang menetapkan kepadatan yang lebih besar ke komponen dengan sudut pandang yang lebih besar berdasarkan jaringan Bayesian dan distribusi von Mises-Fisher dan menggunakan ramuan ini untuk mempengaruhi posterior melalui peraturan Bayes. Kami mengembangkan dua algoritma inferensi perkiraan posterior yang efisien berdasarkan pada variasi inferensi dan sampling Markov chain Monte Carlo. Pendekatan lainnya adalah memaksakan regularisasi keterpusatan eksposur secara langsung melalui distribusi komponen post-data. Kedua metode ini diterapkan pada model ahli botani Bayesian untuk mendorong para ahli pengukuran untuk hasil beragam dan eksperimental menunjukkan efektivitas dan efisiensi metode kami. Regresi nonparametrik dimensi tinggi merupakan masalah yang secara inheren sulit dikenali batas bawah yang tergantung secara eksponensial dalam dimensi. Strategi populer untuk meringankan kutukan dimensi ini adalah dengan menggunakan model aditif dari emph, yang memodelkan fungsi regresi sebagai jumlah fungsi independen pada setiap dimensi. Meskipun berguna dalam mengendalikan varians perkiraan, model semacam itu seringkali terlalu membatasi dalam pengaturan praktis. Antara model non-aditif yang sering memiliki varians besar dan model aditif orde pertama yang memiliki bias besar, hanya ada sedikit usaha untuk mengeksploitasi trade-off di tengahnya melalui model aditif pesanan menengah. Dalam karya ini, kami mengusulkan salsa, yang menjembatani kesenjangan ini dengan membiarkan interaksi antar variabel, namun mengendalikan kapasitas model dengan membatasi urutan interaksi. Salsas meminimalkan jumlah kuadrat sisa dengan hukuman normal RKHS kuadrat. Algoritma ini dapat dilihat sebagai Regresi Kernel Ridge dengan kernel aditif. Bila fungsi regresi aditif, kelebihan risiko hanya polinomial dalam dimensi. Dengan menggunakan formula Girard-Newton, kami secara efisien merangkum sejumlah istilah kombinasi dalam ekspansi aditif. Melalui perbandingan pada 15 dataset nyata, kami menunjukkan bahwa metode kami bersaing melawan 21 alternatif lainnya. Kami mengusulkan perpanjangan proses Hawkes dengan memperlakukan tingkat eksitasi diri sebagai persamaan diferensial stokastik. Proses titik baru kami memungkinkan perkiraan yang lebih baik dalam domain aplikasi dimana kejadian dan intensitas saling mempercepat dengan tingkat penularan yang berkorelasi. Kami menggeneralisasi algoritma terbaru untuk simulasi menarik dari proses Hawkes yang tingkat eksitasinya adalah proses stokastik, dan mengusulkan pendekatan rantai Markov rantai ganda Monte Carlo untuk pemasangan model. Prosedur sampling kami secara linear dengan jumlah kejadian yang dibutuhkan dan tidak memerlukan stationitas dari proses titik. Prosedur inferensi modular yang terdiri dari kombinasi antara langkah Gibbs dan Metropolis Hastings diajukan. Kami memulihkan maksimalisasi harapan sebagai kasus khusus. Pendekatan umum kami diilustrasikan untuk penularan mengikuti gerak Brown geometris dan dinamika Langevin yang eksponensial. Sistem agregasi peringkat mengumpulkan preferensi ordinal dari individu untuk menghasilkan peringkat global yang mewakili preferensi sosial. Untuk mengurangi kompleksitas komputasi dalam mempelajari peringkat global, praktik yang umum dilakukan adalah dengan menggunakan pemecahan peringkat. Preferensi individu dipecah menjadi perbandingan berpasangan dan kemudian diterapkan pada algoritma efisien yang disesuaikan untuk perbandingan berpasangan independen. Namun, karena ketergantungan yang diabaikan, pendekatan pemutusan peringkat naif dapat mengakibatkan perkiraan yang tidak konsisten. Gagasan utama untuk menghasilkan taksiran yang tidak bias dan akurat adalah dengan memperlakukan hasil perbandingan yang dipasangkan dengan tidak adil, bergantung pada topologi data yang dikumpulkan. Dalam tulisan ini, kami memberikan estimator pemecah rangking yang optimal, yang tidak hanya mencapai konsistensi namun juga mencapai batas kesalahan terbaik. Hal ini memungkinkan kita untuk mengkarakterisasi tradeoff fundamental antara akurasi dan kompleksitas dalam beberapa skenario kanonik. Selanjutnya, kita mengidentifikasi bagaimana akurasi tergantung pada jarak spektral dari grafik perbandingan yang sesuai. Penyulingan sulap Samuel Rota Bul FBK. Lorenzo Porzi FBK. Peter Kontschieder Microsoft Research Cambridge Paper AbstractDropout adalah teknik regularisasi stokastik yang populer untuk jaringan syaraf dalam yang bekerja dengan menjatuhkan secara acak (yaitu zeroing) unit dari jaringan selama pelatihan. Proses pengacakan ini memungkinkan untuk secara implisit melatih ansambel secara eksponensial banyak jaringan yang berbagi parameter yang sama, yang harus dirata-ratakan pada waktu uji untuk memberikan prediksi akhir. Solusi umum untuk operasi rata-rata yang sulit ini terdiri dari penskalaan lapisan yang menjalani pengacakan putus sekolah. Aturan sederhana yang disebut 8216standard dropout8217 ini efisien, namun bisa menurunkan keakuratan prediksi. Dalam karya ini, kami memperkenalkan sebuah pendekatan baru, yang menghasilkan penyulingan 8216, yang memungkinkan kita melatih prediktor dengan cara yang lebih baik untuk memperkirakan proses pengimbangan rata-rata yang sulit, namun lebih baik, sambil tetap mengendalikan efisiensinya. Dengan demikian kita dapat membangun model yang seefektif standar putus sekolah, atau bahkan lebih efisien lagi, sementara lebih akurat. Percobaan pada kumpulan data benchmark standar menunjukkan keabsahan metode kami, menghasilkan perbaikan yang konsisten terhadap penjadwalan konvensional. Pesan anonim Metadata-sadar Giulia Fanti UIUC. Peter Kairouz UIUC. Sewoong Oh UIUC. Kannan Ramchandran UC Berkeley. Pramod Viswanath UIUC Paper Abstract Platform anonim seperti Whisper dan Yik Yak memungkinkan pengguna menyebarkan pesan melalui jaringan (mis., Jaringan sosial) tanpa mengungkapkan kepengarangan pesan kepada pengguna lain. Penyebaran pesan pada platform ini dapat dimodelkan dengan proses difusi melalui grafik. Kemajuan terbaru dalam analisis jaringan telah mengungkapkan bahwa proses difusi semacam itu rentan terhadap kehilangan identitas penulis oleh lawan yang memiliki akses terhadap metadata, seperti informasi waktu. Dalam karya ini, kami mengajukan pertanyaan mendasar tentang bagaimana cara menyebarkan pesan anonim melalui grafik sehingga sulit bagi lawan untuk menyimpulkan sumbernya. Secara khusus, kami mempelajari kinerja protokol propagasi pesan yang disebut difusi adaptif yang diperkenalkan di (Fanti et al., 2015). Kami membuktikan bahwa ketika musuh memiliki akses ke metadata pada sebagian kecil dari nodus grafik yang rusak, difusi adaptif mencapai selektif sumber asimetris yang optimal dan secara signifikan melebihi standar difusi. Kami lebih jauh menunjukkan secara empiris bahwa difusi adaptif menyembunyikan sumber secara efektif pada jaringan sosial yang sebenarnya. Dimensi Pengajaran Pembelajar Linear Ji Liu University of Rochester. Xiaojin Zhu University of Wisconsin. Hurst Ohannessian University of Wisconsin-Madison Paper AbstractTeaching dimension adalah kuantitas teoritis pembelajaran yang menentukan ukuran latihan minimum untuk mengajarkan model target kepada pelajar. Studi sebelumnya tentang dimensi pengajaran difokuskan pada pembelajar kelas versi yang menjaga semua hipotesis sesuai dengan data pelatihan, dan tidak dapat diterapkan pada pelajar mesin modern yang memilih hipotesis spesifik melalui pengoptimalan. Makalah ini menyajikan dimensi pengajaran pertama yang diketahui untuk regresi ridge, mesin vektor pendukung, dan regresi logistik. Kami juga menunjukkan rangkaian pelatihan optimal yang sesuai dengan dimensi pengajaran ini. Pendekatan kami menggeneralisasi pelajar linier lainnya. Estimator Univariat Sejati Ioannis Caragiannis University of Patras. Ariel Procaccia Universitas Carnegie Mellon. Nisarg Shah Carnegie Mellon University Paper AbstractKami meninjau kembali masalah klasik untuk memperkirakan mean populasi dari distribusi satu dimensi yang tidak diketahui dari sampel, dengan mengambil sudut pandang permainan-teoritis. Di tempat kami, sampel dipasok oleh agen strategis, yang ingin menarik perkiraan sedekat mungkin dengan nilainya sendiri. Dalam setting ini, mean sampel menimbulkan peluang manipulasi, sedangkan median sampel tidak. Pertanyaan utama kami adalah apakah median sampel adalah yang terbaik (dalam hal kesalahan kuadrat rata-rata) estimator yang benar dari mean populasi. Kami menunjukkan bahwa ketika distribusi yang mendasari simetris, ada estimator sejati yang mendominasi median. Hasil utama kami adalah karakterisasi estimator jujur ​​yang ideal, yang terbukti mengungguli median, untuk distribusi asimetris yang mungkin dengan dukungan terbatas. Mengapa Regularized Auto-Encoders mempelajari Representasi Jarang Devansh Arpit SUNY Buffalo. Yingbo Zhou SUNY Buffalo. Hung Ngo SUNY Buffalo. Venu Govindaraju SUNY Buffalo Paper AbstractSparse distributed representation adalah kunci untuk mempelajari fitur yang berguna dalam algoritma pembelajaran yang mendalam, karena tidak hanya itu adalah mode representasi data yang efisien, namun juga 8212 lebih penting lagi, 8212 ini menangkap proses pembangkitan data dunia nyata. Sementara sejumlah encoden otomatis yang diatur (regular-encoders) menerapkan sparsitas secara eksplisit dalam representasi terpelajar mereka dan yang lainnya tidak, hanya sedikit analisis formal mengenai apa yang mendorong percikan pada model ini secara umum. Tujuan kami adalah untuk secara formal mempelajari masalah umum ini untuk encoders otomatis yang diatur. Kami menyediakan kondisi yang cukup baik pada regularisasi dan fungsi aktivasi yang mendorong sparsity. Kami menunjukkan bahwa beberapa model populer (de-noising dan contractive auto encoders, mis.) Dan aktivasi (rectified linear dan sigmoid, mis.) Memenuhi kondisi ini, kondisi kami membantu menjelaskan sparsitas dalam representasi terpelajar mereka. Dengan demikian, analisis teoritis dan empiris kami secara keseluruhan menjelaskan sifat-sifat regularisasi yang bersifat konduktif terhadap sparsitas dan menyatukan sejumlah model auto-encoder yang ada dan fungsi aktivasi berdasarkan kerangka analisis yang sama. K-variates: lebih banyak plus di k-means Richard Nock Nicta 038 ANU. Raphael Canyasse Ecole Polytechnique dan The Technion. Roksana Boreli Data61. Frank Nielsen Ecole Polytechnique dan Sony CS Labs Inc. Paper Abstractk-means seeding telah menjadi standar de facto untuk algoritma clustering keras. Dalam makalah ini, kontribusi pertama kami adalah generalisasi dua arah dari pembibitan ini, k-variates, yang mencakup pengambilan sampel kerapatan umum dan bukan hanya kerapatan Dirac diskrit yang dilabuhkan pada lokasi titik, mengirimkan sebuah generalisasi yang terkenal Estimasi apung Arthur-Vassilvitskii (AV), dalam bentuk pendekatan textit yang terikat pada textit optimum. Aproksimasi ini menunjukkan ketergantungan yang berkurang pada komponen 8220noise8221 sehubungan dengan potensi optimal 8212 yang benar-benar mendekati batas bawah statistik. Kami menunjukkan bahwa k-variates textit untuk algoritma clustering yang efisien (pembesaran bias) disesuaikan dengan kerangka kerja spesifik, termasuk pengelompokan, streaming dan on-line yang terdistribusi, dengan hasil aplikasinya untuk algoritma ini. Akhirnya, kami menyajikan aplikasi baru k-variates untuk privasi diferensial. Untuk kerangka kerja spesifik yang dipertimbangkan di sini, atau untuk pengaturan privasi diferensial, tidak banyak hasil sebelum penerapan langsung k-means dan perkiraannya 8212 keadaan pesaing seni tampak secara signifikan lebih kompleks dan atau kurang ditampilkan. Menguntungkan (aproksimasi) properti. Kami menekankan bahwa algoritme kami masih dapat dijalankan dalam kasus dimana ada solusi bentuk teks tertutup untuk diminimalkan populasi. Kami menunjukkan penerapan analisis kami melalui evaluasi eksperimental pada beberapa domain dan setting, menampilkan kinerja kompetitif vs keadaan seni. Bandit Multi-Player 8212 Pendekatan Kursi Musik Jonathan Rosenski Weizmann Institute of Science. Ohad Shamir Weizmann Institute of Science. Liran Szlak Weizmann Institute of Science Paper Abstract Kami mempertimbangkan varian dari masalah bandit stokastik multi-bersenjata, di mana banyak pemain secara bersamaan memilih dari rangkaian senjata yang sama dan mungkin bertabrakan, tidak mendapat imbalan. Pengaturan ini dimotivasi oleh masalah yang timbul di jaringan radio kognitif, dan terutama menantang berdasarkan asumsi realistis bahwa komunikasi antar pemain terbatas. Kami menyediakan algoritma komunikasi bebas (Musical Chairs) yang mencapai penyesalan konstan dengan probabilitas tinggi, serta algoritma penyortiran bebas sublinear-regret, Dynamic Musical Chairs) untuk pengaturan pemain yang lebih sulit yang secara dinamis masuk dan keluar sepanjang permainan. . Selain itu, kedua algoritma tersebut tidak memerlukan pengetahuan sebelumnya tentang jumlah pemain. Sepengetahuan kami, ini adalah algoritma komunikasi bebas pertama dengan jenis jaminan formal ini. Informasi Sieve Greg Ver Steeg Information Sciences Institute. Aram Galstyan Information Sciences Institute Paper AbstractWe memperkenalkan kerangka kerja baru untuk pembelajaran tanpa pengawasan dari representasi berdasarkan dekomposisi informasi hirarkis novel. Secara intuitif, data dilalui melalui serangkaian saringan yang secara bertahap berbutir halus. Setiap lapisan saringan memulihkan satu faktor laten yang sangat informatif tentang ketergantungan multivariat pada data. Data ditransformasikan setelah masing-masing berlalu sehingga informasi yang tidak dapat dijelaskan yang tersisa terjerumus ke lapisan berikutnya. Pada akhirnya, kita ditinggalkan dengan satu set faktor laten yang menjelaskan semua ketergantungan pada data asli dan informasi tambahan yang terdiri dari kebisingan independen. Kami menyajikan implementasi praktis dari kerangka kerja ini untuk variabel diskrit dan menerapkannya pada berbagai tugas mendasar dalam pembelajaran tanpa pengawasan termasuk analisis komponen independen, kompresi lossy dan lossless, dan prediksi nilai data yang hilang. Deep Speech 2. Pengenalan Ucapan Akhir-ke-Akhir dalam bahasa Inggris dan Mandarin Dario Amodei. Rishita Anubhai. Eric Battenberg. Kasus Carl Jared Casper. Bryan Catanzaro. JingDong Chen. Mike Chrzanowski Baidu USA, Inc. Adam Coates. Greg Diamos Baidu USA, Inc. Erich Elsen Baidu USA, Inc. Jesse Engel. Linxi Fan. Christopher Fougner Awni Hannun Baidu USA, Inc. Billy Jun. Tony Han Patrick LeGresley. Xiangang Li Baidu. Libby Lin. Sharan Narang. Andrew Ng. Sherjil Ozair. Ryan Prenger Sheng Qian Baidu. Jonathan Raiman. Sanjeev Satheesh Baidu SVAIL. David Seetapun. Shubho Sengupta. Chong Wang. Yi Wang. Zhiqian Wang. Bo Xiao Yan Xie Baidu. Dani Yogatama. Jun Zhan. Zhenyao Zhu Paper Abstract Kami menunjukkan bahwa pendekatan pembelajaran mendalam end-to-end dapat digunakan untuk mengenali bahasa Mandarin atau Mandarin Cina dengan bahasa yang sangat berbeda. Karena ini menggantikan seluruh jaringan pipa komponen rekayasa tangan dengan jaringan syaraf tiruan, pembelajaran end-to-end memungkinkan kita untuk menangani beragam jenis suara termasuk lingkungan yang bising, aksen dan bahasa yang berbeda. Kunci pendekatan kami adalah penerapan teknik HPC kami, memungkinkan eksperimen yang sebelumnya membutuhkan waktu beberapa minggu untuk berjalan dalam beberapa hari. Hal ini memungkinkan kita untuk iterate lebih cepat untuk mengidentifikasi superior arsitektur dan algoritma. Akibatnya, dalam beberapa kasus, sistem kita bersaing dengan transkripsi pekerja manusia bila dibandingkan dengan dataset standar. Akhirnya, dengan menggunakan teknik yang disebut Batch Dispatch dengan GPU di pusat data, kami menunjukkan bahwa sistem kami dapat digunakan secara murah dalam setting online, memberikan latency rendah saat melayani pengguna dalam skala besar. Pertanyaan penting dalam pemilihan fitur adalah apakah strategi seleksi memulihkan fitur fitur 8220true8221, dengan data yang cukup. Kami mempelajari pertanyaan ini dalam konteks strategi seleksi fitur Penyesuaian Paling Sedikit Absolut dan Seleksi Terkemuka (Lasso). Secara khusus, kita mempertimbangkan skenario ketika model tersebut salah spesifikasi sehingga model terpelajar bersifat linier sedangkan target sebenarnya yang mendasarinya adalah nonlinier. Anehnya, kami membuktikan bahwa dalam kondisi tertentu, Lasso masih bisa memulihkan fitur yang tepat dalam hal ini. Kami juga melakukan studi numerik untuk memverifikasi secara empiris hasil teoritis dan mengeksplorasi perlunya kondisi di mana bukti tersebut berlaku. Kami mengusulkan minimal regret search (MRS), sebuah fungsi akuisisi baru untuk optimasi Bayesian. MRS memiliki kemiripan dengan pendekatan teoritis informasi seperti pencarian entropi (ES). Namun, sementara ES bertujuan untuk setiap permintaan dalam memaksimalkan keuntungan informasi sehubungan dengan maksimum global, MRS bertujuan untuk meminimalkan penyesalan sederhana yang diharapkan atas rekomendasi utamanya agar optimal. Sementara secara empiris ES dan MRS melakukan hal yang sama pada sebagian besar kasus, MRS menghasilkan lebih sedikit outlier dengan penyesalan sederhana dari ES. Kami memberikan hasil empiris baik untuk masalah pengoptimalan tugas tunggal sintetis maupun untuk masalah kontrol robot multi fungsi yang disimulasikan. CryptoNets: Melaksanakan Jaringan Syaraf Tiruan ke Data Terenkripsi dengan Throughput Tinggi dan Akurasi Ran Gilad-Bachrach Microsoft Research. Nathan Dowlin Princeton. Kim Laine Microsoft Research. Kristin Lauter Microsoft Research. Michael Naehrig Microsoft Research. John Wernsing Microsoft Research Paper AbstractApplying mesin belajar untuk masalah yang melibatkan medis, keuangan, atau jenis data sensitif lainnya, tidak hanya memerlukan prediksi yang akurat namun juga memperhatikan dengan hati-hati menjaga privasi dan keamanan data. Persyaratan hukum dan etika dapat mencegah penggunaan solusi pembelajaran mesin berbasis cloud untuk tugas semacam itu. Dalam karya ini, kami akan menyajikan sebuah metode untuk mengubah jaringan saraf yang dipelajari ke CryptoNets, jaringan syaraf tiruan yang dapat diterapkan pada data terenkripsi. Ini memungkinkan pemilik data mengirim data mereka dalam bentuk terenkripsi ke layanan awan yang menghosting jaringan. Enkripsi memastikan bahwa data tetap rahasia karena awan tidak memiliki akses ke tombol yang diperlukan untuk mendekripsinya. Namun demikian, kami akan menunjukkan bahwa layanan cloud mampu menerapkan jaringan syaraf tiruan ke data terenkripsi untuk membuat prediksi terenkripsi, dan juga mengembalikannya dalam bentuk terenkripsi. Prediksi terenkripsi ini dapat dikirim kembali ke pemilik kunci rahasia yang bisa mendekripsinya. Oleh karena itu, layanan cloud tidak mendapatkan informasi apapun tentang data mentah maupun prediksi yang dibuatnya. Kami menunjukkan CryptoNets pada tugas pengenalan karakter optik MNIST. CryptoNets mencapai 99 akurasi dan bisa menghasilkan sekitar 59000 prediksi per jam pada satu PC. Oleh karena itu, mereka memungkinkan prediksi throughput, akurat, dan pribadi yang tinggi. Metode spektral untuk pengurangan dimensi dan pengelompokan memerlukan pemecahan masalah eigen yang didefinisikan oleh matriks afinitas yang jarang. Bila matriks ini besar, kita mencari solusi perkiraan. Cara standar untuk melakukan ini adalah metode Nystrom, yang pertama-tama memecahkan masalah eigen kecil yang hanya mempertimbangkan subset dari titik tengara, dan kemudian menerapkan formula out-of-sample untuk mengekstrapolasi solusi ke keseluruhan dataset. Kami menunjukkan bahwa dengan membatasi masalah asli untuk memenuhi formula Nystrom, kami memperoleh perkiraan yang sederhana dan efisien secara komputasi, namun menghasilkan kesalahan aproksimasi yang lebih rendah dengan menggunakan lebih sedikit tengara dan kurang runtime. Kami juga mempelajari peran normalisasi dalam biaya komputasi dan kualitas solusi yang dihasilkan. Sebagai aktivasi non linier yang banyak digunakan, Rectified Linear Unit (ReLU) memisahkan noise dan sinyal pada peta fitur dengan mempelajari ambang batas atau bias. Namun, kami berpendapat bahwa klasifikasi kebisingan dan sinyal tidak hanya bergantung pada besarnya tanggapan, namun juga konteks bagaimana tanggapan fitur akan digunakan untuk mendeteksi lebih banyak pola abstrak pada lapisan yang lebih tinggi. Untuk menghasilkan beberapa peta respons dengan besaran dalam rentang yang berbeda untuk pola visual tertentu, jaringan yang ada yang menggunakan ReLU dan variannya harus mempelajari sejumlah besar filter berlebihan. Dalam makalah ini, kami mengusulkan lapisan aktivasi non-linear multi-bias (beta) untuk mengeksplorasi informasi yang tersembunyi dalam besaran tanggapan. Ini ditempatkan setelah lapisan konvolusi untuk memisahkan respons ke kernel konvolusi ke beberapa peta dengan besaran multi-thresholding, sehingga menghasilkan lebih banyak pola di ruang fitur dengan biaya komputasi yang rendah. Ini memberikan fleksibilitas yang besar untuk memilih tanggapan terhadap pola visual yang berbeda dalam rentang magnitudo yang berbeda untuk menghasilkan representasi yang kaya di lapisan yang lebih tinggi. Skema yang sederhana namun efektif ini mencapai kinerja mutakhir pada beberapa tolok ukur. Kami mengusulkan metode pembelajaran multi tugas yang dapat meminimalkan efek transfer negatif dengan membiarkan transfer asimetris antara tugas berdasarkan keterkaitan tugas serta jumlah kerugian tugas individual, yang kami sebut sebagai Asymmetric Multi-Task Learning (AMTL ). Untuk mengatasi masalah ini, kami menggabungkan beberapa tugas melalui grafik regularisasi yang jarang dan diarahkan, yang memaksa setiap parameter tugas untuk direkonstruksi sebagai kombinasi tugas lain yang jarang, yang dipilih berdasarkan kerugian tugas-bijaksana. Kami menyajikan dua algoritma yang berbeda untuk memecahkan pembelajaran gabungan dari prediktor tugas dan grafik regularisasi. Algoritma pertama menyelesaikan tujuan pembelajaran asli dengan menggunakan pengoptimalan alternatif, dan algoritma kedua menyelesaikan perkiraan dengan menggunakan strategi pembelajaran kurikulum, yang mempelajari satu tugas sekaligus. Kami melakukan eksperimen pada beberapa dataset untuk klasifikasi dan regresi, di mana kita mendapatkan peningkatan kinerja yang signifikan selama pembelajaran tugas tunggal dan baseline pembelajaran multitask simetris. Makalah ini mengilustrasikan pendekatan baru terhadap estimasi kesalahan generalisasi pengelompokan pohon keputusan. Kami menetapkan studi tentang kesalahan pohon keputusan dalam konteks teori analisis konsistensi, yang membuktikan bahwa kesalahan Bayes dapat dicapai hanya jika ketika jumlah sampel data dilemparkan ke dalam setiap simpul daun tidak terbatas. Untuk kasus yang lebih menantang dan praktis dimana ukuran sampelnya terbatas atau kecil, istilah kesalahan sampling baru diperkenalkan di makalah ini untuk mengatasi masalah sampel kecil secara efektif dan efisien. Extensive experimental results show that the proposed error estimate is superior to the well known K-fold cross validation methods in terms of robustness and accuracy. Moreover it is orders of magnitudes more efficient than cross validation methods. We study the convergence properties of the VR-PCA algorithm introduced by cite for fast computation of leading singular vectors. We prove several new results, including a formal analysis of a block version of the algorithm, and convergence from random initialization. We also make a few observations of independent interest, such as how pre-initializing with just a single exact power iteration can significantly improve the analysis, and what are the convexity and non-convexity properties of the underlying optimization problem. We consider the problem of principal component analysis (PCA) in a streaming stochastic setting, where our goal is to find a direction of approximate maximal variance, based on a stream of i.i.d. data points in realsd. A simple and computationally cheap algorithm for this is stochastic gradient descent (SGD), which incrementally updates its estimate based on each new data point. However, due to the non-convex nature of the problem, analyzing its performance has been a challenge. In particular, existing guarantees rely on a non-trivial eigengap assumption on the covariance matrix, which is intuitively unnecessary. In this paper, we provide (to the best of our knowledge) the first eigengap-free convergence guarantees for SGD in the context of PCA. This also partially resolves an open problem posed in cite . Moreover, under an eigengap assumption, we show that the same techniques lead to new SGD convergence guarantees with better dependence on the eigengap. Dealbreaker: A Nonlinear Latent Variable Model for Educational Data Andrew Lan Rice University . Tom Goldstein University of Maryland . Richard Baraniuk Rice University . Christoph Studer Cornell University Paper AbstractStatistical models of student responses on assessment questions, such as those in homeworks and exams, enable educators and computer-based personalized learning systems to gain insights into students knowledge using machine learning. Popular student-response models, including the Rasch model and item response theory models, represent the probability of a student answering a question correctly using an affine function of latent factors. While such models can accurately predict student responses, their ability to interpret the underlying knowledge structure (which is certainly nonlinear) is limited. In response, we develop a new, nonlinear latent variable model that we call the dealbreaker model, in which a students success probability is determined by their weakest concept mastery. We develop efficient parameter inference algorithms for this model using novel methods for nonconvex optimization. We show that the dealbreaker model achieves comparable or better prediction performance as compared to affine models with real-world educational datasets. We further demonstrate that the parameters learned by the dealbreaker model are interpretablethey provide key insights into which concepts are critical (i.e. the dealbreaker) to answering a question correctly. We conclude by reporting preliminary results for a movie-rating dataset, which illustrate the broader applicability of the dealbreaker model. We derive a new discrepancy statistic for measuring differences between two probability distributions based on combining Stein8217s identity and the reproducing kernel Hilbert space theory. We apply our result to test how well a probabilistic model fits a set of observations, and derive a new class of powerful goodness-of-fit tests that are widely applicable for complex and high dimensional distributions, even for those with computationally intractable normalization constants. Both theoretical and empirical properties of our methods are studied thoroughly. Variable Elimination in the Fourier Domain Yexiang Xue Cornell University . Stefano Ermon . Ronan Le Bras Cornell University . Carla . Bart Paper AbstractThe ability to represent complex high dimensional probability distributions in a compact form is one of the key insights in the field of graphical models. Factored representations are ubiquitous in machine learning and lead to major computational advantages. We explore a different type of compact representation based on discrete Fourier representations, complementing the classical approach based on conditional independencies. We show that a large class of probabilistic graphical models have a compact Fourier representation. This theoretical result opens up an entirely new way of approximating a probability distribution. We demonstrate the significance of this approach by applying it to the variable elimination algorithm. Compared with the traditional bucket representation and other approximate inference algorithms, we obtain significant improvements. Low-rank matrix approximation has been widely adopted in machine learning applications with sparse data, such as recommender systems. However, the sparsity of the data, incomplete and noisy, introduces challenges to the algorithm stability 8212 small changes in the training data may significantly change the models. As a result, existing low-rank matrix approximation solutions yield low generalization performance, exhibiting high error variance on the training dataset, and minimizing the training error may not guarantee error reduction on the testing dataset. In this paper, we investigate the algorithm stability problem of low-rank matrix approximations. We present a new algorithm design framework, which (1) introduces new optimization objectives to guide stable matrix approximation algorithm design, and (2) solves the optimization problem to obtain stable low-rank approximation solutions with good generalization performance. Experimental results on real-world datasets demonstrate that the proposed work can achieve better prediction accuracy compared with both state-of-the-art low-rank matrix approximation methods and ensemble methods in recommendation task. Given samples from two densities p and q, density ratio estimation (DRE) is the problem of estimating the ratio pq. Two popular discriminative approaches to DRE are KL importance estimation (KLIEP), and least squares importance fitting (LSIF). In this paper, we show that KLIEP and LSIF both employ class-probability estimation (CPE) losses. Motivated by this, we formally relate DRE and CPE, and demonstrate the viability of using existing losses from one problem for the other. For the DRE problem, we show that essentially any CPE loss (eg logistic, exponential) can be used, as this equivalently minimises a Bregman divergence to the true density ratio. We show how different losses focus on accurately modelling different ranges of the density ratio, and use this to design new CPE losses for DRE. For the CPE problem, we argue that the LSIF loss is useful in the regime where one wishes to rank instances with maximal accuracy at the head of the ranking. In the course of our analysis, we establish a Bregman divergence identity that may be of independent interest. We study nonconvex finite-sum problems and analyze stochastic variance reduced gradient (SVRG) methods for them. SVRG and related methods have recently surged into prominence for convex optimization given their edge over stochastic gradient descent (SGD) but their theoretical analysis almost exclusively assumes convexity. In contrast, we prove non-asymptotic rates of convergence (to stationary points) of SVRG for nonconvex optimization, and show that it is provably faster than SGD and gradient descent. We also analyze a subclass of nonconvex problems on which SVRG attains linear convergence to the global optimum. We extend our analysis to mini-batch variants of SVRG, showing (theoretical) linear speedup due to minibatching in parallel settings. Hierarchical Variational Models Rajesh Ranganath . Dustin Tran Columbia University . Blei David Columbia Paper AbstractBlack box variational inference allows researchers to easily prototype and evaluate an array of models. Recent advances allow such algorithms to scale to high dimensions. However, a central question remains: How to specify an expressive variational distribution that maintains efficient computation To address this, we develop hierarchical variational models (HVMs). HVMs augment a variational approximation with a prior on its parameters, which allows it to capture complex structure for both discrete and continuous latent variables. The algorithm we develop is black box, can be used for any HVM, and has the same computational efficiency as the original approximation. We study HVMs on a variety of deep discrete latent variable models. HVMs generalize other expressive variational distributions and maintains higher fidelity to the posterior. The field of mobile health (mHealth) has the potential to yield new insights into health and behavior through the analysis of continuously recorded data from wearable health and activity sensors. In this paper, we present a hierarchical span-based conditional random field model for the key problem of jointly detecting discrete events in such sensor data streams and segmenting these events into high-level activity sessions. Our model includes higher-order cardinality factors and inter-event duration factors to capture domain-specific structure in the label space. We show that our model supports exact MAP inference in quadratic time via dynamic programming, which we leverage to perform learning in the structured support vector machine framework. We apply the model to the problems of smoking and eating detection using four real data sets. Our results show statistically significant improvements in segmentation performance relative to a hierarchical pairwise CRF. Binary embeddings with structured hashed projections Anna Choromanska Courant Institute, NYU . Krzysztof Choromanski Google Research NYC . Mariusz Bojarski NVIDIA . Tony Jebara Columbia . Sanjiv Kumar . Yann Paper AbstractWe consider the hashing mechanism for constructing binary embeddings, that involves pseudo-random projections followed by nonlinear (sign function) mappings. The pseudorandom projection is described by a matrix, where not all entries are independent random variables but instead a fixed budget of randomness is distributed across the matrix. Such matrices can be efficiently stored in sub-quadratic or even linear space, provide reduction in randomness usage (i.e. number of required random values), and very often lead to computational speed ups. We prove several theoretical results showing that projections via various structured matrices followed by nonlinear mappings accurately preserve the angular distance between input high-dimensional vectors. To the best of our knowledge, these results are the first that give theoretical ground for the use of general structured matrices in the nonlinear setting. In particular, they generalize previous extensions of the Johnson- Lindenstrauss lemma and prove the plausibility of the approach that was so far only heuristically confirmed for some special structured matrices. Consequently, we show that many structured matrices can be used as an efficient information compression mechanism. Our findings build a better understanding of certain deep architectures, which contain randomly weighted and untrained layers, and yet achieve high performance on different learning tasks. We empirically verify our theoretical findings and show the dependence of learning via structured hashed projections on the performance of neural network as well as nearest neighbor classifier. A Variational Analysis of Stochastic Gradient Algorithms Stephan Mandt Columbia University . Matthew Hoffman Adobe Research . Blei David Columbia Paper AbstractStochastic Gradient Descent (SGD) is an important algorithm in machine learning. With constant learning rates, it is a stochastic process that, after an initial phase of convergence, generates samples from a stationary distribution. We show that SGD with constant rates can be effectively used as an approximate posterior inference algorithm for probabilistic modeling. Specifically, we show how to adjust the tuning parameters of SGD such as to match the resulting stationary distribution to the posterior. This analysis rests on interpreting SGD as a continuous-time stochastic process and then minimizing the Kullback-Leibler divergence between its stationary distribution and the target posterior. (This is in the spirit of variational inference.) In more detail, we model SGD as a multivariate Ornstein-Uhlenbeck process and then use properties of this process to derive the optimal parameters. This theoretical framework also connects SGD to modern scalable inference algorithms we analyze the recently proposed stochastic gradient Fisher scoring under this perspective. We demonstrate that SGD with properly chosen constant rates gives a new way to optimize hyperparameters in probabilistic models. This paper proposes a new mechanism for sampling training instances for stochastic gradient descent (SGD) methods by exploiting any side-information associated with the instances (for e.g. class-labels) to improve convergence. Previous methods have either relied on sampling from a distribution defined over training instances or from a static distribution that fixed before training. This results in two problems a) any distribution that is set apriori is independent of how the optimization progresses and b) maintaining a distribution over individual instances could be infeasible in large-scale scenarios. In this paper, we exploit the side information associated with the instances to tackle both problems. More specifically, we maintain a distribution over classes (instead of individual instances) that is adaptively estimated during the course of optimization to give the maximum reduction in the variance of the gradient. Intuitively, we sample more from those regions in space that have a textit gradient contribution. Our experiments on highly multiclass datasets show that our proposal converge significantly faster than existing techniques. Tensor regression has shown to be advantageous in learning tasks with multi-directional relatedness. Given massive multiway data, traditional methods are often too slow to operate on or suffer from memory bottleneck. In this paper, we introduce subsampled tensor projected gradient to solve the problem. Our algorithm is impressively simple and efficient. It is built upon projected gradient method with fast tensor power iterations, leveraging randomized sketching for further acceleration. Theoretical analysis shows that our algorithm converges to the correct solution in fixed number of iterations. The memory requirement grows linearly with the size of the problem. We demonstrate superior empirical performance on both multi-linear multi-task learning and spatio-temporal applications. This paper presents a novel distributed variational inference framework that unifies many parallel sparse Gaussian process regression (SGPR) models for scalable hyperparameter learning with big data. To achieve this, our framework exploits a structure of correlated noise process model that represents the observation noises as a finite realization of a high-order Gaussian Markov random process. By varying the Markov order and covariance function for the noise process model, different variational SGPR models result. This consequently allows the correlation structure of the noise process model to be characterized for which a particular variational SGPR model is optimal. We empirically evaluate the predictive performance and scalability of the distributed variational SGPR models unified by our framework on two real-world datasets. Online Stochastic Linear Optimization under One-bit Feedback Lijun Zhang Nanjing University . Tianbao Yang University of Iowa . Rong Jin Alibaba Group . Yichi Xiao Nanjing University . Zhi-hua Zhou Paper AbstractIn this paper, we study a special bandit setting of online stochastic linear optimization, where only one-bit of information is revealed to the learner at each round. This problem has found many applications including online advertisement and online recommendation. We assume the binary feedback is a random variable generated from the logit model, and aim to minimize the regret defined by the unknown linear function. Although the existing method for generalized linear bandit can be applied to our problem, the high computational cost makes it impractical for real-world applications. To address this challenge, we develop an efficient online learning algorithm by exploiting particular structures of the observation model. Specifically, we adopt online Newton step to estimate the unknown parameter and derive a tight confidence region based on the exponential concavity of the logistic loss. Our analysis shows that the proposed algorithm achieves a regret bound of O(dsqrt ), which matches the optimal result of stochastic linear bandits. We present an adaptive online gradient descent algorithm to solve online convex optimization problems with long-term constraints, which are constraints that need to be satisfied when accumulated over a finite number of rounds T, but can be violated in intermediate rounds. For some user-defined trade-off parameter beta in (0, 1), the proposed algorithm achieves cumulative regret bounds of O(Tmax ) and O(T ), respectively for the loss and the constraint violations. Our results hold for convex losses, can handle arbitrary convex constraints and rely on a single computationally efficient algorithm. Our contributions improve over the best known cumulative regret bounds of Mahdavi et al. (2012), which are respectively O(T12) and O(T34) for general convex domains, and respectively O(T23) and O(T23) when the domain is further restricted to be a polyhedral set. We supplement the analysis with experiments validating the performance of our algorithm in practice. Motivated by an application of eliciting users8217 preferences, we investigate the problem of learning hemimetrics, i.e. pairwise distances among a set of n items that satisfy triangle inequalities and non-negativity constraints. In our application, the (asymmetric) distances quantify private costs a user incurs when substituting one item by another. We aim to learn these distances (costs) by asking the users whether they are willing to switch from one item to another for a given incentive offer. Without exploiting structural constraints of the hemimetric polytope, learning the distances between each pair of items requires Theta(n2) queries. We propose an active learning algorithm that substantially reduces this sample complexity by exploiting the structural constraints on the version space of hemimetrics. Our proposed algorithm achieves provably-optimal sample complexity for various instances of the task. For example, when the items are embedded into K tight clusters, the sample complexity of our algorithm reduces to O(n K). Extensive experiments on a restaurant recommendation data set support the conclusions of our theoretical analysis. We present an approach for learning simple algorithms such as copying, multi-digit addition and single digit multiplication directly from examples. Our framework consists of a set of interfaces, accessed by a controller. Typical interfaces are 1-D tapes or 2-D grids that hold the input and output data. For the controller, we explore a range of neural network-based models which vary in their ability to abstract the underlying algorithm from training instances and generalize to test examples with many thousands of digits. The controller is trained using Q-learning with several enhancements and we show that the bottleneck is in the capabilities of the controller rather than in the search incurred by Q-learning. Learning Physical Intuition of Block Towers by Example Adam Lerer Facebook AI Research . Sam Gross Facebook AI Research . Rob Fergus Facebook AI Research Paper AbstractWooden blocks are a common toy for infants, allowing them to develop motor skills and gain intuition about the physical behavior of the world. In this paper, we explore the ability of deep feed-forward models to learn such intuitive physics. Using a 3D game engine, we create small towers of wooden blocks whose stability is randomized and render them collapsing (or remaining upright). This data allows us to train large convolutional network models which can accurately predict the outcome, as well as estimating the trajectories of the blocks. The models are also able to generalize in two important ways: (i) to new physical scenarios, e.g. towers with an additional block and (ii) to images of real wooden blocks, where it obtains a performance comparable to human subjects. Structure Learning of Partitioned Markov Networks Song Liu The Inst. of Stats. Matematika. . Taiji Suzuki . Masashi Sugiyama University of Tokyo . Kenji Fukumizu The Institute of Statistical Mathematics Paper AbstractWe learn the structure of a Markov Network between two groups of random variables from joint observations. Since modelling and learning the full MN structure may be hard, learning the links between two groups directly may be a preferable option. We introduce a novel concept called the emph whose factorization directly associates with the Markovian properties of random variables across two groups. A simple one-shot convex optimization procedure is proposed for learning the emph factorizations of the partitioned ratio and it is theoretically guaranteed to recover the correct inter-group structure under mild conditions. The performance of the proposed method is experimentally compared with the state of the art MN structure learning methods using ROC curves. Real applications on analyzing bipartisanship in US congress and pairwise DNAtime-series alignments are also reported. This work focuses on dynamic regret of online convex optimization that compares the performance of online learning to a clairvoyant who knows the sequence of loss functions in advance and hence selects the minimizer of the loss function at each step. By assuming that the clairvoyant moves slowly (i.e. the minimizers change slowly), we present several improved variation-based upper bounds of the dynamic regret under the true and noisy gradient feedback, which are in light of the presented lower bounds. The key to our analysis is to explore a regularity metric that measures the temporal changes in the clairvoyant8217s minimizers, to which we refer as path variation. Firstly, we present a general lower bound in terms of the path variation, and then show that under full information or gradient feedback we are able to achieve an optimal dynamic regret. Secondly, we present a lower bound with noisy gradient feedback and then show that we can achieve optimal dynamic regrets under a stochastic gradient feedback and two-point bandit feedback. Moreover, for a sequence of smooth loss functions that admit a small variation in the gradients, our dynamic regret under the two-point bandit feedback matches that is achieved with full information. Beyond CCA: Moment Matching for Multi-View Models Anastasia Podosinnikova INRIA 8211 ENS . Francis Bach Inria . Simon Lacoste-Julien INRIA Paper AbstractWe introduce three novel semi-parametric extensions of probabilistic canonical correlation analysis with identifiability guarantees. We consider moment matching techniques for estimation in these models. For that, by drawing explicit links between the new models and a discrete version of independent component analysis (DICA), we first extend the DICA cumulant tensors to the new discrete version of CCA. By further using a close connection with independent component analysis, we introduce generalized covariance matrices, which can replace the cumulant tensors in the moment matching framework, and, therefore, improve sample complexity and simplify derivations and algorithms significantly. As the tensor power method or orthogonal joint diagonalization are not applicable in the new setting, we use non-orthogonal joint diagonalization techniques for matching the cumulants. We demonstrate performance of the proposed models and estimation techniques on experiments with both synthetic and real datasets. We present two computationally inexpensive techniques for estimating the numerical rank of a matrix, combining powerful tools from computational linear algebra. These techniques exploit three key ingredients. The first is to approximate the projector on the non-null invariant subspace of the matrix by using a polynomial filter. Two types of filters are discussed, one based on Hermite interpolation and the other based on Chebyshev expansions. The second ingredient employs stochastic trace estimators to compute the rank of this wanted eigen-projector, which yields the desired rank of the matrix. In order to obtain a good filter, it is necessary to detect a gap between the eigenvalues that correspond to noise and the relevant eigenvalues that correspond to the non-null invariant subspace. The third ingredient of the proposed approaches exploits the idea of spectral density, popular in physics, and the Lanczos spectroscopic method to locate this gap. Unsupervised Deep Embedding for Clustering Analysis Junyuan Xie University of Washington . Ross Girshick Facebook . Ali Farhadi University of Washington Paper AbstractClustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods. Dimensionality reduction is a popular approach for dealing with high dimensional data that leads to substantial computational savings. Random projections are a simple and effective method for universal dimensionality reduction with rigorous theoretical guarantees. In this paper, we theoretically study the problem of differentially private empirical risk minimization in the projected subspace (compressed domain). Empirical risk minimization (ERM) is a fundamental technique in statistical machine learning that forms the basis for various learning algorithms. Starting from the results of Chaudhuri et al. (NIPS 2009, JMLR 2011), there is a long line of work in designing differentially private algorithms for empirical risk minimization problems that operate in the original data space. We ask: is it possible to design differentially private algorithms with small excess risk given access to only projected data In this paper, we answer this question in affirmative, by showing that for the class of generalized linear functions, we can obtain excess risk bounds of O(w(Theta) n ) under eps-differential privacy, and O((w(Theta)n) ) under (eps,delta)-differential privacy, given only the projected data and the projection matrix. Here n is the sample size and w(Theta) is the Gaussian width of the parameter space that we optimize over. Our strategy is based on adding noise for privacy in the projected subspace and then lifting the solution to original space by using high-dimensional estimation techniques. A simple consequence of these results is that, for a large class of ERM problems, in the traditional setting (i.e. with access to the original data), under eps-differential privacy, we improve the worst-case risk bounds of Bassily et al. (FOCS 2014). We consider the maximum likelihood parameter estimation problem for a generalized Thurstone choice model, where choices are from comparison sets of two or more items. We provide tight characterizations of the mean square error, as well as necessary and sufficient conditions for correct classification when each item belongs to one of two classes. These results provide insights into how the estimation accuracy depends on the choice of a generalized Thurstone choice model and the structure of comparison sets. We find that for a priori unbiased structures of comparisons, e.g. when comparison sets are drawn independently and uniformly at random, the number of observations needed to achieve a prescribed estimation accuracy depends on the choice of a generalized Thurstone choice model. For a broad set of generalized Thurstone choice models, which includes all popular instances used in practice, the estimation error is shown to be largely insensitive to the cardinality of comparison sets. On the other hand, we found that there exist generalized Thurstone choice models for which the estimation error decreases much faster with the cardinality of comparison sets. Large-Margin Softmax Loss for Convolutional Neural Networks Weiyang Liu Peking University . Yandong Wen South China University of Technology . Zhiding Yu Carnegie Mellon University . Meng Yang Shenzhen University Paper AbstractCross-entropy loss together with softmax is arguably one of the most common used supervision components in convolutional neural networks (CNNs). Despite its simplicity, popularity and excellent performance, the component does not explicitly encourage discriminative learning of features. In this paper, we propose a generalized large-margin softmax (L-Softmax) loss which explicitly encourages intra-class compactness and inter-class separability between learned features. Moreover, L-Softmax not only can adjust the desired margin but also can avoid overfitting. We also show that the L-Softmax loss can be optimized by typical stochastic gradient descent. Extensive experiments on four benchmark datasets demonstrate that the deeply-learned features with L-softmax loss become more discriminative, hence significantly boosting the performance on a variety of visual classification and verification tasks. A Random Matrix Approach to Echo-State Neural Networks Romain Couillet CentraleSupelec . Gilles Wainrib ENS Ulm, Paris, France . Hafiz Tiomoko Ali CentraleSupelec, Gif-sur-Yvette, France . Harry Sevi ENS Lyon, Lyon, Paris Paper AbstractRecurrent neural networks, especially in their linear version, have provided many qualitative insights on their performance under different configurations. This article provides, through a novel random matrix framework, the quantitative counterpart of these performance results, specifically in the case of echo-state networks. Beyond mere insights, our approach conveys a deeper understanding on the core mechanism under play for both training and testing. One-hot CNN (convolutional neural network) has been shown to be effective for text categorization (Johnson 038 Zhang, 2015). We view it as a special case of a general framework which jointly trains a linear model with a non-linear feature generator consisting of text region embedding pooling8217. Under this framework, we explore a more sophisticated region embedding method using Long Short-Term Memory (LSTM). LSTM can embed text regions of variable (and possibly large) sizes, whereas the region size needs to be fixed in a CNN. We seek effective and efficient use of LSTM for this purpose in the supervised and semi-supervised settings. The best results were obtained by combining region embeddings in the form of LSTM and convolution layers trained on unlabeled data. The results indicate that on this task, embeddings of text regions, which can convey complex concepts, are more useful than embeddings of single words in isolation. We report performances exceeding the previous best results on four benchmark datasets. Crowdsourcing systems are popular for solving large-scale labelling tasks with low-paid (or even non-paid) workers. We study the problem of recovering the true labels from noisy crowdsourced labels under the popular Dawid-Skene model. To address this inference problem, several algorithms have recently been proposed, but the best known guarantee is still significantly larger than the fundamental limit. We close this gap under a simple but canonical scenario where each worker is assigned at most two tasks. In particular, we introduce a tighter lower bound on the fundamental limit and prove that Belief Propagation (BP) exactly matches this lower bound. The guaranteed optimality of BP is the strongest in the sense that it is information-theoretically impossible for any other algorithm to correctly la- bel a larger fraction of the tasks. In the general setting, when more than two tasks are assigned to each worker, we establish the dominance result on BP that it outperforms other existing algorithms with known provable guarantees. Experimental results suggest that BP is close to optimal for all regimes considered, while existing state-of-the-art algorithms exhibit suboptimal performances. Learning control has become an appealing alternative to the derivation of control laws based on classic control theory. However, a major shortcoming of learning control is the lack of performance guarantees which prevents its application in many real-world scenarios. As a step in this direction, we provide a stability analysis tool for controllers acting on dynamics represented by Gaussian processes (GPs). We consider arbitrary Markovian control policies and system dynamics given as (i) the mean of a GP, and (ii) the full GP distribution. For the first case, our tool finds a state space region, where the closed-loop system is provably stable. In the second case, it is well known that infinite horizon stability guarantees cannot exist. Instead, our tool analyzes finite time stability. Empirical evaluations on simulated benchmark problems support our theoretical results. Learning a classifier from private data distributed across multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any partys private data We propose to transfer the knowledge of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by O(epsilon M ). This allows strong privacy without performance loss when the number of participating parties M is large, such as in crowdsensing applications. We demonstrate the performance of our framework with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection. Network Morphism Tao Wei University at Buffalo . Changhu Wang Microsoft Research . Yong Rui Microsoft Research . Chang Wen Chen Paper AbstractWe present a systematic study on how to morph a well-trained neural network to a new one so that its network function can be completely preserved. We define this as network morphism in this research. After morphing a parent network, the child network is expected to inherit the knowledge from its parent network and also has the potential to continue growing into a more powerful one with much shortened training time. The first requirement for this network morphism is its ability to handle diverse morphing types of networks, including changes of depth, width, kernel size, and even subnet. To meet this requirement, we first introduce the network morphism equations, and then develop novel morphing algorithms for all these morphing types for both classic and convolutional neural networks. The second requirement is its ability to deal with non-linearity in a network. We propose a family of parametric-activation functions to facilitate the morphing of any continuous non-linear activation neurons. Experimental results on benchmark datasets and typical neural networks demonstrate the effectiveness of the proposed network morphism scheme. Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural gradient is impractical to compute for large models, and most approximations either require an expensive iterative procedure or make crude approximations to the curvature. We present Kronecker Factors for Convolution (KFC), a tractable approximation to the Fisher matrix for convolutional networks based on a structured probabilistic model for the distribution over backpropagated derivatives. Similarly to the recently proposed Kronecker-Factored Approximate Curvature (K-FAC), each block of the approximate Fisher matrix decomposes as the Kronecker product of small matrices, allowing for efficient inversion. KFC captures important curvature information while still yielding comparably efficient updates to stochastic gradient descent (SGD). We show that the updates are invariant to commonly used reparameterizations, such as centering of the activations. In our experiments, approximate natural gradient descent with KFC was able to train convolutional networks several times faster than carefully tuned SGD. Furthermore, it was able to train the networks in 10-20 times fewer iterations than SGD, suggesting its potential applicability in a distributed setting. Budget constrained optimal design of experiments is a classical problem in statistics. Although the optimal design literature is very mature, few efficient strategies are available when these design problems appear in the context of sparse linear models commonly encountered in high dimensional machine learning and statistics. In this work, we study experimental design for the setting where the underlying regression model is characterized by a ell1-regularized linear function. We propose two novel strategies: the first is motivated geometrically whereas the second is algebraic in nature. We obtain tractable algorithms for this problem and also hold for a more general class of sparse linear models. We perform an extensive set of experiments, on benchmarks and a large multi-site neuroscience study, showing that the proposed models are effective in practice. The latter experiment suggests that these ideas may play a small role in informing enrollment strategies for similar scientific studies in the short-to-medium term future. Minding the Gaps for Block Frank-Wolfe Optimization of Structured SVMs Anton Osokin . Jean-Baptiste Alayrac ENS . Isabella Lukasewitz INRIA . Puneet Dokania INRIA and Ecole Centrale Paris . Simon Lacoste-Julien INRIA Paper AbstractIn this paper, we propose several improvements on the block-coordinate Frank-Wolfe (BCFW) algorithm from Lacoste-Julien et al. (2013) recently used to optimize the structured support vector machine (SSVM) objective in the context of structured prediction, though it has wider applications. The key intuition behind our improvements is that the estimates of block gaps maintained by BCFW reveal the block suboptimality that can be used as an adaptive criterion. First, we sample objects at each iteration of BCFW in an adaptive non-uniform way via gap-based sampling. Second, we incorporate pairwise and away-step variants of Frank-Wolfe into the block-coordinate setting. Third, we cache oracle calls with a cache-hit criterion based on the block gaps. Fourth, we provide the first method to compute an approximate regularization path for SSVM. Finally, we provide an exhaustive empirical evaluation of all our methods on four structured prediction datasets. Exact Exponent in Optimal Rates for Crowdsourcing Chao Gao Yale University . Yu Lu Yale University . Dengyong Zhou Microsoft Research Paper AbstractCrowdsourcing has become a popular tool for labeling large datasets. This paper studies the optimal error rate for aggregating crowdsourced labels provided by a collection of amateur workers. Under the Dawid-Skene probabilistic model, we establish matching upper and lower bounds with an exact exponent mI(pi), where m is the number of workers and I(pi) is the average Chernoff information that characterizes the workers8217 collective ability. Such an exact characterization of the error exponent allows us to state a precise sample size requirement m ge frac logfrac in order to achieve an epsilon misclassification error. In addition, our results imply optimality of various forms of EM algorithms given accurate initializers of the model parameters. Unsupervised learning and supervised learning are key research topics in deep learning. However, as high-capacity supervised neural networks trained with a large amount of labels have achieved remarkable success in many computer vision tasks, the availability of large-scale labeled images reduced the significance of unsupervised learning. Inspired by the recent trend toward revisiting the importance of unsupervised learning, we investigate joint supervised and unsupervised learning in a large-scale setting by augmenting existing neural networks with decoding pathways for reconstruction. First, we demonstrate that the intermediate activations of pretrained large-scale classification networks preserve almost all the information of input images except a portion of local spatial details. Then, by end-to-end training of the entire augmented architecture with the reconstructive objective, we show improvement of the network performance for supervised tasks. We evaluate several variants of autoencoders, including the recently proposed 8220what-where8221 autoencoder that uses the encoder pooling switches, to study the importance of the architecture design. Taking the 16-layer VGGNet trained under the ImageNet ILSVRC 2012 protocol as a strong baseline for image classification, our methods improve the validation-set accuracy by a noticeable margin. (LRR) has been a significant method for segmenting data that are generated from a union of subspaces. It is also known that solving LRR is challenging in terms of time complexity and memory footprint, in that the size of the nuclear norm regularized matrix is n-by-n (where n is the number of samples). In this paper, we thereby develop a novel online implementation of LRR that reduces the memory cost from O(n2) to O(pd), with p being the ambient dimension and d being some estimated rank (d 20 reduction in the model size without any loss in accuracy on CIFAR-10 benchmark. We also demonstrate that fine-tuning can further enhance the accuracy of fixed point DCNs beyond that of the original floating point model. In doing so, we report a new state-of-the-art fixed point performance of 6.78 error-rate on CIFAR-10 benchmark. Provable Algorithms for Inference in Topic Models Sanjeev Arora Princeton University . Rong Ge . Frederic Koehler Princeton University . Tengyu Ma Princeton University . Ankur Moitra Paper AbstractRecently, there has been considerable progress on designing algorithms with provable guarantees 8212typically using linear algebraic methods8212for parameter learning in latent variable models. Designing provable algorithms for inference has proved more difficult. Here we tak e a first step towards provable inference in topic models. We leverage a property of topic models that enables us to construct simple linear estimators for the unknown topic proportions that have small variance, and consequently can work with short documents. Our estimators also correspond to finding an estimate around which the posterior is well-concentrated. We show lower bounds that for shorter documents it can be information theoretically impossible to find the hidden topics. Finally, we give empirical results that demonstrate that our algorithm works on realistic topic models. It yields good solutions on synthetic data and runs in time comparable to a single iteration of Gibbs sampling. This paper develops an approach for efficiently solving general convex optimization problems specified as disciplined convex programs (DCP), a common general-purpose modeling framework. Specifically we develop an algorithm based upon fast epigraph projections, projections onto the epigraph of a convex function, an approach closely linked to proximal operator methods. We show that by using these operators, we can solve any disciplined convex program without transforming the problem to a standard cone form, as is done by current DCP libraries. We then develop a large library of efficient epigraph projection operators, mirroring and extending work on fast proximal algorithms, for many common convex functions. Finally, we evaluate the performance of the algorithm, and show it often achieves order of magnitude speedups over existing general-purpose optimization solvers. We study the fixed design segmented regression problem: Given noisy samples from a piecewise linear function f, we want to recover f up to a desired accuracy in mean-squared error. Previous rigorous approaches for this problem rely on dynamic programming (DP) and, while sample efficient, have running time quadratic in the sample size. As our main contribution, we provide new sample near-linear time algorithms for the problem that 8211 while not being minimax optimal 8211 achieve a significantly better sample-time tradeoff on large datasets compared to the DP approach. Our experimental evaluation shows that, compared with the DP approach, our algorithms provide a convergence rate that is only off by a factor of 2 to 4, while achieving speedups of three orders of magnitude. Energetic Natural Gradient Descent Philip Thomas CMU . Bruno Castro da Silva . Christoph Dann Carnegie Mellon University . Emma Paper AbstractWe propose a new class of algorithms for minimizing or maximizing functions of parametric probabilistic models. These new algorithms are natural gradient algorithms that leverage more information than prior methods by using a new metric tensor in place of the commonly used Fisher information matrix. This new metric tensor is derived by computing directions of steepest ascent where the distance between distributions is measured using an approximation of energy distance (as opposed to Kullback-Leibler divergence, which produces the Fisher information matrix), and so we refer to our new ascent direction as the energetic natural gradient. Partition Functions from Rao-Blackwellized Tempered Sampling David Carlson Columbia University . Patrick Stinson Columbia University . Ari Pakman Columbia University . Liam Paper AbstractPartition functions of probability distributions are important quantities for model evaluation and comparisons. We present a new method to compute partition functions of complex and multimodal distributions. Such distributions are often sampled using simulated tempering, which augments the target space with an auxiliary inverse temperature variable. Our method exploits the multinomial probability law of the inverse temperatures, and provides estimates of the partition function in terms of a simple quotient of Rao-Blackwellized marginal inverse temperature probability estimates, which are updated while sampling. We show that the method has interesting connections with several alternative popular methods, and offers some significant advantages. In particular, we empirically find that the new method provides more accurate estimates than Annealed Importance Sampling when calculating partition functions of large Restricted Boltzmann Machines (RBM) moreover, the method is sufficiently accurate to track training and validation log-likelihoods during learning of RBMs, at minimal computational cost. In this paper we address the identifiability and efficient learning problems of finite mixtures of Plackett-Luce models for rank data. We prove that for any kgeq 2, the mixture of k Plackett-Luce models for no more than 2k-1 alternatives is non-identifiable and this bound is tight for k2. For generic identifiability, we prove that the mixture of k Plackett-Luce models over m alternatives is if kleqlfloorfrac 2rfloor. We also propose an efficient generalized method of moments (GMM) algorithm to learn the mixture of two Plackett-Luce models and show that the algorithm is consistent. Our experiments show that our GMM algorithm is significantly faster than the EMM algorithm by Gormley 038 Murphy (2008), while achieving competitive statistical efficiency. The combinatorial explosion that plagues planning and reinforcement learning (RL) algorithms can be moderated using state abstraction. Prohibitively large task representations can be condensed such that essential information is preserved, and consequently, solutions are tractably computable. However, exact abstractions, which treat only fully-identical situations as equivalent, fail to present opportunities for abstraction in environments where no two situations are exactly alike. In this work, we investigate approximate state abstractions, which treat nearly-identical situations as equivalent. We present theoretical guarantees of the quality of behaviors derived from four types of approximate abstractions. Additionally, we empirically demonstrate that approximate abstractions lead to reduction in task complexity and bounded loss of optimality of behavior in a variety of environments. Power of Ordered Hypothesis Testing Lihua Lei Lihua . William Fithian UC Berkeley, Department of Statistics Paper AbstractOrdered testing procedures are multiple testing procedures that exploit a pre-specified ordering of the null hypotheses, from most to least promising. We analyze and compare the power of several recent proposals using the asymptotic framework of Li 038 Barber (2015). While accumulation tests including ForwardStop can be quite powerful when the ordering is very informative, they are asymptotically powerless when the ordering is weaker. By contrast, Selective SeqStep, proposed by Barber 038 Candes (2015), is much less sensitive to the quality of the ordering. We compare the power of these procedures in different regimes, concluding that Selective SeqStep dominates accumulation tests if either the ordering is weak or non-null hypotheses are sparse or weak. Motivated by our asymptotic analysis, we derive an improved version of Selective SeqStep which we call Adaptive SeqStep, analogous to Storeys improvement on the Benjamini-Hochberg proce- dure. We compare these methods using the GEO-Query data set analyzed by (Li 038 Barber, 2015) and find Adaptive SeqStep has favorable performance for both good and bad prior orderings. PHOG: Probabilistic Model for Code Pavol Bielik ETH Zurich . Veselin Raychev ETH Zurich . Martin Vechev ETH Zurich Paper AbstractWe introduce a new generative model for code called probabilistic higher order grammar (PHOG). PHOG generalizes probabilistic context free grammars (PCFGs) by allowing conditioning of a production rule beyond the parent non-terminal, thus capturing rich contexts relevant to programs. Even though PHOG is more powerful than a PCFG, it can be learned from data just as efficiently. We trained a PHOG model on a large JavaScript code corpus and show that it is more precise than existing models, while similarly fast. As a result, PHOG can immediately benefit existing programming tools based on probabilistic models of code. We consider the problem of online prediction in changing environments. In this framework the performance of a predictor is evaluated as the loss relative to an arbitrarily changing predictor, whose individual components come from a base class of predictors. Typical results in the literature consider different base classes (experts, linear predictors on the simplex, etc.) separately. Introducing an arbitrary mapping inside the mirror decent algorithm, we provide a framework that unifies and extends existing results. As an example, we prove new shifting regret bounds for matrix prediction problems. Hyperparameter selection generally relies on running multiple full training trials, with selection based on validation set performance. We propose a gradient-based approach for locally adjusting hyperparameters during training of the model. Hyperparameters are adjusted so as to make the model parameter gradients, and hence updates, more advantageous for the validation cost. We explore the approach for tuning regularization hyperparameters and find that in experiments on MNIST, SVHN and CIFAR-10, the resulting regularization levels are within the optimal regions. The additional computational cost depends on how frequently the hyperparameters are trained, but the tested scheme adds only 30 computational overhead regardless of the model size. Since the method is significantly less computationally demanding compared to similar gradient-based approaches to hyperparameter optimization, and consistently finds good hyperparameter values, it can be a useful tool for training neural network models. Many of the recent Trajectory Optimization algorithms alternate between local approximation of the dynamics and conservative policy update. However, linearly approximating the dynamics in order to derive the new policy can bias the update and prevent convergence to the optimal policy. In this article, we propose a new model-free algorithm that backpropagates a local quadratic time-dependent Q-Function, allowing the derivation of the policy update in closed form. Our policy update ensures exact KL-constraint satisfaction without simplifying assumptions on the system dynamics demonstrating improved performance in comparison to related Trajectory Optimization algorithms linearizing the dynamics. Due to its numerous applications, rank aggregation has become a problem of major interest across many fields of the computer science literature. In the vast majority of situations, Kemeny consensus(es) are considered as the ideal solutions. It is however well known that their computation is NP-hard. Many contributions have thus established various results to apprehend this complexity. In this paper we introduce a practical method to predict, for a ranking and a dataset, how close the Kemeny consensus(es) are to this ranking. A major strength of this method is its generality: it does not require any assumption on the dataset nor the ranking. Furthermore, it relies on a new geometric interpretation of Kemeny aggregation that, we believe, could lead to many other results. Horizontally Scalable Submodular Maximization Mario Lucic ETH Zurich . Olivier Bachem ETH Zurich . Morteza Zadimoghaddam Google Research . Andreas Krause Paper AbstractA variety of large-scale machine learning problems can be cast as instances of constrained submodular maximization. Existing approaches for distributed submodular maximization have a critical drawback: The capacity 8211 number of instances that can fit in memory 8211 must grow with the data set size. In practice, while one can provision many machines, the capacity of each machine is limited by physical constraints. We propose a truly scalable approach for distributed submodular maximization under fixed capacity. The proposed framework applies to a broad class of algorithms and constraints and provides theoretical guarantees on the approximation factor for any available capacity. We empirically evaluate the proposed algorithm on a variety of data sets and demonstrate that it achieves performance competitive with the centralized greedy solution. Group Equivariant Convolutional Networks Taco Cohen University of Amsterdam . Max Welling University of Amsterdam CIFAR Paper AbstractWe introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CIFAR10 and rotated MNIST. The partition function is fundamental for probabilistic graphical models8212it is required for inference, parameter estimation, and model selection. Evaluating this function corresponds to discrete integration, namely a weighted sum over an exponentially large set. This task quickly becomes intractable as the dimensionality of the problem increases. We propose an approximation scheme that, for any discrete graphical model whose parameter vector has bounded norm, estimates the partition function with arbitrarily small error. Our algorithm relies on a near minimax optimal polynomial approximation to the potential function and a Clenshaw-Curtis style quadrature. Furthermore, we show that this algorithm can be randomized to split the computation into a high-complexity part and a low-complexity part, where the latter may be carried out on small computational devices. Experiments confirm that the new randomized algorithm is highly accurate if the parameter norm is small, and is otherwise comparable to methods with unbounded error. Correcting Forecasts with Multifactor Neural Attention Matthew Riemer IBM . Aditya Vempaty IBM . Flavio Calmon IBM . Fenno Heath IBM . Richard Hull IBM . Elham Khabiri IBM Paper AbstractAutomatic forecasting of time series data is a challenging problem in many industries. Current forecast models adopted by businesses do not provide adequate means for including data representing external factors that may have a significant impact on the time series, such as weather, national events, local events, social media trends, promotions, etc. This paper introduces a novel neural network attention mechanism that naturally incorporates data from multiple external sources without the feature engineering needed to get other techniques to work. We demonstrate empirically that the proposed model achieves superior performance for predicting the demand of 20 commodities across 107 stores of one of America8217s largest retailers when compared to other baseline models, including neural networks, linear models, certain kernel methods, Bayesian regression, and decision trees. Our method ultimately accounts for a 23.9 relative improvement as a result of the incorporation of external data sources, and provides an unprecedented level of descriptive ability for a neural network forecasting model. Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, 8220Would this patient have lower blood sugar had she received a different medication8221. We propose a new algorithmic framework for counterfactual inference which brings together ideas from domain adaptation and representation learning. In addition to a theoretical justification, we perform an empirical comparison with previous approaches to causal inference from observational data. Our deep learning algorithm significantly outperforms the previous state-of-the-art. Gaussian Processes (GPs) provide a general and analytically tractable way of modeling complex time-varying, nonparametric functions. The Automatic Bayesian Covariance Discovery (ABCD) system constructs natural-language description of time-series data by treating unknown time-series data nonparametrically using GP with a composite covariance kernel function. Unfortunately, learning a composite covariance kernel with a single time-series data set often results in less informative kernel that may not give qualitative, distinctive descriptions of data. We address this challenge by proposing two relational kernel learning methods which can model multiple time-series data sets by finding common, shared causes of changes. We show that the relational kernel learning methods find more accurate models for regression problems on several real-world data sets US stock data, US house price index data and currency exchange rate data. We introduce a new approach for amortizing inference in directed graphical models by learning heuristic approximations to stochastic inverses, designed specifically for use as proposal distributions in sequential Monte Carlo methods. We describe a procedure for constructing and learning a structured neural network which represents an inverse factorization of the graphical model, resulting in a conditional density estimator that takes as input particular values of the observed random variables, and returns an approximation to the distribution of the latent variables. This recognition model can be learned offline, independent from any particular dataset, prior to performing inference. The output of these networks can be used as automatically-learned high-quality proposal distributions to accelerate sequential Monte Carlo across a diverse range of problem settings. Slice Sampling on Hamiltonian Trajectories Benjamin Bloem-Reddy Columbia University . John Cunningham Columbia University Paper AbstractHamiltonian Monte Carlo and slice sampling are amongst the most widely used and studied classes of Markov Chain Monte Carlo samplers. We connect these two methods and present Hamiltonian slice sampling, which allows slice sampling to be carried out along Hamiltonian trajectories, or transformations thereof. Hamiltonian slice sampling clarifies a class of model priors that induce closed-form slice samplers. More pragmatically, inheriting properties of slice samplers, it offers advantages over Hamiltonian Monte Carlo, in that it has fewer tunable hyperparameters and does not require gradient information. We demonstrate the utility of Hamiltonian slice sampling out of the box on problems ranging from Gaussian process regression to Pitman-Yor based mixture models. Noisy Activation Functions Caglar Glehre . Marcin Moczulski . Misha Denil . Yoshua Bengio U. of Montreal Paper AbstractCommon nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradients. Large noise will dominate the noise-free gradient and allow stochastic gradient descent to explore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps optimization in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e.g. when curriculum learning is necessary to obtain good results. PD-Sparse. A Primal and Dual Sparse Approach to Extreme Multiclass and Multilabel Classification Ian En-Hsu Yen University of Texas at Austin . Xiangru Huang UTaustin . Pradeep Ravikumar UT Austin . Kai Zhong ICES department, University of Texas at Austin . Inderjit Paper AbstractWe consider Multiclass and Multilabel classification with extremely large number of classes, of which only few are labeled to each instance. In such setting, standard methods that have training, prediction cost linear to the number of classes become intractable. State-of-the-art methods thus aim to reduce the complexity by exploiting correlation between labels under assumption that the similarity between labels can be captured by structures such as low-rank matrix or balanced tree. However, as the diversity of labels increases in the feature space, structural assumption can be easily violated, which leads to degrade in the testing performance. In this work, we show that a margin-maximizing loss with l1 penalty, in case of Extreme Classification, yields extremely sparse solution both in primal and in dual without sacrificing the expressive power of predictor. We thus propose a Fully-Corrective Block-Coordinate Frank-Wolfe (FC-BCFW) algorithm that exploits both primal and dual sparsity to achieve a complexity sublinear to the number of primal and dual variables. A bi-stochastic search method is proposed to further improve the efficiency. In our experiments on both Multiclass and Multilabel problems, the proposed method achieves significant higher accuracy than existing approaches of Extreme Classification with very competitive training and prediction time.
Broker forex-regulated-Singapura
Pindah-rata-rata-tablo