Bergerak-rata-rata-regresi linier

Bergerak-rata-rata-regresi linier

Phoenix-trading-systems
Indikator perdagangan tas
Stock-options-give-managers-the-right-to


Options-trading-video-tutorial Terendah-opsi-trading-fee Bagaimana-untuk-melakukan-akuntansi-entri-untuk-saham-pilihan Td-ameritrade-cost-to-trade-options Trading-strategy-using-qqe-multicharts Cara-untuk-belajar-forex-trading-in-india

Regresi Linier Halaman ini adalah tentang Linear Regression Channel. Jika Anda tertarik dengan Kurva Regresi Linier atau Regresi Linier Silakan pilih link di bawah ini: Linear Regression Channel Serupa dengan Moving Average 200 hari, institusi besar sering melihat Saluran Regresi Linier Jangka Panjang. Alur Regresi Linier terdiri dari tiga bagian: Garis Regresi Linier. Baris yang paling sesuai dengan semua titik data yang diminati. Untuk informasi lebih lanjut, lihat: Linear Regression Line. Saluran Saluran Atas Garis yang membentang sejajar dengan Garis Regresi Linier dan biasanya satu sampai dua standar deviasi di atas Garis Regresi Linier. Saluran Saluran Bawah. Garis ini sejajar dengan Linear Regression Line dan biasanya satu sampai dua standar deviasi di bawah Linear Regression Line. Grafik multi-tahun dari dana pertukaran Exchange Samper 500 (SPY) menunjukkan harga dalam tren kenaikan yang stabil dan mempertahankan satu standar deviasi yang ketat Linear Regression Channel: Garis saluran atas dan bawah mengandung antara keduanya 68 dari semua harga (jika 1 Standar deviasi digunakan) atau 95 dari semua harga (jika 2 standar deviasi digunakan). Bila harga turun di luar saluran, peluang membeli atau menjual ada. Atau tren sebelumnya bisa berakhir. Regresi Linier Kemungkinan Sinyal Beli Bila harga turun di bawah garis saluran bawah, dan trader mengharapkan kelanjutan dari tren tersebut, maka trader mungkin menganggapnya sebagai sinyal beli. Sinyal Regresi Linier Kemungkinan Sinyal Jual Suatu peluang untuk penjualan mungkin terjadi bila harga menembus di atas garis atas, namun kelanjutan dari tren ini diharapkan oleh trader. Tanda konfirmasi lainnya seperti harga yang ditutup kembali di dalam jalur regresi linier dapat digunakan untuk memulai permintaan beli atau jual potensial. Selain itu, indikator teknis lainnya mungkin digunakan untuk konfirmasi. Trend Reversals Ketika harga ditutup di luar Linier Regresi Linier untuk jangka waktu yang lama, ini sering ditafsirkan sebagai sinyal awal bahwa tren harga sebelumnya mungkin akan pecah dan pembalikan yang signifikan mungkin akan mendekati. Saluran Regresi Linier cukup berguna untuk alat analisis teknis. Selain mengidentifikasi tren dan arah tren, penggunaan standar deviasi memberi ide kepada pedagang saat harga mulai overbought atau oversold relatif terhadap tren jangka panjang. Informasi di atas hanya untuk tujuan informasi dan hiburan saja dan bukan merupakan saran perdagangan atau ajakan untuk membeli atau menjual produk saham, opsi, masa depan, komoditas, atau valas. Kinerja masa lalu belum tentu merupakan indikasi kinerja masa depan. Perdagangan secara inheren berisiko. OnlineTradingConcepts tidak bertanggung jawab atas kerusakan khusus atau konsekuensial yang diakibatkan oleh penggunaan atau ketidakmampuan untuk menggunakan, materi dan informasi yang diberikan oleh situs ini. Lihat penafian lengkap. Menambahkan Trendline Regresi Linier ke Plot Scatter Excel Meskipun Excel mampu menghitung sejumlah statistik deskriptif dan inferensial untuk Anda, seringkali lebih baik untuk menunjukkan representasi visual data saat menyajikan informasi ke grup. Menggunakan Excels yang dibuat dengan fungsi trendline, Anda bisa menambahkan trendline regresi linier ke plot scatter Excel manapun. Memasukkan Scatter Diagram ke Excel Misalkan Anda memiliki dua kolom data di Excel dan Anda ingin memasukkan scatter plot untuk memeriksa hubungan antara kedua variabel. Mulailah dengan memilih data di dua kolom. Kemudian, klik pada tab Insert pada Ribbon dan cari bagian Charts. Klik pada tombol berlabel Scatter lalu pilih tombol dari menu bertuliskan Scatter with Only Marker. Anda sekarang harus memiliki plot yang tersebar dengan data Anda terwakili dalam tabel. Tambahkan Trendline ke Excel Sekarang Anda memiliki plot yang tersebar di lembar kerja Excel Anda, Anda sekarang dapat menambahkan trendline Anda. Mulailah dengan mengklik sekali pada titik data apa pun di plot scatter Anda. Ini bisa jadi rumit karena ada banyak elemen grafik yang bisa anda klik dan edit. Anda akan tahu bahwa Anda telah memilih titik data saat semua titik data dipilih. Setelah Anda memilih titik data, klik kanan pada satu titik data dan pilih Add a Trendline dari menu. Anda sekarang harus melihat pada jendela Format Trendline. Jendela ini berisi banyak pilihan untuk menambahkan trendline ke dalam plot scatter Excel. Perhatikan bahwa Anda bisa menambahkan sebuah eksponensial. Linier Logaritma . Polinomial Kekuasaan . Atau Moving Average trendregression jenis baris. Untuk saat ini, tinggalkan opsi Linear default yang dipilih. Klik tombol Close dan grafik Anda sekarang harus menampilkan garis tren regresi linier. Seperti semua hal Microsoft Office, Anda bisa memformat trendline Anda agar terlihat persis seperti yang Anda inginkan. Pada bagian selanjutnya, kita akan membahas beberapa perubahan yang lebih populer yang dapat Anda lakukan pada trendline Anda agar menonjol. Memformat Trendline Excel Untuk memformat trendline yang baru Anda buat, mulailah dengan mengklik kanan pada baris dan memilih Format Trendline dari menu. Excel sekali lagi akan membuka jendela Format Trendline. Salah satu pilihan yang paling populer digunakan orang saat menambahkan trendline ke Excel adalah dengan menampilkan persamaan garis dan nilai R-squared tepat pada grafik. Anda dapat menemukan dan memilih opsi ini di bagian bawah jendela. Untuk saat ini, pilih kedua opsi ini. Mari kita katakan bahwa kita ingin trendline kita ditampilkan lebih menonjol pada grafik. Bagaimanapun, garis tren default hanya satu piksel dan terkadang bisa hilang di antara warna dan elemen lainnya pada grafik. Di sisi kiri jendela Format Trendline, klik pada opsi Line Style. Di jendela ini, ubah nilai Lebar dari 0,75 pt menjadi sekitar 3 pt dan ganti Tipe Dash ke opsi Dot Square (yang ketiga di menu drop down). Hanya untuk menunjukkan bahwa pilihan itu ada, ubah opsi End Type menjadi tanda panah. Setelah selesai, klik tombol Tutup pada jendela Format Trendline dan perhatikan perubahan pada plot scatter Anda. Perhatikan bahwa persamaan garis dan nilai R-square sekarang ditampilkan pada grafik dan bahwa trendline adalah elemen yang lebih menonjol dari grafik. Seperti banyak fungsi di Excel, ada banyak opsi tanpa batas yang Anda miliki untuk Anda saat menampilkan garis tren pada plot yang tersebar. Anda bisa mengubah warna dan ketebalan garis dan Anda bahkan bisa menambahkan elemen 3D ke dalamnya seperti efek bayangan. Apa yang Anda pilih bergantung pada seberapa mencolok trendline Anda untuk menonjol di plot Anda. Bermain-main dengan pilihan dan Anda dapat dengan mudah membuat trendline tampak profesional di Excel. Analisis regresi linier adalah teknik statistik yang paling banyak digunakan: ini adalah studi linier. Hubungan aditif antara variabel. Misalkan Y menunjukkan variabel 8220dependent8221 yang nilainya ingin Anda prediksi, dan biarkan X 1. 8230, X k menunjukkan variabel 8220independent8221 dari mana Anda ingin memprediksinya, dengan nilai variabel X i pada periode t (atau pada baris t dari kumpulan data) yang dilambangkan dengan X itu. Maka persamaan untuk menghitung nilai prediksi Y t adalah: Rumus ini memiliki properti bahwa prediksi untuk Y adalah fungsi garis lurus dari masing-masing variabel X, yang memegang yang lain tetap, dan kontribusi dari variabel X yang berbeda dengan Prediksi adalah aditif Lereng hubungan garis lurus individu mereka dengan Y adalah konstanta b 1. B 2, 8230, b k. Koefisien yang disebut variabel. Artinya, b i adalah perubahan nilai prediksi Y per unit perubahan pada X i. Hal lainnya sama. Konstanta tambahan b 0. Yang disebut mencegat Adalah prediksi bahwa model akan membuat jika semua X 8217s adalah nol (jika itu mungkin). Koefisien dan intercept diperkirakan sebagian kecil. Yaitu menyetelnya sama dengan nilai unik yang meminimalkan jumlah kesalahan kuadrat dalam sampel data tempat model dipasang. Dan kesalahan prediksi model biasanya diasumsikan independen dan identik terdistribusi secara normal. Hal pertama yang harus Anda ketahui tentang regresi linier adalah bagaimana istilah aneh regresi mulai diterapkan pada model seperti ini. Mereka pertama kali belajar secara mendalam oleh ilmuwan abad ke-19, Sir Francis Galton. Galton adalah seorang naturalis, antropolog, ahli astronomi, dan ahli statistik yang otodidak, dan karakter Indiana Jones yang nyata. Dia terkenal dengan penjelajahannya, dan dia menulis buku terlaris tentang bagaimana bertahan di padang gurun yang berjudul quotThe Art of Travel: Shifts and Contrivances Available in Wild Places, quot and the sequel, quotThe Art of Rough Travel: From the Practical Ke Peculiar.quot Mereka masih dicetak dan masih dianggap sebagai sumber yang berguna. Mereka memberi banyak petunjuk praktis untuk tetap hidup - seperti bagaimana mengobati luka di mata atau mengekstrak kuda dari pasir hisap - dan mengenalkan konsep kantong tidur ke Dunia Barat. Klik pada gambar-gambar ini untuk lebih jelasnya: Galton adalah pelopor dalam penerapan metode statistik untuk pengukuran di banyak cabang ilmu pengetahuan, dan dalam mempelajari data tentang ukuran relatif orang tua dan keturunan mereka di berbagai jenis tumbuhan dan hewan, dia mengamati hal berikut Fenomena: orang tua yang lebih besar dari rata-rata cenderung menghasilkan anak yang lebih besar dari rata-rata, tapi anak cenderung kurang besar daripada orang tua dalam hal posisi relatifnya di dalam generasinya sendiri. Jadi, misalnya, jika ukuran orang tua adalah x penyimpangan standar dari mean di dalam generasinya sendiri, maka Anda harus memprediksi bahwa ukuran anak akan rx (r times x) penyimpangan standar dari mean dalam rangkaian anak-anak dari orang tua tersebut. , Dimana r adalah angka yang kurang dari 1 besarnya. (R adalah apa yang akan didefinisikan di bawah ini sebagai korelasi antara ukuran induk dan ukuran anak.) Hal yang sama berlaku untuk hampir semua pengukuran fisik (dan dalam kasus manusia, sebagian besar pengukuran kemampuan kognitif dan fisik) Yang bisa dilakukan pada orang tua dan keturunannya. Berikut adalah gambaran pertama dari garis regresi yang menggambarkan efek ini, dari ceramah yang disampaikan oleh Galton pada tahun 1877: Simbol R pada bagan ini (yang nilainya 0,33) menunjukkan koefisien kemiringan, bukan korelasi, meskipun keduanya sama. Jika kedua populasi memiliki standar deviasi yang sama, seperti yang akan ditunjukkan di bawah ini. Galton menyebut fenomena ini sebagai regresi terhadap biasa-biasa saja. Yang dalam istilah modern adalah regresi dengan mean. Bagi seorang pengamat naiumlve, ini mungkin menunjukkan bahwa generasi selanjutnya akan menunjukkan variabilitas yang kurang - secara harfiah lebih biasa-biasa saja - daripada yang sebelumnya, tapi itu bukan kasusnya. Ini adalah fenomena statistik murni. Kecuali setiap anak memiliki ukuran yang sama persis dengan orang tua secara relatif (kecuali jika korelasinya sama persis dengan 1), prediksi harus menunjukkan kemunduran pada mean tanpa memandang biologi jika kesalahan kuadrat rata-rata harus diminimalkan. (Kembali ke atas halaman.) Regresi terhadap mean adalah fakta kehidupan yang tak terhindarkan. Anak-anak Anda bisa diharapkan kurang luar biasa (lebih baik atau lebih buruk) daripada Anda. Skor Anda pada ujian akhir dalam kursus dapat diharapkan kurang baik (atau buruk) daripada skor Anda pada ujian tengah semester, relatif terhadap kelas lainnya. Rata-rata pemain bisbol yang bertaruh pada paruh kedua musim ini diperkirakan bisa mendekati mean (untuk semua pemain) daripada rata-rata pukulannya di paruh pertama musim ini. Dan seterusnya. Kata kunci di sini adalah quotexpected.quot Ini tidak berarti pasti bahwa regresi terhadap mean akan terjadi, tapi itulah cara untuk bertaruh Kami telah melihat saran regresi-to-the-mean pada beberapa model peramalan waktu Kami telah mempelajari: plot prakiraan cenderung lebih halus - Mereka menunjukkan variabilitas kurang - dari plot data asli. Ini tidak berlaku untuk model jalan acak, namun pada umumnya berlaku untuk model rata-rata bergerak dan model lain yang mendasarkan perkiraan mereka pada lebih dari satu pengamatan sebelumnya. Penjelasan intuitif untuk efek regresi sederhana: hal yang kita coba prediksi biasanya terdiri dari komponen yang dapat diprediksi (quotsignalquot) dan komponen tak terduga yang tidak dapat diprediksi secara statistik (quotnoisequot). Yang terbaik yang bisa kita harapkan adalah memprediksi (hanya) bagian dari variabilitas yang disebabkan oleh sinyal. Oleh karena itu prakiraan kita akan cenderung menunjukkan variabilitas yang kurang dari nilai sebenarnya, yang berarti regresi terhadap mean. Cara lain untuk memikirkan efek regresi adalah dalam hal bias seleksi. Secara umum, penampilan pemain dalam beberapa periode waktu tertentu dapat dikaitkan dengan kombinasi keterampilan dan keberuntungan. Misalkan kita memilih sampel atlet profesional yang kinerjanya jauh lebih baik daripada rata-rata (atau siswa yang nilainya jauh lebih baik daripada rata-rata) pada paruh pertama tahun ini. Fakta bahwa mereka melakukannya dengan baik di paruh pertama tahun ini membuat kemungkinan bahwa kedua keterampilan dan keberuntungan mereka lebih baik daripada rata-rata selama periode tersebut. Pada paruh kedua tahun ini kita bisa mengharapkan mereka untuk menjadi sama-sama terampil, tapi kita seharusnya tidak mengharapkan mereka untuk sama-sama beruntung. Jadi kita harus meramalkan bahwa di babak kedua kinerjanya akan mendekati mean. Sementara itu, pemain yang kinerjanya hanya rata-rata di babak pertama mungkin memiliki keterampilan dan keberuntungan bekerja berlawanan arah dengan mereka. Oleh karena itu, kita harus mengharapkan kinerjanya di babak kedua untuk menjauh dari mean dalam satu arah atau yang lain, saat kita mendapatkan tes independen untuk keterampilan mereka. Kami tidak tahu ke arah mana mereka akan bergerak, meski begitu, bagi kami, kami harus memperkirakan bahwa kinerja paruh kedua mereka akan mendekati mean daripada kinerja babak pertama mereka. Namun, kinerja sebenarnya dari para pemain harus diharapkan memiliki varians sama besar di paruh kedua tahun ini seperti di babak pertama, karena ini hanya hasil dari redistribusi keberuntungan acak secara independen di antara pemain dengan distribusi keterampilan yang sama dengan sebelum. Sebuah diskusi bagus tentang regresi dengan mean dalam konteks penelitian ilmu sosial yang lebih luas dapat ditemukan di sini. (Kembali ke atas halaman.) Pembenaran untuk asumsi regresi Mengapa kita harus mengasumsikan bahwa hubungan antar variabel bersifat linier. Karena hubungan linier adalah hubungan non-sepele yang paling sederhana yang dapat dibayangkan (karenanya paling mudah untuk bekerja dengan), dan. Karena hubungan quottruequot antara variabel kita seringkali paling tidak kira-kira mendekati rentang nilai yang menarik bagi kita, dan. Bahkan jika mereka tidak melakukannya, kita sering dapat mengubah variabel sedemikian rupa sehingga bisa menjajarkan hubungan. Ini adalah asumsi yang kuat, dan langkah pertama dalam pemodelan regresi harus melihat scatterplots dari variabel (dan dalam kasus data deret waktu, plot dari variabel vs waktu), untuk memastikannya masuk akal secara apriori. Dan setelah memasang model, plot kesalahan harus dipelajari untuk melihat apakah ada pola nonlinier yang tidak dapat dijelaskan. Hal ini sangat penting ketika tujuannya adalah membuat prediksi untuk skenario di luar rentang data historis, di mana keberangkatan dari linieritas sempurna cenderung memiliki efek terbesar. Jika Anda melihat bukti hubungan nonlinear, adalah mungkin (meski tidak dijamin) bahwa transformasi variabel akan meluruskannya dengan cara yang akan menghasilkan kesimpulan dan prediksi yang berguna melalui regresi linier. (Kembali ke atas halaman.) Dan mengapa kita harus mengasumsikan bahwa efek dari variabel independen yang berbeda terhadap nilai yang diharapkan dari variabel dependen adalah aditif. Ini adalah asumsi yang sangat kuat, lebih kuat dari yang disadari kebanyakan orang. Ini menyiratkan bahwa efek marjinal dari satu variabel independen (yaitu koefisien kemiringannya) tidak bergantung pada nilai variabel independen lainnya saat ini. Tetapi mengapa tidak dapat dipastikan bahwa satu variabel independen dapat memperkuat efek yang lain, atau pengaruhnya mungkin berbeda secara sistematis dari waktu ke waktu. Dalam model regresi berganda, koefisien perkiraan variabel independen yang diberikan seharusnya mengukur pengaruhnya saat harga berlaku untuk kehadiran yang lain. Namun, cara pengontrolan dilakukan sangat sederhana: kelipatan variabel lain hanya ditambahkan atau dikurangi. Banyak pengguna hanya membuang banyak variabel independen ke dalam model tanpa memikirkan secara seksama masalah ini, seolah software mereka akan secara otomatis mengetahui secara pasti bagaimana kaitannya. Metode seleksi model otomatis (misalnya regresi bertahap) mengharuskan Anda untuk memiliki pemahaman yang baik terhadap data Anda sendiri dan menggunakan panduan dalam analisis. Mereka bekerja hanya dengan variabel yang mereka berikan, dalam bentuk yang diberikan, dan kemudian mereka hanya melihat pola linier dan aditif di antara mereka dalam konteks satu sama lain. Model regresi tidak hanya mengasumsikan bahwa Y adalah quotome functionquot dari Xs. Ini mengasumsikan bahwa itu adalah fungsi yang sangat khusus dari Xs. Praktik yang umum adalah memasukkan variabel independen yang efek prediktifnya secara logis tidak dapat bersifat aditif, katakanlah, beberapa di antaranya adalah total dan lainnya yaitu tingkat atau persentase. Terkadang hal ini dapat dirasionalisasi oleh argumen pendekatan orde pertama, dan terkadang tidak dapat dilakukan. Anda perlu mengumpulkan data yang relevan, mengerti apa tindakannya, membersihkannya jika perlu, melakukan analisis deskriptif untuk mencari pola sebelum memasang model apa pun, dan mempelajari tes diagnostik asumsi model sesudahnya, terutama statistik dan plot dari kesalahan. Anda juga harus mencoba menerapkan penalaran ekonomi atau fisik yang tepat untuk menentukan apakah persamaan prediksi aditif masuk akal. Di sini juga, adalah mungkin (tapi tidak dijamin) bahwa transformasi variabel atau pemasukan istilah interaksi dapat memisahkan pengaruhnya menjadi bentuk tambahan, jika tidak memiliki bentuk seperti itu, namun ini memerlukan pemikiran dan usaha. Bagianmu (Kembali ke atas halaman.) Dan mengapa kita harus menganggap kesalahan model linier secara independen dan identik terdistribusi secara normal. 1. Asumsi ini sering dibenarkan dengan mengacu pada Teorema Batas Pusat statistik, yang menyatakan bahwa jumlah atau rata-rata sejumlah variabel independen independen yang cukup banyak - apapun distribusi masing-masing - mendekati distribusi normal. Banyak data dalam bidang bisnis dan ekonomi dan teknik dan ilmu alam diperoleh dengan menambahkan atau merata pengukuran numerik yang dilakukan pada banyak orang atau produk atau lokasi atau interval waktu yang berbeda. Sejauh kegiatan yang menghasilkan pengukuran mungkin terjadi agak acak dan agak independen, kita bisa memperkirakan variasi dalam total atau rata-rata untuk didistribusikan secara normal. 2. Ini adalah (lagi) secara matematis yang nyaman: ini menyiratkan bahwa perkiraan koefisien optimal untuk model linier adalah yang meminimalkan kesalahan kuadrat rata-rata (yang mudah dihitung), dan ini membenarkan penggunaan sejumlah uji statistik berdasarkan pada Keluarga normal distribusi. (Keluarga ini mencakup distribusi t, distribusi F, dan distribusi Chi-kuadrat). 3. Bahkan jika proses kesalahan kuototalquot tidak normal dalam hal unit data asli, mungkin saja untuk mengubah data jadi Bahwa kesalahan prediksi model Anda kira-kira normal. Tapi di sini terlalu hati-hati harus dilakukan. Bahkan jika variasi yang tidak dapat dijelaskan dalam variabel dependen kira-kira terdistribusi normal, tidak dijamin bahwa mereka juga akan terdistribusi secara normal untuk semua nilai variabel independen. Mungkin variasi yang tidak dapat dijelaskan lebih besar dalam beberapa kondisi daripada kondisi lainnya, yang dikenal dengan istilah quotheteroscedasticityquot. Misalnya, jika variabel dependen terdiri dari penjualan total harian atau bulanan, mungkin ada pola hari atau minggu yang signifikan atau pola musiman. Dalam kasus seperti itu varians dari total akan lebih besar pada hari atau musim dengan aktivitas bisnis yang lebih besar - konsekuensi lain dari teorema batas pusat. (Transformasi variabel seperti penebangan dan penyesuaian musiman sering digunakan untuk mengatasi masalah ini.) Juga tidak dijamin bahwa variasi acak akan independen secara statistik. Ini adalah pertanyaan yang sangat penting saat data terdiri dari deret waktu. Jika model tidak ditentukan dengan benar, ada kemungkinan bahwa kesalahan berturut-turut (atau kesalahan yang dipisahkan oleh beberapa periode lainnya) akan memiliki kecenderungan sistematis untuk memiliki tanda yang sama atau kecenderungan sistematis untuk memiliki tanda yang berlawanan, sebuah fenomena yang dikenal sebagai quotautocorrelationquot atau Korelasi korelasi kuartalan Kasus khusus yang sangat penting adalah data harga saham. Di mana persentase perubahan daripada perubahan absolut cenderung terdistribusi normal. Ini menyiratkan bahwa dengan skala sedang hingga skala besar, pergerakan harga saham didistribusikan secara logal daripada terdistribusi normal. Transformasi log biasanya diterapkan pada data harga saham historis saat mempelajari pertumbuhan dan volatilitas. Perhatian: Meskipun model regresi sederhana sering disesuaikan dengan return saham historis untuk memperkirakan quotbetasquot, yang merupakan indikator risiko relatif dalam konteks portofolio terdiversifikasi, saya tidak menyarankan Anda menggunakan regresi untuk mencoba memprediksi return saham di masa depan. Lihat halaman acak geometris berjalan sebagai gantinya. Anda mungkin masih berpikir bahwa variasi nilai portofolio saham cenderung terdistribusi normal, berdasarkan teorema batas pusat, namun teorema batas pusat sebenarnya agak lambat untuk digigit pada distribusi lognormal karena sangat asimetris jangka panjang. Berekor. Sejumlah 10 atau 20 variabel independen dan identik lognormal didistribusikan memiliki distribusi yang masih cukup dekat dengan lognormal. Jika Anda tidak percaya ini, cobalah mengujinya dengan simulasi Monte Carlo: Anda akan terkejut. (I was.) Karena asumsi regresi linier (hubungan linear dan aditif dengan kesalahan terdistribusi normal) sangat kuat, sangat penting untuk menguji validitasnya saat model pas, topik yang dibahas secara lebih rinci pada model pengujian- Halaman asumsi Dan waspada terhadap kemungkinan bahwa Anda mungkin memerlukan data yang lebih banyak atau lebih baik untuk mencapai tujuan Anda. Anda tidak bisa mendapatkan sesuatu dari nol. Terlalu sering, pengguna naiumlve analisis regresi melihatnya sebagai kotak hitam yang secara otomatis memprediksi variabel tertentu dari variabel lain yang dimasukkan ke dalamnya, padahal model regresi adalah jenis prediksi yang sangat spesial dan sangat transparan. Keluarannya tidak mengandung informasi lebih banyak daripada yang diberikan oleh inputnya, dan mekanisme dalamnya perlu dibandingkan dengan kenyataan di setiap situasi di mana ia diterapkan. (Kembali ke atas halaman.) Korelasi dan formula regresi sederhana Variabel adalah, menurut definisi, kuantitas yang mungkin berbeda dari satu pengukuran ke pengukuran lainnya dalam situasi di mana sampel yang berbeda diambil dari populasi atau pengamatan dilakukan pada titik waktu yang berbeda. Dalam menyesuaikan model statistik di mana beberapa variabel digunakan untuk memprediksi orang lain, apa yang ingin kita temukan adalah bahwa variabel yang berbeda tidak berbeda secara independen (dalam arti statistik), namun cenderung bervariasi bersama-sama. Secara khusus, ketika menyesuaikan model linier, kami berharap dapat menemukan bahwa satu variabel (katakanlah, Y) bervariasi sebagai fungsi garis lurus dari variabel lain (katakanlah, X). Dengan kata lain, jika semua variabel lain yang mungkin relevan dapat dipertahankan, kami berharap dapat menemukan grafik Y versus X menjadi garis lurus (terlepas dari kesalahan acak yang tak terelakkan atau quotnoisequot). Ukuran jumlah absolut variabilitas dalam variabel adalah (secara alami) variansnya. Yang didefinisikan sebagai penyimpangan kuadrat rata-rata dari meannya sendiri. Secara ekivalen, kita bisa mengukur variabilitas dalam hal standar deviasi. Yang didefinisikan sebagai akar kuadrat dari varians. Deviasi standar memiliki keuntungan bahwa ia diukur dalam unit yang sama dengan variabel aslinya, bukan unit kuadrat. Tugas kita dalam memprediksi Y dapat digambarkan sebagai penjelasan beberapa atau semua variansnya - yaitu. Kenapa Atau dalam kondisi apa, apakah itu menyimpang dari meannya Mengapa tidak konstan Artinya, kita ingin dapat memperbaiki model prediksi naif: 374 t CONSTANT, di mana nilai terbaik untuk konstanta mungkin adalah mean historis Y. Lebih tepatnya, kami berharap menemukan model yang kesalahan prediksinya lebih kecil, dalam arti rata-rata, daripada penyimpangan variabel asli dari mean-nya. Dalam menggunakan model linier untuk prediksi, ternyata sangat mudah bahwa satu-satunya statistik yang diminati (paling tidak untuk tujuan memperkirakan koefisien untuk meminimalkan kesalahan kuadrat) adalah mean dan varians dari masing-masing variabel dan koefisien korelasi antara masing-masing pasangan variabel. Koefisien korelasi antara X dan Y biasanya dilambangkan dengan r XY. Dan mengukur kekuatan hubungan linier di antara keduanya pada skala relatif (yaitu tanpa satuan) dari -1 sampai 1. Artinya, ia mengukur sejauh mana model linier dapat digunakan untuk memprediksi penyimpangan satu variabel dari meannya. Diberi pengetahuan tentang deviasi orang lain dari meannya pada titik waktu yang sama. Koefisien korelasi paling mudah dihitung jika kita pertama kali menstandardisasi variabel, yang berarti mengkonversikannya ke satuan standar deviasi-dari-mean, menggunakan deviasi standar populasi daripada deviasi standar sampel, yaitu dengan menggunakan statistik yang rumusnya Memiliki n daripada n-1 di denominator, di mana n adalah ukuran sampel. Versi standar X akan dilambangkan di sini oleh X. Dan nilainya pada periode t didefinisikan dalam notasi Excel sebagai: di mana STDEV.P adalah fungsi Excel untuk deviasi standar populasi. (Di sini dan di tempat lain saya akan menggunakan fungsi Excel daripada simbol matematika konvensional di beberapa formula untuk menggambarkan bagaimana perhitungannya dilakukan pada spreadsheet.) Misalnya, anggaplah RATA-RATA (X) 20 dan STDEV.P (X ) 5. Jika X t 25, maka X t 1, jika X t 10. maka X t -2, dan seterusnya. Y akan menunjukkan nilai Y yang sama standarnya. Sekarang, koefisien korelasi sama dengan produk rata-rata dari nilai standar dari dua variabel dalam sampel n pengamatan yang diberikan: Jadi, misalnya, jika X dan Y disimpan dalam kolom Pada spreadsheet, Anda dapat menggunakan fungsi RATA-RATA dan STDEV.P untuk menghitung rata-rata dan standar deviasi populasi, Anda dapat membuat dua kolom baru di mana nilai X dan Y pada setiap baris dihitung sesuai dengan rumus di atas. Kemudian buat kolom baru ketiga dimana X dikalikan dengan Y di setiap baris. Rata-rata nilai pada kolom terakhir adalah korelasi antara X dan Y. Tentu saja, di Excel, Anda bisa menggunakan rumus CORREL (X, Y) untuk menghitung koefisien korelasi, di mana X dan Y menunjukkan kisaran sel dari Data untuk variabel. (Catatan: dalam beberapa situasi mungkin menarik untuk membakukan data relatif terhadap standar deviasi sampel, yaitu STDEV.S di Excel, namun statistik populasi adalah yang benar untuk digunakan dalam rumus di atas.) (Kembali ke atas Dari halaman.) Jika kedua variabel cenderung bervariasi pada sisi yang sama dari masing-masing alat pada saat bersamaan, maka produk rata-rata penyimpangannya (dan karenanya korelasi di antara keduanya) akan menjadi positif. Karena produk dua angka dengan tanda sama positif. Sebaliknya, jika mereka cenderung bervariasi di sisi berlawanan dari sarana masing-masing pada saat bersamaan, korelasi mereka akan negatif. Jika mereka berbeda secara independen sehubungan dengan kemampuan mereka - yaitu, jika seseorang sama-sama cenderung berada di atas atau di bawah mean-nya terlepas dari apa yang sedang dilakukan - maka korelasi akan menjadi nol. Dan jika Y adalah fungsi linear X yang tepat, maka Y t X t untuk semua t atau yang lain Y t -X t untuk semua t. Dalam hal ini rumus untuk korelasi dikurangi menjadi 1 atau -1. Koefisien korelasi dapat dikatakan untuk mengukur kekuatan hubungan linier antara Y dan X karena alasan berikut. Persamaan linear untuk memprediksi Y dari X yang meminimalkan kesalahan kuadrat rata-rata adalah sederhana: Jadi, jika X diamati sebagai satu standar deviasi di atas meannya sendiri, maka kita harus memprediksi bahwa Y akan menjadi r XY standar deviasi di atas meannya sendiri jika X Adalah 2 standar deviasi di bawah meannya sendiri, maka kita harus memprediksi bahwa Y akan menjadi standar deviasi 2 r XY di bawah meannya sendiri, dan seterusnya. Dalam istilah grafis, ini berarti bahwa, pada scatterplot Y versus X. Garis untuk memprediksi Y dari X sehingga memperkecil mean squared error adalah garis yang melewati titik asal dan memiliki kemiringan r XY. Fakta ini tidak seharusnya jelas, tapi mudah dibuktikan dengan kalkulus diferensial dasar. Inilah contohnya: pada scatterplot Y versus X. Sumbu simetri visual adalah garis yang melewati titik asal dan kemiringannya sama dengan 1 (yaitu garis 45 derajat), yang merupakan garis putus-putus abu-abu pada plot di bawah ini. Ini melewati asal karena sarana dari kedua variabel standar adalah nol, dan kemiringannya sama dengan 1 karena standar deviasi keduanya sama dengan 1. (Fakta terakhir berarti bahwa titik-titik itu sama-sama tersebar secara horisontal dan vertikal dalam kaitannya dengan Berarti penyimpangan kuadrat dari nol, yang memaksa pola mereka muncul kira-kira simetris di sekitar garis 45 derajat jika hubungan antara variabel benar-benar linier.) Namun, garis putus-putus abu-abu bukanlah garis terbaik yang digunakan untuk memprediksi nilai Y untuk nilai X tertentu. Garis terbaik untuk memprediksi Y dari X memiliki kemiringan kurang dari 1: ia menuju ke sumbu X. Garis regresi ditunjukkan dalam warna merah, dan kemiringannya adalah korelasi antara X dan Y. yaitu 0,46 dalam kasus ini. Mengapa ini benar Karena, itu adalah cara untuk bertaruh jika Anda ingin meminimalkan kesalahan kuadrat rata-rata yang diukur dalam arah Y. Jika Anda ingin memprediksi X dari Y sehingga meminimalkan kesalahan kuadrat rata-rata yang diukur pada arah X, garis akan bergeser ke arah lain relatif terhadap garis 45 derajat, dan dengan jumlah yang persis sama. Jika kita ingin mendapatkan persamaan regresi linier untuk memprediksi Y dari X dengan persyaratan yang tidak standar. Kita hanya perlu mengganti formula untuk nilai standar pada persamaan sebelumnya, yang kemudian menjadi: Dengan menata ulang persamaan ini dan mengumpulkan konstanta, kita memperoleh: adalah perkiraan kemiringan garis regresi, dan merupakan perkiraan Y -intercept dari garis. Perhatikan bahwa, seperti yang kita klaim sebelumnya, koefisien dalam persamaan linier untuk memprediksi Y dari X hanya bergantung pada mean dan standar deviasi X dan Y dan pada koefisien korelasi mereka. Rumus tambahan yang dibutuhkan untuk menghitung kesalahan standar. T-statistik Dan nilai P (statistik yang mengukur ketepatan dan signifikansi koefisien perkiraan) diberikan dalam catatan matematika tentang regresi sederhana dan juga diilustrasikan dalam file spreadsheet ini. Korelasi positif sempurna (r XY 1) atau korelasi negatif sempurna (r XY -1) hanya diperoleh jika satu variabel adalah fungsi linier yang persis sama dengan yang lain, tanpa kesalahan, dalam hal ini mereka sama sekali tidak memiliki variabel yang sama persis. Secara umum kita menemukan korelasi yang kurang sempurna, artinya, kita menemukan bahwa r XY kurang dari 1 dalam nilai absolut. Therefore our prediction for Y is typically smaller in absolute value than our observed value for X . That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galtons phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts: (i) the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X . and (ii) the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact (noiseless) linear function of X . The term quotregressionquot has stuck and has even mutated from an intransitive verb into a transitive one since Galtons time. We dont merely say that the predictions for Y quotregress to the meanquot--we now say that we are quotregressing Y on X quot when we estimate a linear equation for predicting Y from X. and we refer to X as a quotregressorquot in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable (the latter being the error variance of an intercept-only model). The relative amount by which the regression models error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable(s). For example, if the error variance is 20 less than the original variance, we say we have quotexplained 20 of the variance.quot It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i.e. the square of r. Hence, the fraction-of-variance-explained has come to be known as quotR-squaredquot. The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model (one with two or more X variables), there are many correlation coefficients that must be computed, in addition to all the means and variances. For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables. In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among the variables--but the computations are no longer easy. We will leave those details to the computer. (Return to top of page.) Go on to a nearby topic:
Td-ameritrade-stock-options
Online-trading-classes-bangalore