26/09/2023
REGRESI BERGANDA DAN MACHINE LEARNING
REGRESI BERGANDA DAN MACHINE LEARNING
Analisis regresi bertujuan untuk memprediksi nilai variable tak bebas, jika variabel bebas diketahui datanya. Persamaan regresi yang memenuhi kriteria BLUE (Best, Linier, Unbiased, Estimated) dapat dijadikan alat prediksi yang baik. Dari laman www.statisticssolutions.com mengemukakan, Three major uses for regression analysis are
- Determining the strength of predictors,
- Forecasting an effect, and
- Trend forecasting
Persamaan regresi merupakan suatu persamaan yang menerangkan atau menjelaskan hubungan antara variabel bebas dan variabel tak bebas. Persamaan regresi dapat digunakan untuk memprediksi atau mengestimasi nilai dari variabel tak bebas berdasarkan informasi dari variabel bebas. Persamaan regresi linear merupakan suatu persamaan yang berupa garis lurus, sedangkan persamaan regresi nonlinear bukan merupakan persamaan garis lurus.
Model Persamaan Regresi Berganda :
Visualisasi Regresi berganda
Contoh aplikasi dari regresi linear berganda
- Membuat persamaan untuk memprediksi atau mengestimasi nilai indeks prestasi mahasiswa berdasarkan jumlah jam belajar dalam sehari dan intelligence quotient (IQ). Di samping itu dapat diketahui faktor-faktor yang memberikan kontribusi paling besar dalam hal pengaruhnya terhadap indeks prestasi mahasiswa.
- Membuat model untuk memprediksi atau mengestimasi laba perusahaan berdasarkan umur perusahaan, tingkat penjualan, dan besarnya perusahaan. Di samping itu, dapat diketahui seberapa besar kontribusi yang diberikan dari faktor umur perusahaan terhadap naik/turunnya laba perusahaan, dengan mengontrol pengaruh tingkat penjualan dan besarnya perusahaan. Dapat juga diketahui seberapa besar kontribusi yang diberikan dari faktor tingkat penjualan perusahaan terhadap naik/turunnya laba perusahaan, dengan mengontrol pengaruh umur perusahaan dan besarnya perusahaan.
- Membuat persamaan untuk memprediksi atau mengestimasi harga saham suatu perusahaan berdasarkan laba per-lembar saham dan jumlah kas dividen yang diberikan. Di samping itu, dapat diketahui seberapa besar kontribusi yang diberikan dari faktor laba per-lembar saham terhadap naik/turunnya harga saham, dengan mengontrol pengaruh jumlah kas dividen yang diberikan.
- Pada kasus makro ekonomi, kita dapat megestimasi pertumbuhan ekonomi dengan melihat kontribusi variabel bebas seperti inflasi, pendapatan, suku bunga. dll.
Regresi dan Mechine Learning
- Algoritma Regresi: Algoritma ini digunakan untuk memprediksi nilai numerik seperti harga saham, harga properti, atau jumlah penjualan. Algoritma ini digunakan untuk membuat model prediksi yang dapat digunakan untuk membuat keputusan bisnis.
- Algoritma Klasifikasi: Algoritma ini digunakan untuk memprediksi kelas suatu objek seperti mengklasifikasikan email sebagai spam atau tidak spam, atau mengklasifikasikan pasien sebagai menderita penyakit tertentu atau tidak. Algoritma ini digunakan untuk mengambil keputusan yang berkaitan dengan klasifikasi.
- Algoritma Clustering: Algoritma ini digunakan untuk mengelompokkan objek yang serupa seperti mengelompokkan pelanggan berdasarkan preferensi pembelian, atau mengelompokkan sampel data berdasarkan karakteristik. Algoritma ini digunakan untuk mengidentifikasi pola dan menemukan struktur dalam data.
- Deep Learning: Algoritma ini digunakan untuk menyelesaikan masalah yang sangat kompleks seperti pengenalan wajah, pengenalan suara, atau pengolahan bahasa alami. Algoritma ini digunakan untuk membuat sistem yang dapat belajar secara otomatis dan meningkatkan performanya dengan waktu.
- Algoritma Decision Tree: Algoritma ini digunakan untuk membuat suatu diagram pohon yang menyajikan keputusan berdasarkan kondisi-kondisi yang diberikan. Algoritma ini digunakan untuk mengambil keputusan yang berkaitan dengan klasifikasi atau regresi
- Algoritma Gradient Boosting: Algoritma ini digunakan untuk membuat sekumpulan model yang dapat digabungkan untuk memprediksi hasil. Algoritma ini digunakan untuk membuat model yang lebih kompleks dan akurat dibandingkan dengan menggunakan model tunggal.
- Algoritma Random Forest: Algoritma ini digunakan untuk membuat sekumpulan decision tree yang dapat digabungkan untuk memprediksi hasil. Algoritma ini digunakan untuk membuat model yang lebih kompleks dan akurat dibandingkan dengan menggunakan model tunggal.
- Algoritma Neural Network : Algoritma ini digunakan untuk menyelesaikan masalah yang kompleks seperti pengenalan wajah, pengenalan suara, atau pengolahan bahasa alami. Algoritma ini digunakan untuk membuat sistem yang dapat belajar secara otomatis dan meningkatkan performanya dengan waktu. Neural network dapat digunakan untuk pemrosesan gambar, teks, suara dan video. Neural network juga dapat digunakan untuk tugas-tugas yang memerlukan pembelajaran dari data yang tidak terstruktur.
Regresi yang Baik untuk Prediksi
27/08/2023
Pemrograman Data Sains (1)
Pemrograman Data Sains (1)
ADA banyak bahasa pemrograman untuk data sians. Dinataranya Python, R Matlab, Javasript, dll. Python menjadi salah satu bahasa pemrograman yang paling populer karena tak hanya dibutuhkan untuk bidang data science, tapi juga berguna untuk pengembangan web dan software. Bahasa pemrograman ini termasuk object-oriented programming. Dalam data science, Python umumnya digunakan untuk pemrosesan data dan penerapan algoritma analisis data. Python juga sangat mudah dipelajari oleh data scientist atau programmer pemula karena menggunakan sintaks yang sederhana.
Berikut adalah Tahapan Data Sains:
Data science adalah ilmu yang menggabungkan matematika, statisika dengan ilmu komputer dengan tujuan analisa data (data analysis) dari suatu himpunan data baik skala kecil (sampel) maupun besar (populasi) dengan mengaplikasikan algoritma tertentu untuk tujuan menggali data (data mining) dan mendapatkan pola data serta dapat melakukan prediksi data (prediction) dengan cukup akurat yang dapat membantu dalam pengambilan keputusan dan dapat digunakan untuk membuat sistem yang cerdas (AI) yang dapat terus belajar dengan sendirinya (machine learning).
Berikut adalah materi Pengantar Pemrograman Data Sains
- Pengertian Data Sains
- Tujuan data science
- Jenis pembelajaran data science
- Tahapan data sains
- Pertama, tahap pendefinisian masalah.
- Kedua, tahap pengumpulan data.
- Ketiga, tahap eksplorasi dan penyiapan data.
- Keempat, tahap analisis data.
- Kelima, storytelling.
- Keahlian dan skill data scientist
- Perbedaan data sains (machine learning) dengan pemrograman tradisional ?
- Mengapa python?
SIlakan dibaca materi lengkapnya Pengantar Data Sains Namun sebaiknya membaca juga materi Statistik dan data sains dan pengantar algoritma pemrograman
Dalam Mata Kuliah ini materi dna praktik yang akan dipelajari
TOPIK PEMROGRAMAN DATA SAINS WITH PYTHON
- Pengantar Paket dan Library Python untuk data sains
- Numpy
- Pandas
- Matplotlib, Seaborn
- Visualisasi Data
- Machine Learning (Intro)
- Projek
22/05/2023
ANALISA TREN DENGAN ALGORITMA REGRESI
ANALISA TREN
Dalam metode statistik ini, ada tiga jenis data yang bisa digunakan dalam analisis, yaitu data cross section, data time series, dan data panel (gabungan cross section dan time series).
Data time series adalah jenis data berdasarkan waktu yang memiliki banyak titik waktu. Banyak titik waktu di sini berarti waktunya lebih dari satu periode waktu. Berbeda dengan data cross section/silang waktu yang periode waktunya hanya 1 titik waktu. Periode waktu bisa 1 detik, 1 meni, 1 jam, 1 hari, 1 minggu, 1 bulan, 1 dekade, 1 tahun, 1 abad, dan seteresunya. Misalnya, dalam kurun waktu 1 tahun (data cross section), terdiri 12 bulan (data time series).
Tren adalah pergerakan jangka panjang dalam suatu kurun waktu yang kadang-kadang dapat digambarkan dengan garis lurus atau kurva mulus. Analisis trend digunakan untuk membangun model umum kecenderungan data berkala (time series) untuk keperluan peramalan (proyeksi tren). Analisis trend dipakai untuk data dengan horison waktu yang lama (sebaiknya lebih dari 10 tahun) dan tidak mengandung komponen musiman.
Beberapa model analisis yang umum dipakai :
- Linier dan non linier (2-4)
- Kuadratik
- Eksponensial
- Kurva-S
- Tren jangka panjang adalah suatu garis (trend) yang menunjukkan arah perkembangan secara umum.
- Variasi musim adalah suatu gerakan yang naik turun secara teratur yang cenderung untuk terulang kembali dalam jangka waktu tidak lebih dari 1 tahun.
- Variasi siklis adalah suatu gerakan yang naik turun secara teratur yang cenderung untuk terulang kembali setelah jangka waktu lebih dari 1 tahun.
- Variasi random adalah suatu gerakan yang naik turun secara tiba-tiba atau mempunyai sifat yang sporadis sehingga biasanya sulit untuk diperkirakan sebelumnya
Mengapa Analisa Tren Penting?
- Mengidentifikasi Pola dan Perubahan: Analisis tren membantu mengidentifikasi pola perubahan dalam data seiring waktu. Ini dapat membantu dalam memahami arah dan kecenderungan data serta mengidentifikasi apakah ada perubahan signifikan atau pola yang konsisten.
- Prediksi dan Perencanaan: Dengan memahami tren masa lalu, analisis tren dapat digunakan untuk membuat prediksi tentang masa depan. Informasi tren yang dihasilkan dapat membantu dalam perencanaan strategis, pengambilan keputusan, dan peramalan, sehingga membantu mengurangi ketidakpastian dan meningkatkan efisiensi.
- Evaluasi Kinerja: Analisis tren dapat digunakan untuk mengevaluasi kinerja suatu variabel atau fenomena seiring waktu. Misalnya, dalam bisnis, analisis tren dapat membantu dalam melihat pertumbuhan penjualan, laba, atau pengeluaran dan membandingkannya dengan target atau periode sebelumnya.
- Deteksi Anomali: Dengan memahami tren yang normal, analisis tren dapat membantu dalam mendeteksi anomali atau perubahan yang tidak biasa dalam data. Hal ini dapat membantu dalam mengidentifikasi masalah atau kesalahan yang mungkin terjadi dan mengambil tindakan yang sesuai.
- Pengambilan Keputusan: Analisis tren memberikan wawasan yang berharga dalam tren jangka panjang dan memungkinkan pengambilan keputusan yang lebih informasi. Informasi tren dapat membantu dalam mengidentifikasi peluang, mengelola risiko, dan mengoptimalkan strategi bisnis atau kebijakan publik.
Perhatikan tren IHSG berikut
Analisis Tren Linier dengan Algoritma Regresi Linier
Memaknai model Regresi dengan Bijak
- Narasi
- Tabel
- Gambar / Kurva
- Cara Manual Eliminasi dan subtitusi persamaan
- Menggunakan aplikasi pengolah data seperti excel, evies, SPSS, STATA, dll
- Menggunakan bahasa pemrograman (koding)
- Masukkan data yang diberikan ke dalam spreadsheet Excel. Misalnya, Kita dapat menempatkan data pada kolom A hingga D, dengan kolom A untuk nomor partisipan, kolom B untuk pengeluaran makanan (X1), kolom C untuk pengeluaran transportasi (X2), dan kolom D untuk berat badan (Y).
- Selanjutnya, pada sel E2, masukkan rumus regresi menggunakan fungsi "LINEST". Misalnya, rumusnya dapat dituliskan >>>>. =LINEST(D2:D11, B2:C11) Pastikan untuk menyesuaikan rentang sel dengan data yang tepat.
- Tekan kombinasi tombol Ctrl + Shift + Enter untuk mengkonfirmasi rumus sebagai rumus matriks. Dalam beberapa versi Excel, Kita mungkin perlu menekan Enter setelah memasukkan rumus.
- Setelah itu, Excel akan menghasilkan output matriks dalam rentang sel E2:F3. Sel E2 akan berisi koefisien regresi (intersep dan koefisien X1), sedangkan sel F2 akan berisi koefisien X2.
- Untuk menampilkan persamaan regresi berdasarkan koefisien yang dihasilkan, Kita dapat memasukkan rumus berikut di sel G2="Y = "&E2&" + "&F2&" * X1 + "&G2&" * X2"