يغطي هذا المقرر التقنيات الاستكشافية الأساسية لتلخيص البيانات. يتم تطبيق هذه الأساليب عادة قبل أن تبدأ النمذجة الرسمية ويمكن أن تساعد في تطوير نماذج إحصائية أكثر تعقيدًا. تعد التقنيات الاستكشافية مهمة أيضًا لإزالة أو شحذ الفرضيات المحتملة حول العالم التي يمكن معالجتها بواسطة البيانات. سنغطي بالتفصيل أنظمة التخطيط في R بالإضافة إلى بعض المبادئ الأساسية لإنشاء رسومات البيانات. سنغطي أيضًا بعض الأساليب الإحصائية الشائعة متعددة المتغيرات المستخدمة لتصور البيانات عالية الأبعاد.
Overview
Syllabus
- الأسبوع الأول
- يغطي هذا الأسبوع أساسيات الرسومات التحليلية ونظام الرسم الأساسي في R. وقد قمنا أيضًا بتضمين بعض المواد الأساسية لمساعدتك في تثبيت R إذا لم تكن قد قمت بذلك بالفعل.
- الأسبوع الثاني
- مرحبًا بكم في الأسبوع الثاني من تحليل البيانات الاستكشافية. يغطي هذا الأسبوع بعض أنظمة الرسومات البيانية الأكثر تقدمًا المتوفرة في R: نظام Lattice ونظام ggplot2. بينما يوفر نظام الرسومات base العديد من الأدوات المهمة لتصور البيانات، فقد كان جزءًا من نظام R الأصلي ويفتقر إلى العديد من الميزات التي قد تكون مرغوبة في نظام الرسم، خاصة عند تصور البيانات عالية الأبعاد. يعمل نظاما Lattice وggplot2 أيضًا على تبسيط تخطيط الرسومات مما يجعلها عملية أقل تعقيدًا.
- الأسبوع الثالث
- مرحبًا بكم في الأسبوع 3 من تحليل البيانات الاستكشافية. يغطي هذا الأسبوع بعض الأساليب الإحصائية المستخدمة في التحليل الاستكشافي. تتضمن هذه الأساليب تقنيات التجميع وتقليل الأبعاد التي تسمح لك بعمل عروض رسومية لبيانات ذات أبعاد عالية جدًا (العديد من المتغيرات). نغطي أيضًا طرقًا جديدة لتحديد الألوان في R بحيث يمكنك استخدام اللون كبُعد مهم ومفيد عند عمل رسومات البيانات. تمت تغطية كل هذه المواد في الفصول 9-12 من كتابي تحليل البيانات الاستكشافية مع R.
- الأسبوع الرابع
- في هذا الأسبوع، سنلقي نظرة على دراستي حالة في تحليل البيانات الاستكشافية. الأول يتضمن استخدام تقنيات التحليل العنقودي، والثاني هو تحليل أكثر تعقيدًا لبعض بيانات تلوث الهواء. غالبًا ما تكون طريقة عمل EDA أمرًا شخصيًا، لكني أقدم مقاطع الفيديو هذه لإعطائك فكرة عن كيفية المضي قدمًا في نوع معين من مجموعة البيانات.
Taught by
Roger D. Peng, PhD, Jeff Leek, PhD and Brian Caffo, PhD