אשכול היררכי לעומת מחיצות

אשכולות היא טכניקת למידת מכונה לניתוח נתונים וחלוקה לקבוצות של נתונים דומים. קבוצות או קבוצות של נתונים דומים מכונים אשכולות. ניתוח אשכול בודק אלגוריתמים מקבצים שיכולים לזהות אשכולות באופן אוטומטי. היררכית וחלוקה הם שתי סוגים כאלה של אלגוריתמים מקבצים. אלגוריתמי אשכול היררכיים מפרקים את הנתונים להיררכיה של אשכולות. אלגוריתמים חלקיים מחלקים את מערך הנתונים למחיצות שאינן קשורות זו לזו.

מה זה אשכול היררכי?

אלגוריתמים מקבצים היררכיים חוזרים על המחזור של מיזוג אשכולות קטנים יותר לגדולים או חלוקת אשכולות גדולים יותר לקטנים יותר. כך או כך, היא מייצרת היררכיה של מקבצים הנקראים דנדוגרמה. אסטרטגיית אשכול אגרגומטיבית משתמשת בגישה מלמטה למעלה של מיזוג אשכולות לגדולות יותר, ואילו אסטרטגיית אשכולות חלוקתית משתמשת בגישה מלמעלה למטה של ​​פיצול לאלה קטנים יותר. בדרך כלל משתמשים בגישה החמדנית בהחלטה אילו אשכולות גדולים / קטנים יותר משמשים למיזוג / חלוקה. מרחק אוקלידי, מרחק מנהטן ודמיון קוסינוס הם חלק מהמדדים הנפוצים ביותר עבור נתונים מספריים. לנתונים שאינם מספריים משתמשים בערכים כמו מרחק המאם. חשוב לציין כי אין צורך בתצפיות (מקרים) בפועל לאשכול היררכי, מכיוון שרק מטריצת המרחקים מספיקה. Dendogram הוא ייצוג חזותי של האשכולות, המציג את ההיררכיה בצורה מאוד ברורה. המשתמש יכול להשיג אשכולות שונים בהתאם לרמת הגזירה של הדנדוגרמה.

מה זה אשכול חלקי?

אלגוריתמי אשכול חלקי מייצרים מחיצות שונות ואז מעריכים אותם לפי קריטריון כלשהו. הם מכונים גם "לא-היררכיים", שכן כל מופע ממוקם בדיוק באחד מקבצים בלעדיים של k. מכיוון שרק קבוצה אחת של אשכולות היא הפלט של אלגוריתם אשכול חלקי טיפוסי, המשתמש נדרש להזין את מספר האשכולות הרצוי (נקרא בדרך כלל k). אחד מאלגוריתמי האשכול המחיציים הנפוצים ביותר הוא אלגוריתם האשכול k-אמצעי. המשתמש נדרש לספק את מספר האשכולות (k) לפני ההתחלה והאלגוריתם יוזם לראשונה את המרכזים (או הצנטרואידים) של המחיצות k. על קצה המזלג, אלגוריתם אשכול k- מייעד לאחר מכן חברים על סמך המרכזים הנוכחיים ומעריך מחדש מרכזים על בסיס החברים הנוכחיים. שני השלבים הללו חוזרים על עצמם עד למטב פונקציה אובייקטיבית של דמיון פנים-אשכול ותפקוד אובייקטיבי אובייקטיבי בין שונות לאשכול. לפיכך, אתחול הגיוני של מרכזים הוא גורם חשוב ביותר להשגת תוצאות איכותיות מאלגוריתמי אשכול חלקי.

מה ההבדל בין אשכול היררכי למחלקות?

לאשכול היררכי ומחלקתי יש הבדלי מפתח בזמן הריצה, בהנחות, בפרמטרי הקלט ובאשכולות שהתקבלו. בדרך כלל, אשכול חלקי מהיר יותר מאשכול היררכי. אשכול היררכי דורש מידת דמיון בלבד ואילו אשכול חלקי דורש הנחות חזקות יותר כמו מספר האשכולות והמרכזים הראשוניים. אשכול היררכי אינו דורש פרמטרי קלט, בעוד שאלגוריתמי אשכול חלקי דורשים את מספר האשכולות כדי להתחיל לפעול. אשכול היררכי מחזיר חלוקה משמעותית וסובייקטיבית הרבה יותר של אשכולות אך אשכול חלקי מביא לאשכולות בדיוק k. אלגוריתמי אשכול היררכיים מתאימים יותר לנתונים קטגוריים כל עוד ניתן להגדיר מדד דמיון בהתאם.