בדיקות ביצועים משותפות על גבי תשתית H100 של OCI הדגימו גידול של פי 10 במספר המשתמשים שניתן לשרת במקביל, פי 10 בקצב עיבוד הטוקנים, ופי 7 בכמות הטוקנים שסופקו – וכל זאת ללא צורך בהוספת יחידות GPU נוספות
קמפבל, קליפורניה, 9 ביוני 2026 /PRNewswire/ — WEKA, ספקית תשתיות הנתונים והזיכרון לבינה מלאכותית, הכריזה היום על תוצאות בדיקות ביצועים בסביבת ייצור, הממחישות כיצד ארגונים יכולים לשפר משמעותית את יעילות העלויות של אינפרנס במודלי בינה מלאכותית בעלי חלון הקשר ארוך, ולאפשר תמיכה ביותר משתמשים ועיבוד של יותר טוקנים באותה כמות של משאבי GPU. מבחני הביצועים מראים כי פלטפורמת NeuralMesh של WEKA, בשילוב Augmented Memory Grid על גבי Oracle Cloud Infrastructure (OCI), מסוגלת לשרת פי 10 יותר משתמשים בו-זמנית, לספק קצב עיבוד טוקנים גבוה פי 10, ולהפיק פי 7 יותר טוקנים לכל GPU בהשוואה לתצורות המבוססות על DRAM בלבד – וכל זאת ללא הוספת תשתיות נוספות. התוצאות אומתו על גבי אשכול של תשעה שרתי Bare Metal מסוג H100 ב-OCI, עם חלונות הקשר של 100,000 טוקנים.
“עומסי העבודה של בינה מלאכותית ארגונית דוחפים את חלונות ההקשר ואת ניצול משאבי ה-GPU לגבולות חדשים”, אמר פאבלו סלם, מנהל בכיר לפיתוח תוכנה ב-Oracle Cloud Infrastructure. “מבחני הביצועים הללו מראים כיצד פלטפורמת NeuralMesh של WEKA, בשילוב Augmented Memory Grid על גבי OCI, מסייעת להסיר צווארי בקבוק הקשורים לזיכרון, כך שלקוחות יכולים לתמוך בעומסי עבודה גדולים ותובעניים יותר של אינפרנס, בלי פשוט להוסיף עוד מעבדי GPU“.
שלוש תוצאות שמשנות את כללי המשחק בתחום האינפרנס
בבדיקות שאומתו בקנה מידה של סביבת ייצור על גבי אשכול Bare Metal המבוסס על H100 (תשעה שרתים, 72 מעבדי GPU, חלונות הקשר של 100,000 טוקנים ואלפי משתמשים במקביל), פלטפורמת NeuralMesh עם Augmented Memory Grid על גבי OCI סיפקה את התוצאות הבאות:
- המערכת הצליחה לשרת פי 10 יותר משתמשים בו-זמנית, ללא צורך בהרחבת התשתית הקיימת. פלטפורמת NeuralMesh עם Augmented Memory Grid השיגה סקיילינג של מעל 5,000 משתמשים במקביל, לעומת כ-600 בתצורות המבוססות על DRAM בלבד. הדבר מונע את ירידת הביצועים החדה שמתרחשת כאשר המטמון מגיע לרוויה, באמצעות הרחבת טווח העבודה הפעיל של המטמון מ-8.64 TiB של DRAM לכ-287 TiB של אחסון NVMe זמין לשימוש. בנוסף, יותר משתמשים לכל GPU משמעותם שאותו תקציב מספק כיסוי רחב יותר של עומסי עבודה.
- תפוקת טוקנים גבוהה פי 10. תפוקה גבוהה יותר מכל GPU באשכול. על גבי OCI, פלטפורמת NeuralMesh עם Augmented Memory Grid השיגה קצב של כשני מיליון טוקנים לשנייה, לעומת פחות מ-200,000 בטכנולוגיית הייחוס המבוססת על DRAM בלבד. עבור צוותי מוצר שמפעילים יכולות בינה מלאכותית בזמן אמת, כגון חיפוש, סיכום, סיוע בקוד וסוכנים רב-שלביים, התפוקה מגדירה את הגבול העליון של מספר המשתמשים שניתן לשרת, מהירות התגובה של המערכת והיקף ההכנסות שהתשתית מסוגלת לתמוך בו.
- כמות הטוקנים שסופקו גדלה פי 7. ירידה בעלות לכל טוקן בהיקפים גדולים. פלטפורמת NeuralMesh עם Augmented Memory Grid סיפק חמישה מיליארד טוקנים, לעומת 700 מיליון בטכנולוגיית הייחוס המבוססת על DRAM בלבד, במהלך מבחן של שעה אחת שכלל 2,400 משתמשים. בארגונים שמפעילים תהליכי עבודה מבוססי סוכנים, רוויה של זיכרון ה-DRAM גורמת לאובדן סמוי של קיבולת GPU עקב חישובים חוזרים, מה שפוגע ישירות בעלות לכל טוקן ובתשואה על ההשקעה (ROI).
“האינפרנס הופך לצוואר בקבוק בהתאם לכמות הזיכרון האפקטיבי שזמין ל-GPU“, אמר לירן צביבל, מנכ”ל WEKA. “תוצאות אלו מוכיחות שכלכלת הטוקנים של בינה מלאכותית אינה נפתרת על ידי חומרה בלבד; היא נפתרת באמצעות הסרת חומת הזיכרון שהיוותה את תקרת הזכוכית האמיתית ליכולות של החומרה הקיימת. NeuralMesh עם Augmented Memory Grid הפועלת על גבי OCI מביאה ללקוחות סדרי גודל רבים יותר של טוקנים, בצורה יעילה במיוחד מבחינת עלות”.
שינוי כלכלת הבינה המלאכותית באמצעות תשתית זיכרון הקשרי
עם הגידול בביקוש לאינפרנס, חוסר היעילות בתשתיות הבינה המלאכותית הולך ומצטבר. כל הדחה (eviction) של מטמון key-value (KV) היא למעשה מס: על מחזורי GPU, על השיהוי, על חוויית המשתמש ועל העלות של כל טוקן שמסופק. במשימות של הקשר ארוך ותהליכי עבודה מבוססי סוכנים, שבהם הקלטים מגיעים לעיתים קרובות ל-100,000 טוקנים או יותר, העלות הזו אינה שולית. מדובר בפגיעה ישירה בכלכלת היחידה של כל ארגון המפעיל מערכות בינה מלאכותית בסביבת ייצור.
Augmented Memory Grid, רכיב בפלטפורמת NeuralMesh, פותר את הבעיה ברמה הארכיטקטונית באמצעות ניתוק מטמון ה-KV מזיכרון ה-GPU המקומי ואחסונו במחסן טוקנים עתיר ביצועים הנגיש ברחבי האשכול. כל שרת יכול לשרת כל סשן תוך שמירה על פגיעות במטמון, מה שמבטל תלות נוקשה בקשירת סשנים (session stickiness), מספק ביצועים טובים יותר מ-DRAM, משפר חלוקת עומסים ומאפשר הרחבה אופקית חלקה ככל שמספר המשתמשים במקביל גדל. התוצאה היא זיכרון הקשרי מתמשך עבור סוכני בינה מלאכותית, יחד עם מנגנון הפחתת עלויות שהופך אינפרנס בהקשר ארוך לכלכלי להרצה בקנה מידה רחב.
הוכחה ברמת סביבת ייצור
OCI פרסמה ב-13 במאי 2026 בבלוג AI & Data Science שלה את המתודולוגיה המלאה של מבחני הביצועים, תצורת המערכת והתוצאות. מבחני הביצועים שבוצעו על אשכול H100 מסוג Bare Metal של OCI עם תשעה צמתים, מרחיבים את שלב האימות הקודם, שבו הושגו פי 1000 קיבולת מטמון KV ועד פי 20 שיפור בזמן עד לטוקן הראשון עבור חלון הקשר של 128,000 טוקנים. שלב זה בוחן את מלוא כלכלת האינפרנס בסביבת ייצור: צפיפות משתמשים במקביל, תפוקה יציבה לאורך זמן, שמירת עקביות של המטמון, ויציבות יעדי רמת שירות (SLO) בזמן קפיצות ביקוש תחת עומסים גבוהים.
זמינות ב-Oracle Marketplace
NeuralMesh עם Augmented Memory Grid זמינה כעת לשימוש כללי עבור לקוחות WEKA וב-Oracle Marketplace, כאשר OCI היא שותפת הענן הבלעדית להשקה של WEKA. ארגונים המפעילים אינפרנס בהקשר ארוך על גבי OCI יכולים לפרוס כיום ארכיטקטורה מאומתת ומוכנה לשימוש בסביבת ייצור. למידע נוסף על מבחני הביצועים של OCI ו-WEKA עבור Augmented Memory Grid, ניתן לקרוא בבלוג של OCI: https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid.
אודות WEKA
WEKA היא חברת תשתיות נתונים וזיכרון לבינה מלאכותית, שמטרתה לשנות את כלכלת הבינה המלאכותית מבוססת הסוכנים. פלטפורמת NeuralMesh™ מאחדת בין אחסון נתונים עתיר ביצועים לבין הרחבת זיכרון GPU, ומספקת לארגונים, לספקי ענן מבוסס בינה מלאכותית ולמפתחים תשתית אחת לאימון מודלים, לאינפרנס ולעומסי עבודה מבוססי סוכנים. באמצעות Augmented Memory Grid, NeuralMesh מגדילה את קיבולת זיכרון ה-GPU פי 1000, משפרת את הזמן עד הטוקן הראשון עד פי 20, ומספקת פי 10 יותר משתמשים במקביל מאותו נפח GPU – תוצאות שהודגמו במבחני ייצור. WEKA, המשרתת בהצלחה 30% מחברות Fortune 50, מאפשרת לארגונים להרחיב מערכות בינה מלאכותית מהר יותר, למקסם את ניצול ה-GPU ולהפחית את העלות לכל טוקן. למידע נוסף בקרו בכתובת www.weka.io, או צרו איתנו קשר ב-LinkedIn וב-X.
WEKA ולוגו ה-W הם סימני מסחר רשומים של WekaIO, Inc.. שמות מסחריים אחרים המוזכרים כאן עשויים להיות סימני מסחר של בעליהם החוקיים.