طوّر باحثون من MIT ومختبر MIT-IBM Computing Research Lab مجموعة بيانات تدريبية جديدة تساعد نماذج الذكاء الاصطناعي على فهم الرسوم البيانية بدقة أعلى. وتحمل هذه المجموعة اسم ChartNet، وقد صُممت لتحسين قدرة النماذج التي تجمع بين الرؤية واللغة على تحليل الاتجاهات التجارية، وتلخيص التقارير المالية، وتفسير الأشكال العلمية المستخدمة في الأبحاث.
تُستخدم الرسوم البيانية بكثرة في الأعمال، والتمويل، والبحوث، والتقارير الحكومية، لأنها تجمع بين الشكل البصري، والأرقام، والعناوين، والشرح المكتوب في مساحة واحدة مختصرة. لكن هذا الدمج هو نفسه ما يجعل فهمها صعباً على الذكاء الاصطناعي؛ فالنموذج يحتاج إلى معرفة نوع الرسم، وقراءة التسميات، ومقارنة القيم، واكتشاف الاتجاهات، ثم شرح المعنى بلغة واضحة. ولهذا السبب، قد تقدم حتى النماذج التجارية المتقدمة إجابات ناقصة أو غير دقيقة عند مطالبتها بتلخيص رسم بياني معقد.
ما المشكلة التي تحاول ChartNet حلها؟
أنشأ الباحثون ChartNet لمعالجة فجوة مهمة في تدريب نماذج الذكاء الاصطناعي القادرة على فهم الصور والنصوص معاً. كثير من مجموعات البيانات الحالية الخاصة بفهم الرسوم البيانية صغيرة أو محدودة، وبعضها مأخوذ من الإنترنت من دون معلومات كافية عن الأرقام الأصلية أو طريقة بناء الرسم. وهذا يجعل من الصعب على النماذج أن تتعلم العلاقة الحقيقية بين الشكل البصري والبيانات الرقمية الموجودة خلفه.
تضم ChartNet أكثر من مليون صورة لرسم بياني، إلى جانب الشيفرة المستخدمة لإنشاء كل رسم، ووصف نصي، وجدول يحتوي على المعلومات الرقمية، وأسئلة وأجوبة تساعد النموذج على تعلم كيفية الإجابة عن الاستفسارات المرتبطة بالرسم. بهذه الطريقة، لا يرى النموذج الصورة فقط، بل يتعلم أيضاً الأرقام التي تقف خلفها، والوصف اللغوي الذي يشرحها، وطريقة الربط بين هذه العناصر.
لماذا فهم الرسوم البيانية مهم؟
يُعد فهم الرسوم البيانية مهماً جداً في قطاعات مثل التمويل، والاستشارات، والبحوث، وتحليل الأعمال. تعتمد الشركات على الرسوم لعرض اتجاهات الإيرادات، وحركة الأسواق، وسلوك العملاء، ومستويات المخاطر، وأداء العمليات. وإذا استطاع نظام ذكاء اصطناعي استخراج هذه المعلومات وتلخيصها بدقة، فقد يساعد الفرق على قراءة التقارير بسرعة أكبر واتخاذ قرارات أفضل بجهد يدوي أقل.
الأمر نفسه ينطبق على المجال العلمي. يستخدم الباحثون الرسوم والأشكال لعرض نتائج التجارب، والمقارنات، والاتجاهات داخل الأوراق البحثية. لذلك، فإن تحسين قدرة الذكاء الاصطناعي على فهم هذه الأشكال قد يساعد العلماء على مراجعة الدراسات، ومقارنة النتائج، واستخراج الأفكار المهمة من البيانات البصرية المعقدة بطريقة أسرع وأكثر كفاءة.
كيف بُنيت مجموعة البيانات؟
لبناء ChartNet، استخدم الباحثون طريقة توليد اصطناعية من خطوتين. في البداية، يقوم النظام بتحويل أمثلة موجودة من الرسوم البيانية إلى شيفرة قابلة للتعديل. بعد ذلك، يعدّل هذه الشيفرة بطرق متعددة، مثل تغيير نوع الرسم، والقيم، والموضوع، والألوان، والعناصر البصرية الأخرى. ومن خلال رسم واحد فقط، يمكن للنظام إنشاء نسخ كثيرة ومتنوعة، ما سمح ببناء مجموعة ضخمة تضم أكثر من مليون مثال.
أضاف الفريق أيضاً عملية فحص جودة تلقائية للتأكد من أن الرسوم المولدة واضحة ودقيقة وذات معنى. فالمشكلة في البيانات الاصطناعية ليست فقط إنتاج عدد كبير من الأمثلة، بل إنتاج أمثلة مفيدة تعلّم النماذج الأنماط الصحيحة. كما تضم ChartNet بعض البيانات التي راجعها خبراء بشريون، وهذا يمنح المجموعة مستوى إضافياً من الثقة، خصوصاً في الرسوم الأكثر تعقيداً.
نماذج مفتوحة أصغر تفوقت على نماذج تجارية أكبر
استخدم الباحثون ChartNet لتدريب عدد من النماذج المفتوحة التي تجمع بين الرؤية واللغة، بما في ذلك نماذج من سلسلة Granite Vision التابعة لـ IBM. وبعد التدريب، تمكنت كثير من هذه النماذج الأصغر من التفوق على نماذج تجارية أكبر بكثير في مهام مثل استخراج بيانات الرسم، وتلخيص الرسوم، وإعادة بناء الرسم، والإجابة عن أسئلة مرتبطة به.
هذه النتيجة مهمة لأنها توضح أن جودة بيانات التدريب قد تكون أحياناً أهم من حجم النموذج نفسه. فإذا استطاعت النماذج المفتوحة الأصغر فهم الرسوم البيانية بدقة أعلى، فقد تتمكن الشركات الصغيرة والباحثون أصحاب الميزانيات المحدودة من استخدام أدوات ذكاء اصطناعي قوية من دون الاعتماد الكامل على أنظمة تجارية باهظة التكلفة.
الخلاصة
قد تصبح ChartNet خطوة مهمة نحو جعل الذكاء الاصطناعي أكثر قدرة على قراءة الرسوم البيانية الموجودة في التقارير التجارية، والأوراق العلمية، والتحليلات المالية. وبدلاً من التعامل مع الرسم البياني كصورة عادية، تساعد هذه المجموعة النماذج على فهم العلاقة بين الشكل، والأرقام، واللغة بطريقة أعمق وأكثر تكاملاً.
كما يوضح هذا العمل اتجاهاً أوسع في الذكاء الاصطناعي: تحسين الأداء لا يعتمد فقط على بناء نماذج أكبر، بل أيضاً على تزويد النماذج ببيانات تدريبية أفضل وأكثر تنوعاً وتنظيماً. وإذا استمرت ChartNet في التوسع، فقد تجعل تحليل الرسوم البيانية أسرع، وأكثر دقة، وأسهل استخداماً في قطاعات كثيرة.