شاهد ايضاً

بينترست تختبر ميزة ذكاء اصطناعي لتحويل كتالوجات المنتجات إلى كولاجات قابلة للشراء

أعلنت منصة Pinterest هذا الأسبوع عن بدء اختبار ميزة جديدة تعتمد على الذكاء الاصطناعي تُعرف باسم "الكولاج التلقائي - Auto-Collages"، والتي تتيح للمعلنين تحويل كتالوجات منتجاتهم تلقائيًا إلى كولاجات مرئية قابلة للتسوق.

OpenAI تطلق o3-pro: أقوى نموذج ذكاء اصطناعي للاستدلال حتى الآن

أعلنت شركة OpenAI عن إطلاق نموذج o3-pro، وهو نسخة محسّنة من نموذج الذكاء الاصطناعي o3 الذي تم الكشف عنه في وقت سابق من هذا العام. وتصف الشركة النموذج الجديد بأنه الأكثر تقدمًا حتى الآن، مع تحسينات كبيرة في قدرات الاستدلال والفهم العميق.

يوتيوب يدعم الاقتصاد الأمريكي بـ55 مليار دولار

كشفت منصة يوتيوب "YouTube" في تقرير جديد صدر يوم الثلاثاء عن التأثير الاقتصادي الكبير الذي أصبح يتمتع به اقتصاد صناع المحتوى، حيث أظهرت البيانات أن النظام الإبداعي ليوتيوب ساهم بأكثر من 55 مليار دولار في الناتج المحلي الإجمالي للولايات المتحدة خلال عام 2024، كما دعم أكثر من 490 ألف وظيفة بدوام كامل، وفقًا لتحليل أجرته مؤسسة Oxford Economics.

تأجيل إطلاق نموذج OpenAI المفتوح حتى نهاية الصيف

أعلن سام ألتمان، الرئيس التنفيذي لشركة OpenAI، عن تأجيل إصدار أول نموذج مفتوح من OpenAI منذ سنوات، مشيرًا إلى أن الإصدار لن يتم في يونيو كما كان مخططًا، بل سيتم إطلاقه في وقت لاحق من هذا الصيف. جاء ذلك عبر منشور على منصة X (تويتر سابقًا)، حيث أوضح أن التأخير يعود إلى تطورات غير متوقعة في فريق الأبحاث.

“OpenAI” تؤكد على عطل في شات جي بي تي ونموذج Sora

أعلنت شركة OpenAI عن حدوث عطل تقني في خدماتها، بما في ذلك روبوت الدردشة ChatGPT ونموذج Sora لتوليد مقاطع الفيديو، مما أثر على تجربة المستخدمين حول العالم.

شركة OpenAI تنسخ أكثر من مليون ساعة من YouTube لتدريب GPT-4

كشف تقرير نُشر في صحيفة نيويورك تايمز عن الجهود التي بذلتها الشركات الرائدة في مجال الذكاء الاصطناعي لتوسيع نطاق وصولها إلى بيانات التدريب.

في بداية هذا الأسبوع، أفادت صحيفة وول ستريت جورنال بأن شركات الذكاء الاصطناعي تواجه تحديًا في جمع بيانات التدريب عالية الجودة. وفي هذا السياق، ذكرت نيويورك تايمز بعض الإجراءات التي اتخذتها هذه الشركات لمواجهة هذه المشكلة. وكما هو متوقع، تتضمن هذه الإجراءات أفعالًا تتحرك في منطقة غير محددة بوضوح في قوانين حقوق النشر في مجال الذكاء الاصطناعي.

تبدأ القصة بشركة OpenAI التي، بحاجة ماسة للبيانات التدريبية، قامت بتطوير نموذجها Whisper لتحويل الصوت إلى نص لتجاوز هذه العقبة، وذلك عبر نسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4، أحدث نموذج لغوي كبير وأكثر تطورًا لديها. ووفقًا لتقرير نيويورك تايمز، كانت الشركة على علم بأن هذا الإجراء قد يتعارض مع القوانين، لكنها اعتبرت أنه استخدام مقبول قانونيًا. وكان الرئيس التنفيذي لـ OpenAI جريج بروكمان شخصيًا مشاركًا في جمع الفيديوهات المستخدمة في التدريب، حسبما ذكرت نيويورك تايمز.

صرح متحدث باسم OpenAI لموقع The Verge عبر البريد الإلكتروني بأن الشركة تجمع بيانات “فريدة” لكل نموذج لها بهدف “تعزيز فهمها للعالم” والحفاظ على تنافسيتها العالمية في مجال البحث. وأضاف أن الشركة تعتمد على “مصادر متنوعة تشمل البيانات المتاحة علنًا والشراكات للبيانات غير العلنية”، وأنها تدرس إنشاء بيانات تركيبية خاصة بها.

- -

وأفادت نيويورك تايمز بأن OpenAI استنفدت مصادر البيانات المفيدة في عام 2021، وبدأت بالنقاش حول نقل مقاطع فيديو YouTube والبودكاست والكتب الصوتية بعد استنفاد الموارد الأخرى. وكانت الشركة قد قامت بتدريب نماذجها باستخدام بيانات تتضمن الكود الحاسوبي من موقع Github، وقواعد الشطرنج، ومحتوى الدروس من Quizlet.

وفي سياق متصل، صرح متحدث باسم جوجل، مات برايانت، لموقع The Verge ايضاً عبر البريد الإلكتروني بأن الشركة “لاحظت تقارير غير مؤكدة” عن نشاط OpenAI، مشيرًا إلى أن “كل من ملفات robots.txt الخاصة بنا وشروط الخدمة تمنعان الاسترداد أو التنزيل غير المصرح به لمحتوى YouTube”، مؤكدًا موقف الشركة. وأشار إلى أن جوجل جمع أيضًا نصوصًا من YouTube وقام بتدريب نماذجه “على بعض محتوى YouTube، وفقًا لاتفاقياتنا مع مبدعي YouTube”.

كما أشارت نيويورك تايمز إلى أن قسم القانون في جوجل طلب من فريق الخصوصية للشركة تعديل لغة سياستها لتوسيع مجال استخدام بيانات المستخدمين، مثل أدوات المكتب مثل Google Docs، حيث تم إطلاق السياسة الجديدة بشكل متعمد في الأول من يوليو للاستفادة من التشتت الناجم عن عطلة عيد الاستقلال.

وبشكل مشابه، واجهت ميتا تحديات في توفر بيانات التدريب عالية الجودة، وفي تسجيلات استمعت إليها نيويورك تايمز، ناقش فريق الذكاء الاصطناعي لديها استخدام الأعمال المحمية بحقوق النشر دون إذن أثناء العمل على اللحاق بـ OpenAI. وبعد استكمال “تقريبًا كل كتاب ومقال وقصيدة وخبر باللغة الإنجليزية المتاحة على الإنترنت”، نظرت الشركة في اتخاذ خطوات مثل دفع تكاليف تراخيص الكتب أو حتى شراء ناشر كبير. وكانت محدودة أيضًا في طرق استخدام بيانات المستخدمين بسبب التغييرات التي أدخلتها في سياستها التي تركز على الخصوصية بعد فضيحة كامبريدج أناليتيكا.

وبشكل عام، تتصارع Google، OpenAI، وعالم تدريب الذكاء الاصطناعي بأسره مع ضياع بيانات التدريب بسرعة من نماذجهم، التي تتحسن كلما استوعبت المزيد من البيانات. وكتبت صحيفة وول ستريت هذا الأسبوع بأن الشركات قد تفوق على المحتوى الجديد بحلول عام 2028.

وتشمل الحلول المحتملة لهذه المشكلة التي ذكرتها الصحيفة يوم الاثنين تدريب النماذج على بيانات “تركيبية” تم إنشاؤها بواسطة نماذجهم الخاصة أو ما يُعرف بـ “تعلم المنهج”، الذي يتضمن تغذية النماذج ببيانات عالية الجودة بطريقة مرتبة على أمل أن يتمكنوا من استخدام “روابط أكثر ذكاءً بين المفاهيم” باستخدام معلومات أقل بكثير، ولكن لا توجد دراسات مؤكدة حتى الآن تثبت فعالية أي من النهجين. ومع ذلك، فإن الخيار الآخر للشركات هو استخدام أي شيء يمكنها العثور عليه، سواء كان لديها إذن أو لا، وبناءً على عدة دعاوى قضائية تم رفعها خلال العام الماضي أو نحو ذلك، يمكن القول إن هذه الطريقة، على سبيل المثال، هي أكثر من مجرد محفوفة بالمخاطر.