آغاز سے انجام تک
ایک لفظ سے ایک جواب تک — AI کے اندر کیا ہوتا ہے؟
کیا AI ہر لفظ کو ایک سادہ نمبر کے طور پر دیکھتی ہے؟
نومبر ۲۰۲۲ میں جب OpenAI نے ChatGPT عام لوگوں کے لیے جاری کیا، تو پہلے ہفتے میں دس لاکھ سے زیادہ صارفین نے اسے آزمایا۔ لیکن بہت کم لوگ جانتے تھے کہ وہ جو جملہ ٹائپ کرتے ہیں، وہ پہلے ٹوکن (token — یعنی لفظ کا ٹکڑا) میں تبدیل ہوتا ہے، پھر اعداد میں، اور پھر ایک پیچیدہ ریاضی کے عمل سے گزرتا ہے۔ جب کسی صارف نے لکھا "مجھے اردو میں شعر لکھو" تو AI نے یہ جملہ لفظ بہ لفظ نہیں پڑھا — اس نے اسے اعداد کی ایک قطار کے طور پر "دیکھا"۔
ٹوکنائزیشن: پہلا قدم
جب آپ AI کو کوئی پیغام بھیجتے ہیں، تو سب سے پہلا عمل ٹوکنائزیشن (tokenization) ہوتا ہے۔ اس عمل میں آپ کا متن چھوٹے ٹکڑوں میں تقسیم ہوتا ہے جنہیں ٹوکن کہتے ہیں۔ انگریزی میں "unhappiness" تین ٹوکن بن سکتے ہیں: "un"، "happi"، "ness"۔ اردو میں بھی اسی طرح کام ہوتا ہے — ہر لفظ یا لفظ کا حصہ ایک الگ ٹوکن بن جاتا ہے۔
GPT-4 تقریباً ۱۰۰,۰۰۰ مختلف ٹوکن کو سمجھ سکتا ہے۔ ہر ٹوکن کو ایک خاص نمبر دیا جاتا ہے — جیسے "بلی" کا نمبر ۴۵۶۷ ہو سکتا ہے۔
AI متن کو براہ راست نہیں سمجھتی — وہ ہر چیز کو اعداد (numbers) میں بدل کر پھر اس پر حساب کتاب کرتی ہے۔ یہ بنیادی اصول سمجھنا ضروری ہے۔
ایمبیڈنگ: اعداد کا جادو
ٹوکن نمبر ملنے کے بعد اگلا مرحلہ ایمبیڈنگ (embedding) ہے۔ یہ وہ عمل ہے جس میں ہر ٹوکن کو ایک کثیر جہتی (multi-dimensional) ویکٹر میں بدلا جاتا ہے۔ آسان الفاظ میں، ہر لفظ کو سیکڑوں اعداد کی ایک فہرست مل جاتی ہے جو اس کا "معنی" ظاہر کرتی ہے۔
مثلاً "بادشاہ" اور "ملکہ" کی ایمبیڈنگ ایک دوسرے کے قریب ہوگی کیونکہ دونوں شاہی حیثیت رکھتے ہیں، جبکہ "میز" کی ایمبیڈنگ ان سے دور ہوگی۔ یہ فاصلہ ریاضی کے ذریعے ناپا جاتا ہے۔
انفرنس: آخری فیصلہ
ایمبیڈنگ کے بعد یہ اعداد ماڈل کی مختلف پرتوں (layers) سے گزرتے ہیں۔ ہر پرت میں ریاضی کے اربوں حسابات ہوتے ہیں۔ آخر میں ماڈل ایک نئے ٹوکن کی پیشین گوئی کرتا ہے — یہی انفرنس (inference) ہے۔ یہ عمل اتنی تیزی سے ہوتا ہے کہ آپ کو سیکنڈوں میں جواب ملتا ہے۔
- متن → ٹوکن → نمبر → ایمبیڈنگ → ماڈل کی پرتیں → نتیجہ
- ہر قدم پر ریاضی کا کام ہوتا ہے، کوئی "سوچ" نہیں
- GPT-4 کے ۱.۸ ٹریلین پیرامیٹر ہیں جو ہر جواب کو شکل دیتے ہیں
آغاز سے انجام تک
اپنی سمجھ کو جانچیں
ٹوکن کی دنیا
AI سے سیکھیں کہ وہ آپ کے الفاظ کو کیسے دیکھتی ہے
لیب کے مقاصد
اس لیب میں آپ AI کے ساتھ ٹوکنائزیشن اور ایمبیڈنگ کے عمل کو سمجھیں گے۔
- AI سے پوچھیں کہ "بلی" اور "شیر" کی ایمبیڈنگ میں کیا فرق ہوگا
- ایک اردو جملہ لکھیں اور پوچھیں کہ اسے کتنے ٹوکن میں تقسیم کیا جا سکتا ہے
- پوچھیں کہ AI کے لیے ریاضی کا جملہ اور شاعری میں کیا فرق ہے
پیشین گوئی کا کھیل
AI اگلا لفظ کیسے چنتی ہے؟ امکانات اور درجہ بندی
کیا AI کا ہر جواب ایک "شرط لگانا" ہے؟
۲۰۲۳ میں Stanford University کے محققین نے ایک تجربہ کیا: انہوں نے GPT-4 سے ایک ہی سوال سو بار پوچھا۔ ہر بار جواب تھوڑا مختلف تھا۔ وجہ؟ AI ہر بار ایک "temperature" (درجہ حرارت) نامی پیرامیٹر کے مطابق امکاناتی انتخاب کرتی ہے۔ یہ انکشاف اہم تھا: AI کوئی ریکارڈنگ نہیں چلاتی — ہر بار نیا حساب کرتی ہے۔
اگلا ٹوکن: ہزار امکانات
جب AI کوئی جملہ لکھتی ہے، تو وہ ایک وقت میں صرف ایک ٹوکن چنتی ہے۔ لیکن یہ انتخاب اندھا نہیں ہوتا — ماڈل ہر ممکن اگلے ٹوکن کا امکان حساب کرتا ہے۔ مثلاً جملہ "کراچی پاکستان کا سب سے بڑا..." کے بعد "شہر" کا امکان ۸۵٪ ہو سکتا ہے، "بندرگاہ" کا ۱۰٪، اور "میدان" کا ۵٪۔
یہ امکانات softmax نامی ریاضی کے فنکشن سے حاصل ہوتے ہیں جو ماڈل کے آخری مرحلے میں لگایا جاتا ہے۔
Logits: ماڈل کی پرتوں سے نکلنے والے خام اعداد جو softmax کے ذریعے امکانات میں بدل جاتے ہیں۔ یہ اعداد جتنے بڑے ہوں، اس ٹوکن کا امکان اتنا زیادہ۔
Temperature: تخلیقیت کا بٹن
Temperature ایک پیرامیٹر ہے جو طے کرتا ہے کہ AI کتنی "جرأتمندانہ" انتخاب کرے گی۔ Temperature = 0 پر AI ہمیشہ سب سے زیادہ امکان والا ٹوکن چنتی ہے — جواب یکساں اور قابل اعتماد ہوتا ہے۔ Temperature = 1 یا اس سے اوپر پر AI کم امکانی ٹوکن بھی چن سکتی ہے — جواب تخلیقی لیکن کبھی کبھی غیر متوقع ہوتا ہے۔
- طبی تشخیص: کم temperature (درستی ضروری)
- شاعری لکھنا: زیادہ temperature (تخلیقیت ضروری)
- کوڈ لکھنا: درمیانی temperature (توازن ضروری)
Top-k اور Top-p: انتخاب کو محدود کرنا
صرف temperature سے کام نہیں چلتا۔ Top-k sampling میں AI صرف k سب سے زیادہ امکانی ٹوکن میں سے چنتی ہے (مثلاً Top-50)۔ Top-p (nucleus sampling) میں AI ان ٹوکن میں سے چنتی ہے جن کا مجموعی امکان p سے کم ہو (مثلاً 0.9)۔ یہ طریقے بے ہودہ یا خطرناک جوابات کو روکتے ہیں۔
پیشین گوئی کا کھیل
اپنی سمجھ کو جانچیں
امکانات کی دنیا
Temperature اور پیشین گوئی کے اصولوں کو عملی طور پر سمجھیں
لیب کے مقاصد
اس لیب میں آپ AI سے یہ سمجھیں گے کہ وہ اگلے لفظ کا انتخاب کیسے کرتی ہے۔
- AI سے پوچھیں: "لاہور پاکستان کا..." کے بعد کون سے الفاظ آ سکتے ہیں؟
- پوچھیں کہ temperature کم ہو تو شاعری کیسی لگتی ہے
- دریافت کریں کہ Top-k اور Top-p میں عملی فرق کیا ہے
جب منطق ٹوٹ جائے
ہیلوسینیشن، تعصب، اور AI کی غلطیوں کی اصل وجہ
AI غلط معلومات خود بخود کیوں بنا لیتی ہے؟
مئی ۲۰۲۳ میں نیویارک کے وکیل Steven Schwartz نے ChatGPT کی مدد سے عدالتی دستاویزات تیار کیں۔ AI نے ایسے عدالتی فیصلوں کا حوالہ دیا جو سرے سے وجود ہی نہیں رکھتے تھے۔ فیڈرل کورٹ میں جب ان فیصلوں کو ڈھونڈا گیا تو پتا چلا کہ AI نے یہ سب "ایجاد" کیا تھا۔ وکیل پر جرمانہ عائد ہوا اور معاملہ میڈیا کی سرخیوں میں آیا۔ یہ ہیلوسینیشن (hallucination) کا ایک مشہور ترین واقعہ ہے۔
ہیلوسینیشن: اعتماد سے غلطی
ہیلوسینیشن (hallucination) وہ صورتحال ہے جب AI پوری یقین داری سے غلط معلومات فراہم کرتی ہے۔ یہ جھوٹ بولنا نہیں — AI کو خود نہیں معلوم کہ وہ غلطی کر رہی ہے۔ وجہ یہ ہے کہ AI کا کام "سچائی" جاننا نہیں بلکہ "ممکنہ اگلا ٹوکن" چننا ہے۔
اگر تربیتی ڈیٹا میں کوئی خلا ہو یا سوال بہت مخصوص ہو، تو AI بجائے "مجھے نہیں معلوم" کہنے کے، ایک "معقول لگنے والا" غلط جواب بناتی ہے۔
Google کے Bard نے ۲۰۲۳ کے پہلے مظاہرے میں James Webb Telescope کے بارے میں غلط معلومات دیں — Alphabet کا حصص ۱۰۰ ارب ڈالر سے زیادہ گر گیا۔ AI کی ایک غلطی کا مالی نقصان تباہ کن ہو سکتا ہے۔
تعصب: تربیت کا سایہ
AI کا تعصب (bias) اس کی تربیت کے ڈیٹا سے آتا ہے۔ اگر تربیتی ڈیٹا میں زیادہ انگریزی مواد ہو، تو AI انگریزی سوچ کے مطابق جواب دے گی۔ اگر ڈیٹا میں صنفی یا نسلی تعصب ہو، تو AI وہی تعصب دہرائے گی۔
MIT کے محققین نے ۲۰۲۴ میں ثابت کیا کہ کئی بڑے ماڈل ڈاکٹر کا تصور بناتے وقت مرد اور نرس کا تصور بناتے وقت عورت کو ترجیح دیتے ہیں — یہ تعصب تربیتی ڈیٹا کا عکس ہے۔
- ڈیٹا تعصب: غیر متوازن تربیتی مواد
- الگورتھمی تعصب: ماڈل کی ساخت میں تعصب
- تصدیقی تعصب: AI ان جوابات کو ترجیح دیتی ہے جو زیادہ عام ہیں
جب منطق ٹوٹ جائے
اپنی سمجھ کو جانچیں
غلطیوں کی تحقیق
ہیلوسینیشن اور تعصب کو پہچاننے کی مشق کریں
لیب کے مقاصد
اس لیب میں آپ AI سے ہیلوسینیشن اور تعصب کے بارے میں گہری گفتگو کریں گے۔
- AI سے پوچھیں کہ وہ کب "مجھے نہیں معلوم" کہتی ہے اور کب نہیں
- AI سے ایک ایسا سوال پوچھیں جس کا جواب آپ خود بھی جانتے ہوں تاکہ درستی جانچ سکیں
- دریافت کریں کہ AI اپنی غلطیوں کو کیسے پہچانتی ہے
یادداشت اور سیاق
Context window — AI کی قلیل المدتی یادداشت کی حدود
کیا AI واقعی پچھلی گفتگو یاد رکھتی ہے؟
۲۰۲۳ میں Anthropic نے Claude کا context window ایک لاکھ ٹوکن تک بڑھایا — جو تقریباً ایک پوری کتاب کے برابر ہے۔ اس سے قبل GPT-3.5 صرف ۴۰۰۰ ٹوکن تک سیاق (context) یاد رکھ سکتا تھا۔ صارفین نے پایا کہ context window بڑھنے سے AI لمبی قانونی دستاویزات اور تحقیقی مقالوں کا بہتر تجزیہ کر سکتی ہے۔ لیکن اس کے ساتھ ساتھ لاگت اور کمپیوٹنگ طاقت کی ضرورت بھی بڑھ گئی۔
Context Window کیا ہے؟
Context window وہ "کھڑکی" ہے جس میں AI اپنی گفتگو دیکھ سکتی ہے۔ اس سے باہر کی کوئی بات AI کو یاد نہیں رہتی۔ جب آپ ChatGPT سے بات کرتے ہیں، تو پوری گفتگو ہر بار ماڈل کو بھیجی جاتی ہے — AI "یاد" نہیں رکھتی، بلکہ ہر بار سب کچھ "دوبارہ پڑھتی" ہے۔
مثلاً اگر context window ۸۰۰۰ ٹوکن کی ہے اور آپ کی گفتگو اس سے لمبی ہو جائے، تو پرانی باتیں خود بخود "بھول" جاتی ہیں۔
انسانی دماغ کی قلیل المدتی یادداشت میں تقریباً ۷ چیزیں ایک وقت میں رہ سکتی ہیں۔ AI کا context window لاکھوں ٹوکن تک پہنچ سکتا ہے — لیکن یہ ابھی تک "حقیقی یادداشت" نہیں ہے۔
یادداشت کی اقسام
AI ماڈل میں بنیادی طور پر تین قسم کی "یادداشت" ہوتی ہے:
- In-context memory: موجودہ گفتگو جو context window میں ہے
- Parametric memory: تربیت کے دوران ماڈل کے وزن (weights) میں محفوظ علم
- External memory: RAG (Retrieval Augmented Generation) جیسے نظاموں کے ذریعے بیرونی ڈیٹا بیس سے معلومات
زیادہ تر صارفین صرف in-context memory کے ساتھ کام کرتے ہیں — یہی وجہ ہے کہ ہر نئی گفتگو میں AI کو دوبارہ سیاق دینا پڑتا ہے۔
Lost in the Middle: ایک بڑا مسئلہ
Stanford کی ۲۰۲۳ کی تحقیق نے ثابت کیا کہ بڑے context window کے باوجود AI درمیانی معلومات کو اکثر نظرانداز کر دیتی ہے۔ ابتدا اور اختتام کی معلومات کو وہ زیادہ توجہ دیتی ہے۔ اسے "Lost in the Middle" مسئلہ کہتے ہیں۔ اس لیے اہم معلومات کو prompt کے آغاز یا اختتام میں رکھنا زیادہ مفید ہوتا ہے۔
یادداشت اور سیاق
اپنی سمجھ کو جانچیں
یادداشت کی حدود
Context window اور AI کی یادداشت کو عملی طور پر جانچیں
لیب کے مقاصد
اس لیب میں آپ AI کی یادداشت اور سیاق کے بارے میں تجربہ کریں گے۔
- گفتگو کے شروع میں ایک بات بتائیں، پھر کچھ اور سوالات کے بعد پوچھیں کہ کیا AI اسے یاد رکھ رہی ہے
- AI سے پوچھیں کہ RAG کیا ہے اور یہ context window سے کیسے مختلف ہے
- پوچھیں کہ AI کی "یادداشت" انسانی یادداشت سے کیسے مختلف ہے
توجہ اور ٹرانسفارمر
وہ انقلابی ساخت جس نے جدید AI کو ممکن بنایا
کیا AI ہر لفظ پر برابر توجہ دیتی ہے؟
۲۰۱۷ میں Google کے محققین نے "Attention Is All You Need" کے نام سے ایک مقالہ شائع کیا۔ اس مقالے نے Transformer architecture متعارف کرائی جو آج GPT، Claude، Gemini، اور تقریباً ہر بڑے AI ماڈل کی بنیاد ہے۔ اس سے پہلے RNN (Recurrent Neural Network) استعمال ہوتا تھا جو لمبے جملوں میں ابتدائی معلومات "بھول" جاتا تھا۔ Transformer نے یہ مسئلہ "self-attention" کے ذریعے حل کیا۔
Self-Attention: توجہ کا طریقہ
Self-attention وہ طریقہ کار ہے جس کے ذریعے ماڈل کا ہر ٹوکن دوسرے تمام ٹوکن کو دیکھتا ہے اور فیصلہ کرتا ہے کہ کسے زیادہ اہمیت دینی ہے۔ مثلاً جملے میں "علی نے اپنی کتاب رکھ دی" میں "اپنی" کا تعلق "علی" سے ہے — self-attention اس رشتے کو پکڑتی ہے۔
ریاضی میں یہ تین میٹرکس سے کام کرتی ہے: Query (Q)، Key (K)، اور Value (V)۔ Q اور K کا ضرب لے کر نرمالائز کیا جاتا ہے، پھر اس سے ہر ٹوکن کی V کو وزن دیا جاتا ہے۔
Attention(Q,K,V) = softmax(QKᵀ / √dₖ) × V — یہ وہ بنیادی فارمولہ ہے جو ہر Transformer layer میں چلتا ہے۔
Multi-Head Attention: کثیر زاویہ
ایک attention head ایک ہی زاویے سے تعلقات دیکھتی ہے۔ Multi-head attention میں ایک ساتھ کئی attention heads کام کرتی ہیں — ہر ایک مختلف قسم کے تعلقات کو پکڑتی ہے۔ ایک head لفظوں کے گرامر کے تعلقات دیکھ سکتی ہے، دوسری معنوی تعلقات، اور تیسری ترتیب کے تعلقات۔
GPT-3 میں ۹۶ attention heads ہیں جو ایک ساتھ کام کرتی ہیں — یہی اس کی زبان سمجھنے کی طاقت کا راز ہے۔
- Feed-Forward layers: ہر ٹوکن کی معلومات کو مزید پروسیس کرتی ہیں
- Layer Normalization: ہر پرت کے بعد اعداد کو مستحکم رکھتی ہے
- Residual connections: گہری layers میں معلومات کا بہاؤ برقرار رکھتی ہیں
توجہ اور ٹرانسفارمر
اپنی سمجھ کو جانچیں
ٹرانسفارمر کی تلاش
Self-attention اور Transformer کو عملی مثالوں سے سمجھیں
لیب کے مقاصد
اس لیب میں آپ Transformer architecture اور self-attention کو گہرائی سے سمجھیں گے۔
- AI سے پوچھیں کہ "علی نے اپنی کتاب رکھی" میں "اپنی" کا تعلق کس لفظ سے ہے اور self-attention اسے کیسے پکڑتی ہے
- دریافت کریں کہ RNN اور Transformer میں بنیادی فرق کیا تھا
- پوچھیں کہ positional encoding کیوں ضروری ہے
ایجنٹ اور اوزار
جب AI صرف جواب نہیں دیتی — وہ کام بھی کرتی ہے
کیا AI اپنے فیصلے خود کر کے دنیا میں کچھ تبدیل کر سکتی ہے؟
۲۰۲۴ میں Devin نامی AI کوڈنگ ایجنٹ Cognition AI نے جاری کیا جس نے دعوی کیا کہ یہ خود بخود سافٹ ویئر انجینئرنگ کے کام مکمل کر سکتا ہے — bug ٹھیک کرنا، نیا کوڈ لکھنا، اور GitHub پر pull request جمع کرنا۔ آزادانہ جانچ پڑتال نے ابتدائی دعوؤں کو چیلنج کیا، لیکن اس نے AI agent کے میدان میں ایک نئی بحث چھیڑ دی: کیا AI انسانی نگرانی کے بغیر پیچیدہ کام کر سکتی ہے؟
AI Agent کیا ہے؟
AI agent وہ نظام ہے جو صرف جواب دینے تک محدود نہیں — وہ اپنے ماحول میں کام بھی کر سکتا ہے۔ ایک عام chatbot سوال کا جواب دیتا ہے۔ ایک agent مختلف "اوزار" (tools) استعمال کرتا ہے: ویب سرچ کرنا، فائلیں پڑھنا، کوڈ چلانا، یا API calls کرنا۔
Agent کا بنیادی سائیکل تین مراحل پر مشتمل ہے: Observe (دیکھنا) → Plan (منصوبہ بنانا) → Act (عمل کرنا) → Observe again (دوبارہ دیکھنا)۔
ReAct (Reasoning + Acting) وہ طریقہ ہے جس میں AI پہلے سوچتی ہے (reasoning)، پھر کوئی عمل کرتی ہے (action)، نتیجہ دیکھتی ہے (observation)، اور یہ سلسلہ مقصد حاصل ہونے تک جاری رہتا ہے۔
Tool Use: اوزار کا استعمال
ماڈل کو "function calling" کی صلاحیت دی جاتی ہے جس سے وہ بیرونی اوزار استعمال کر سکتا ہے۔ مثلاً اگر آپ ChatGPT سے موجودہ موسم پوچھیں اور اسے weather API کا اوزار دیا گیا ہو، تو وہ:
- یہ طے کرے گا کہ weather API call کی ضرورت ہے
- مناسب پیرامیٹر کے ساتھ API call کرے گا
- نتیجہ واپس ملنے پر اسے اپنے جواب میں شامل کرے گا
OpenAI Assistants API، LangChain، اور AutoGPT اسی اصول پر کام کرتے ہیں۔ لیکن agents کے ساتھ بڑا خطرہ یہ ہے کہ ایک غلط قدم کئی غلطیوں کو جنم دے سکتا ہے — "agentic loops" بھی ہو سکتے ہیں جہاں AI بے کار سائیکل میں پھنس جائے۔
ایجنٹ اور اوزار
اپنی سمجھ کو جانچیں
ایجنٹ کی دنیا
AI agents اور tool use کو تجربے سے سمجھیں
لیب کے مقاصد
اس لیب میں آپ AI agents کے امکانات اور حدود پر گفتگو کریں گے۔
- AI سے ایک ایسا کام کرنے کو کہیں جو اسے مرحلہ وار سوچنے پر مجبور کرے
- دریافت کریں کہ کن اوزاروں کا استعمال AI کو سب سے زیادہ طاقتور بناتا ہے
- پوچھیں کہ AI agent کے استعمال میں کیا خطرات ہو سکتے ہیں
کثیر حواسی AI
متن سے آگے — تصویر، آواز، اور ویڈیو کا ادراک
کیا AI دیکھ، سن، اور پڑھ کر ایک ساتھ سمجھ سکتی ہے؟
مارچ ۲۰۲۴ میں Google نے Gemini 1.5 Pro جاری کیا جو ایک گھنٹے کی ویڈیو، ۱۱ گھنٹے کی آڈیو، یا ۳۰,۰۰۰ سے زیادہ کوڈ لائنیں ایک ساتھ پروسیس کر سکتا ہے۔ ایک مشہور مظاہرے میں محقق نے ایک ۴۰۲ صفحات کی Apollo 11 تکنیکی دستاویز ماڈل کو دی اور پوچھا: "مجھے مضحکہ خیز لمحات تلاش کرو" — ماڈل نے چند سیکنڈ میں مخصوص صفحہ نمبر کے ساتھ جواب دیا۔
Multimodal AI کیا ہے؟
Multimodal AI (کثیر حواسی AI) وہ نظام ہے جو ایک سے زیادہ قسم کے ڈیٹا کو سمجھ اور پروسیس کر سکتا ہے — متن، تصویر، آواز، اور ویڈیو۔ اس سے پہلے، الگ الگ ماڈل ہوتے تھے: ایک تصویر کے لیے، ایک آواز کے لیے، ایک متن کے لیے۔ اب ایک ہی ماڈل یہ سب کر سکتا ہے۔
GPT-4V (Vision)، Claude 3، اور Gemini سب multimodal ہیں۔
تصویر کو سمجھنے کے لیے ایک vision encoder استعمال ہوتا ہے جو تصویر کو ٹوکن میں بدلتا ہے، پھر یہ ٹوکن متن کے ٹوکن کے ساتھ مل کر Transformer میں داخل ہوتے ہیں۔
Speech اور Audio: آواز کی AI
OpenAI کا Whisper ماڈل آواز کو متن میں بدلتا ہے (speech-to-text) اور ۹۰ سے زیادہ زبانوں کو سمجھتا ہے۔ یہ اردو بھی سمجھتا ہے۔ GPT-4o نے یہ حد مزید توڑی — اب وہ براہ راست آواز میں بول سکتا ہے بغیر speech-to-text اور text-to-speech کے الگ مراحل کے۔
- Speech-to-Text: آواز → متن (Whisper)
- Text-to-Speech: متن → آواز (ElevenLabs، OpenAI TTS)
- Audio Understanding: آواز کے جذبات اور لہجے کو سمجھنا
- Image Generation: DALL-E، Midjourney، Stable Diffusion
چیلنجز اور حدود
Multimodal AI کے ساتھ نئے چیلنجز بھی آئے۔ تصویری ہیلوسینیشن میں AI تصویر میں ایسی چیزیں "دیکھتی" ہے جو موجود نہیں۔ Deepfake کا مسئلہ بھی بڑا ہے — AI ایسی ویڈیو بنا سکتی ہے جس میں کوئی شخص کچھ کہتا نظر آتا ہے جو اس نے کبھی نہیں کہا۔ اس لیے multimodal AI کے ذمہ دارانہ استعمال کے لیے سخت رہنمائی اصول ضروری ہیں۔
کثیر حواسی AI
اپنی سمجھ کو جانچیں
کثیر حواسی دریافت
Multimodal AI کی صلاحیتوں اور حدود کو جانچیں
لیب کے مقاصد
اس لیب میں آپ AI سے multimodal صلاحیتوں کے بارے میں گہری گفتگو کریں گے۔
- AI سے پوچھیں کہ Vision Encoder تصویر کو ٹوکن میں کیسے بدلتا ہے
- دریافت کریں کہ پاکستانی زبانوں کے لیے speech-to-text کتنی بہتر ہے
- Deepfake کے سماجی اثرات کے بارے میں AI کی رائے لیں
سیاہ خانے کے اندر
Interpretability — AI کے فیصلوں کو سمجھنے کی کوشش
کیا ہم کبھی جان سکتے ہیں کہ AI نے ایسا کیوں کہا؟
مئی ۲۰۲۴ میں Anthropic نے Mechanistic Interpretability پر ایک اہم تحقیق شائع کی۔ محققین نے Claude کے اندر ایسے "features" دریافت کیے جو مخصوص تصورات کو ظاہر کرتے ہیں — جیسے ایک feature صرف Golden Gate Bridge کے ذکر پر فعال ہوتا تھا۔ پھر ایک تجربے میں اس feature کو مصنوعی طور پر بڑھا دیا گیا تو Claude خود کو Golden Gate Bridge سمجھنے لگا! یہ تحقیق ثابت کرتی ہے کہ AI کے اندر مخصوص تصورات کسی نہ کسی شکل میں موجود ہیں۔
سیاہ خانہ کیا ہے؟
AI ماڈل کو اکثر "black box" (سیاہ خانہ) کہا جاتا ہے — آپ ان پٹ ڈالتے ہیں، آؤٹ پٹ ملتا ہے، لیکن درمیان میں کیا ہوا یہ واضح نہیں ہوتا۔ GPT-4 میں ۱.۸ ٹریلین پیرامیٹر ہیں — ان سب کو سمجھنا ناممکن کے قریب ہے۔ Interpretability اس سیاہ خانے کے اندر جھانکنے کی کوشش ہے۔
اگر ہم نہیں جانتے کہ AI کیوں فیصلہ کرتی ہے، تو ہم اس پر بھروسہ کیسے کریں؟ طبی تشخیص، قانونی فیصلے، مالی سرمایہ کاری — ان سب میں فیصلے کی وجہ جاننا ضروری ہے۔
Interpretability کے طریقے
محققین نے AI کو سمجھنے کے کئی طریقے تیار کیے ہیں:
- Attention visualization: یہ دیکھنا کہ ماڈل کس لفظ پر سب سے زیادہ توجہ دے رہا ہے
- Probing classifiers: ماڈل کی مختلف پرتوں میں چھپی معلومات کو نکالنا
- Activation patching: مخصوص neurons کو بند یا کھول کر رویے میں تبدیلی دیکھنا
- Mechanistic interpretability: Anthropic اور others کا approach — circuits اور features ڈھونڈنا
LIME (Local Interpretable Model-Agnostic Explanations) اور SHAP جیسے اوزار ماڈل کے فیصلوں کی وجہ بتاتے ہیں۔ مثلاً کریڈٹ کارڈ کمپنی جاننا چاہتی ہے کہ AI نے قرض کیوں منظور یا مسترد کیا۔
مستقبل: قابل وضاحت AI
EU کا AI Act تقاضا کرتا ہے کہ "اعلی خطرے" کی AI نظاموں کے فیصلے قابل وضاحت ہوں۔ یہ قانونی دباؤ interpretability تحقیق کو تیز کر رہا ہے۔ Anthropic، Google DeepMind، اور MIT کے محققین اس میدان میں سب سے آگے ہیں۔ مقصد یہ ہے کہ ہم AI کے فیصلوں پر نہ صرف بھروسہ کر سکیں بلکہ ان کی وجہ بھی جان سکیں۔
سیاہ خانے کے اندر
اپنی سمجھ کو جانچیں
شفافیت کی تلاش
AI کی تشریح پذیری اور فیصلوں کی وجوہات کو دریافت کریں
لیب کے مقاصد
اس لیب میں آپ AI سے اس کے اپنے فیصلوں کی وضاحت مانگیں گے۔
- AI سے پوچھیں کہ اس نے کسی خاص جواب میں کیوں وہ الفاظ چنے
- دریافت کریں کہ کیا AI اپنے فیصلوں کی وجہ واقعی جانتی ہے یا بعد میں وضاحت بناتی ہے
- پوچھیں کہ interpretability تحقیق AI کو محفوظ بنانے میں کیسے مدد کرتی ہے
📋 ماڈیول ٹیسٹ
ماڈیول ۷ — AI کیسے سوچتی ہے: تمام ۱۵ سوالات