تشكيلالكليات والجامعات

ما هو كوربوس اللغويات؟

فقط منذ بضعة عقود لأتمتة البحث اللغوي، يمكن للعلماء إلا أن حلم. تم إنجاز العمل من جهة، ويجذب عددا كبيرا من الطلاب، وهناك احتمال كبير الأخطاء "الإهمال"، والأهم من ذلك - كل هذا أخذ وقت طويل.

مع تطور تكنولوجيا الحاسوب أصبح من الممكن إجراء البحوث بناء على أمر من حجم أسرع، واليوم واحدة من الاتجاهات الواعدة في دراسة اللغة هو اللسانيات الإحضار. وتتمثل الميزة الرئيسية هو استخدام كميات كبيرة من المعلومات النصية والمعلومات في قاعدة بيانات واحدة، على نحو خاص، ودعت الهيئة ملحوظ.

حتى الآن، وهناك العديد من المباني التي تم إنشاؤها لأغراض مختلفة على أساس مختلف المواد اللغوية التي تمتد من الملايين إلى عشرات المليارات من الوحدات المعجمية. ومن المسلم به هذا الاتجاه كما واعدة ويوضح تقدما كبيرا نحو غايات تطبيق والبحوث. الخبراء، بطريقة أو التعامل أخرى مع اللغة الطبيعية، فمن المستحسن للتعرف على جثة النصوص على الأقل في المستوى الأساسي.

تاريخ اللسانيات الإحضار

ويرجع ذلك إلى إنشاء الولايات المتحدة في الجسم براون في وقت مبكر 60 المنشأ من القرن الماضي تشكيل هذا الاتجاه. وتضم المجموعة نصوص جميع 1000000 من أشكال الكلمة، واليوم على جثة هذا الحجم ستكون غير قادرة على المنافسة تماما. هو يرجع إلى حد كبير إلى وتيرة تطوير تكنولوجيا الكمبيوتر، فضلا عن الطلب المتزايد على موارد جديدة للبحث هذا.

في 90s ظهرت اللسانيات الإحضار إلى الانضباط الكامل والمستقل، وقد وضعت مجموعة من النصوص حتى وضعت لعشرات اللغات. في هذه الفترة تم إنشاؤه، على سبيل المثال، كوربوس الوطني البريطاني 100 مليون الرموز.

مع تطور هذا المجال اللغويات، وحجم النص أصبحت أكثر وأكثر (وتصل إلى المليارات من وحدات القاموس)، وتخطيط أصبحت أكثر تنوعا. حتى الآن، الفضاء الإنترنت يمكن العثور على جثث المكتوبة واللغة، واللغات، والأدب الفني أو الأكاديمي الموجهة التعلم، فضلا عن العديد من الأنواع الأخرى تحدث.

ما هي السكن

ويمكن الحصول على أنواع الجسم في اللغويات الجسم لعدة أسباب. حدسي، أساسا لتصنيف يمكن أن تكون لغة النص (الروسية والألمانية)، ووضع وصول (مفتوحة المصدر، مغلقة، التجاري)، هذا النوع من المواد المصدر (الخيال، وثائقي، الأكاديمية والصحافة).

طريقة مثيرة للاهتمام تولد مواد اللغة المحكية. منذ تسجيل المتعمد لمثل هذا الخطاب لخلق بيئة اصطناعية للأفراد العينة، والمادية المترتبة لا يمكن أن يسمى "عفوية"، واللسانيات الحديثة إحضار قد ذهب في الاتجاه الآخر. وقد تم تجهيز المتطوعين مع الميكروفون، وأثناء النهار أنتجت سجل جميع المحادثات، التي تشارك فيها. الناس حولها، وبطبيعة الحال، قد لا يعرفون أن في سياق الأحاديث اليومية يساهم في تطور العلم.

تلقت في وقت لاحق سجل المخزنة في قاعدة البيانات وتكون مصحوبة المطبوعة نوع نص نص. وبالتالي، يصبح من العلامات الممكنة اللازمة لإنشاء مباني السكنية الكلام اليومي عن طريق الفم.

تطبيق

كلما كان ذلك ممكنا استخدام اللغة، وربما استخدام النصوص المباني. طرق لتطبيق الهيكل في علم اللغة قد تكون:

  • إنشاء برنامج تحديد مفتاح، ويستخدم على نطاق واسع في السياسة والأعمال لتتبع ردود الفعل الإيجابية والسلبية للناخبين والعملاء، على التوالي.
  • نظام معلومات الاتصال إلى القواميس والمترجمين لتحسين أدائها.
  • مجموعة متنوعة من المهام البحثية التي تساهم في فهم وحدة اللغة، وتاريخ تطورها والتنبؤ بالتغييرات في المستقبل القريب.
  • تطوير نظم استرجاع المعلومات استنادا إلى الميزات المورفولوجية والنحوية، الدلالية وغيرها.
  • تعظيم الاستفادة من الأنظمة اللغوية المختلفة وغيرها.

استخدام المباني

واجهة الموارد مماثلة مع محرك بحث نموذجي، ويطالب المستخدم إدخال كلمة أو مجموعة من الكلمات للبحث عن قاعدة المعلومات. وفي ما عدا الاستعلام المحدد يمكن استخدام النسخة المحسنة، والذي يسمح للعثور على المعلومات النصية على أي معايير لغوية تقريبا.

قد تكون قاعدة البحث:

  • الانتماء إلى مجموعة معينة من أجزاء الكلام.
  • الخصائص النحوية.
  • دلالات.
  • التلوين الأسلوبي والعاطفي.

يمكنك أيضا دمج معايير البحث عن سلسلة من الكلمات، على سبيل المثال، للعثور على كافة تواجدات الفعل في متوترة، أول شخص الحالي المفرد، الذي يأتي بعد حرف الجر "في" والاسم في حالة النصب. الحل لهذه المهمة بسيطة يأخذ المستخدم بضع ثوان، ويتطلب سوى بضع نقرات الماوس في مجالات محددة.

عملية إنشاء

ويمكن إجراء عملية البحث نفسها بنفسها على كل subcorpus واختيار واحد على وجه التحديد، وهذا يتوقف على الاحتياجات في تحقيق هدف معين:

  1. الخطوة الأولى هي تحديد أي النصوص تشكل الأساس لهذه القضية. لأغراض عملية، يتم استخدامه في كثير من الأحيان الصحفية، والأنباء والتعليقات على الانترنت. المشروع البحثي هو استخدام مجموعة واسعة من أنواع الحزمة، ولكن يجب أن يتم تحديد النص وفقا لبعض أرضية مشتركة.
  2. جمع ينجم عن ذلك من النصوص تعرض للالمعالجة، هناك تصحيح الأخطاء إن وجدت، من خلال الوصف الببليوجرافي وخارج اللغوي للنص على استعداد.
  3. يتم التخلص من جميع المعلومات غير النصية: مسح الرسومات والصور والجداول.
  4. هو تخصيص الرموز، التي عادة ما تكون الكلام، لمزيد من المعالجة.
  5. وأخيرا، قامت تعددية شكلية، النحوية وعلامات أخرى يتم الحصول عليها من العناصر.

ونتيجة لجميع المعاملات التي أدلى بها هيكل النحوي مع زعت فيها عدد وافر من العناصر، كل واحدة منها يتم تحديد جزء من الكلام، والنحوية، وفي بعض الحالات، سمات الدلالي.

صعوبات في خلق المباني

من المهم أن نفهم أن هذا لا يكفي لتشكيل مجموعة من الكلمات أو الجمل للجسم. من ناحية، وينبغي أن يكون عبارة عن مجموعة من النصوص متوازن، وهذا هو، تمثل أنواع مختلفة من النصوص في بعض النسب. من ناحية أخرى - يجب متباعدة محتويات العلبة بطريقة خاصة.

يتم حل المشكلة الأولى باتفاق: على سبيل المثال، في مجموعة تضم 60٪ من النصوص الأدبية، و 20٪ من الأفلام الوثائقية، وتعطى نسبة معينة لتمثيل خطية من اللغة المحكية والتشريعات والأعمال العلمية، وما إلى ذلك الكمال صفة متوازنة الهيئة اليوم لا وجود لها ...

السؤال الثاني، بشأن تخطيط المحتوى، حل التحدي. هناك برامج خاصة والخوارزميات المستخدمة لوضع العلامات التلقائي للنصوص، لكنها لا تعطي نتيجة مثالية، يمكن أن يسبب اضطرابات وتتطلب إعادة صياغة اليدوية. يتم وصف الفرص والتحديات في التعامل مع هذه المشكلة بالتفصيل في ورقة V. P. زاهاروفا اللسانيات الإحضار.

ويتم تنفيذ ترميز النص على عدة مستويات، ونحن القائمة أدناه.

علامات المورفولوجية

من المدرسة، وعلينا أن نتذكر أن في اللغة الروسية، وهناك أجزاء مختلفة من الكلام، وكل واحد منهم له خصائصه الخاصة. على سبيل المثال، الفعل لدى فئات من الميل والوقت الذي لا اسم. اللغة الأم دون تردد ينخفض الأسماء والأفعال المترافقة، ولكن للاحتفال الجسم من 100 مليون دولار. الرموز العمل اليدوي لن ينجح. ويمكن لجميع العمليات اللازمة تنفيذ الكمبيوتر، ومع ذلك، لهذا لا بد من تدريسها.

علامات المورفولوجية، الكمبيوتر يجب أن "يفهم" كل كلمة على أنها جزء معين من الخطاب وجود بعض الخصائص النحوية. منذ الروسية (وأي لغة أخرى) تعمل على عدد من القواعد العادية، فمن الممكن لبناء الإجراء التلقائي للتحليل الصرفي، والاستثمار في السيارة لعدد من الخوارزميات. ومع ذلك، هناك استثناءات لهذه القاعدة، فضلا عن العوامل المعقدة المختلفة. ونتيجة لذلك، ارتفع صافي تحليل الكمبيوتر من اليوم أبعد ما يكون عن المثالية، وينتج حتى 4 الخطأ٪ قيمة من 4 مليون. الكلمات على الجسم من 100 مليون دولار. وحدات، مما يتطلب إعادة صياغة اليدوية.

يصف كتاب مفصل المشكلة زاهاروفا V. P. "مجموعة اللغويات".

شرح النحوي

تحليل أو تحليل - الإجراء الذي يحدد العلاقة بين الكلمات في الجملة. باستخدام مجموعة من الخوارزميات من الممكن تحديد نص الموضوع، المسند، الإضافات، يتحول متعددة من الكلام. معرفة الكلمات التي هي التسلسل الرئيسي، والتي - تعتمد، يمكننا استخلاص المعلومات على نحو فعال من النص ولتعليم آلة لإصدار استجابة لطلب البحث فقط معلومات مثيرة للاهتمام لنا.

من جانب الطريق، واستخدام محركات البحث الحديثة هذه لنعطيه أرقام محددة بدلا من النصوص الطويلة ردا على الاستفسارات ذات الصلة مثل "كم عدد السعرات الحرارية في تفاحة" أو "المسافة من موسكو الى سان بطرسبرج." ومع ذلك، من أجل فهم حتى أساسيات العملية التي وصفها الحاجة إلى الرجوع إلى "مدخل إلى علم اللغة كوربوس" أو غيرها من البرنامج التعليمي الأساسي.

الترميز الدلالي

دلالات الكلمة - هو، بعبارات بسيطة، والمعنى. النهج المعمول به على نطاق واسع لتحليل الدلالي للكلمة إسناد العلامات، والتي تعكس انتمائه إلى مجموعة من الفئات الدلالية والفئات الفرعية. هذه المعلومات قيمة لتحسين خوارزميات تحليل لهجة النص، التلخيص التلقائي وغيرها من وسائل مهام اللسانيات الإحضار.

وهناك عدد من "جذور" الشجرة، وهو ما يمثل كلمة مجردة مع دلالات واسعة جدا. كما يتم تشكيل فرع من العقد شجرة، تحتوي على المزيد والمزيد من العناصر المحددة المعجمية. على سبيل المثال، فإن كلمة "مخلوق" قد تترافق مع مفاهيم مثل "الإنسان" و "الحيوان". ستستمر الكلمة الأولى لتتفرع إلى المهن المختلفة، حيث القرابة والجنسية، والثاني - على فئات وأنواع من الحيوانات.

استخدام نظم استرجاع المعلومات

مجالات استخدام اللسانيات الإحضار تغطي مجالات متنوعة من النشاط. وتستخدم العلب لإعداد وتصحيح القواميس، وخلق أنظمة الترجمة الآلية، التأشير، استرجاع الحقائق، وتحديد لهجة وغيرها من تجهيز النصوص.

وبالإضافة إلى ذلك، تستخدم هذه الموارد بنشاط في دراسة اللغات وآليات فاعلة للغة بشكل عام العالم. الحصول على كميات كبيرة من المعلومات معدة سلفا يسهل دراسة سريعة وشاملة لاتجاهات اللغات التنمية، والتغيير مستقرة الكلمات الجديدة تشكيل سرعة الكلام قيم الوحدات المعجمية وغيرها.

لأن العمل مع هذه الكميات الكبيرة من البيانات يتطلب التشغيل الآلي، واليوم هناك تفاعل وثيق بين اللغويات الحاسوبية والإحضار.

كوربوس القومي الروسي

وتشمل هذه الحالة (مختصر NKRYA) عددا من subcorpus، مما يتيح استخدام الموارد لمجموعة واسعة من المهام.

وتنقسم المواد في قاعدة البيانات NKRYA:

  • للمنشورات في 90S و 2000s في وسائل الإعلام، سواء المحلية أو الأجنبية.
  • تسجيل الكلام؛
  • aktsentologicheski تميز النصوص (أي علامات الإجهاد)؛
  • خطاب اللهجة.
  • الشعر.
  • المواد مع العلامات النحوية وغيرها.

ويتضمن نظام المعلومات أيضا Subcorpus مع ترجمة موازية من الأعمال من اللغة الروسية إلى اللغة الإنجليزية والألمانية والفرنسية والعديد من اللغات الأخرى (والعكس بالعكس).

أيضا في قاعدة البيانات هناك قسم من النصوص التاريخية، التي تمثل كلمة مكتوبة باللغة الروسية في فترات مختلفة من تطورها. وهناك أيضا هيئة التدريب، والتي يمكن أن تكون مفيدة للمواطنين الأجانب في إتقان اللغة الروسية.

يضم الروسي كوربوس الوطنية 400 مليون وحدة معجمية، وبطرق عديدة قبل جزء كبير من لغات الهيئات أوروبا.

آفاق

حقيقة لصالح الاعتراف بهذا الاتجاه هو توافر اعدة اللسانيات الإحضار المختبرات في الجامعات الروسية، فضلا عن الأجانب. مع استخدام والبحوث في إطار هذه المعلومات والبحث عن موارد ينطوي على تطوير بعض المناطق في مجال التكنولوجيات العالية، ونظم الإجابة السؤال، ولكن مناقشته أعلاه.

ومن المتوقع مزيد من التطوير اللسانيات الإحضار على جميع المستويات، بدءا من التقنية ومن حيث تنفيذ خوارزميات جديدة أن تحسين عمليات البحث ومعالجة المعلومات، وتمكين أجهزة الكمبيوتر، والمزيد من ذاكرة الوصول العشوائي، والمستهلك، لأن المستخدمين المزيد والمزيد من الطرق لاستخدام هذا النوع من الموارد في حياتهم اليومية الحياة والعمل.

وفي الختام

في منتصف القرن الماضي في عام 2017 بدا المستقبل البعيد، حيث تتحرك سفن الفضاء من خلال الكون والروبوتات القيام بكل العمل من أجل الناس. في الواقع، والعلوم مليء "البقع البيضاء" وجعل من المحاولات اليائسة للإجابة عن أسئلة البشرية لقرون إزعاج. أسئلة يعمل للغة هنا تحتل مكان الشرف، ويمكن لمجلس الوزراء واللسانيات الحاسوبية تساعدنا على الإجابة عليها.

تجهيز مجموعات البيانات الكبيرة يمكن الكشف عن الأنماط، يمكن الوصول إليها من قبل، التنبؤ تطوير ميزات اللغة محددة لمتابعة تشكيل الكلمات في الوقت الحقيقي تقريبا.

على المستوى العملي، ويمكن رؤية المرفقات العالمية، على سبيل المثال، كأداة محتملة لتقييم المزاج العام - الانترنت هو تحديثها باستمرار اليومية أساس النصوص المختلفة التي أنشأتها المستخدمين الحقيقية: هذه التعليقات واستعراض، والمقالات، وكثير من الكلام أشكال أخرى.

وبالإضافة إلى ذلك، والعمل مع الهيئات يساهم في تطوير نفس الجهاز، والتي تشارك في استرجاع المعلومات، ونحن على دراية خدمة "Google" أو "ياندكس"، والترجمة الآلية والقواميس الإلكترونية.

يمكننا التأكيد بثقة أن اللسانيات الإحضار يجعل سوى الخطوات الأولى، وفي المستقبل القريب سوف تزدهر.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ar.birmiss.com. Theme powered by WordPress.