Өнгөрсөн зууны 80-аад оны үед хувь хэрэглээний тооцоолуур (персонал компьютер) нийтийг хамарсан давамгай хэрэглээ болсон, 90-ээд оны үед дэлхийн мэдээн сүлжээ (интернет) мөн тийм хэрэглээ болсон зэрэг нь мэдээлэл цуглуулах, боловсруулах ажлын хэлбэрийг төдийгүй мөн чанар-утгыг өөрчилж чадсан юм. Өөрөөр хэлбэл, 60-аад оны үеэс эхлэсэн хэлний мэдээ-баримтыг их хэмжээгээр бөөгнүүлэн судалгааны эргэлтэнд оруулах ажил нь энэ чиглэлийн эрдэм судалгааны ажил чанарын өөр түвшинд хийгдэж байх эхлэлийг тавьсан байна.
Уламжлалт хэл шинжлэлийн нэг сургамж: -хичнээн их баримт жишээ цуглуулна, төдий чинээ илүү үнэнд дөхүү дүгнэлт гаргаж болно гэдэг баримтлал одоо ч оршсоор байгаа бөгөөд хэл шинжлэлийн нэлээд олон салбарт, шинэ хэл аялгуу судалж түүний дүрэм, үгсийн санг тодорхойлох, бичиг үсэгтэй болгох, нутгийн аялгуу, мэргэжлийн дэд хэл, этгээд хэллэг судлах, түүхэн дурсгал, мартагдсан хэл судлах зэрэг олон зүйл шинжлэн судлах ажилд өнөө хэр хамгийн гол нь судалгааны хүртээмжтэй материалыг цуглуулан бүрдүүлэхэд оршдог.
Хэлний мэдээний ийм томоохон сан байгуулсан тодорхой жишээ нь 1960 оноос боловсруулан хэрэгжүүлж эхлэсэн нэг сая үгийн хэрэглээгээр бичгийн болон аман ярианы текстээр бүрдүүлсэн (үүний дотор аман яриаг төлөөлж бичгээр 100, яриагаар 100 бичлэг бүрдүүлсэн) Лондон-Лундийн эх сурвалжийн сан юм. Энэ сангийн машинан хувилбарыг 1979 онд нийтэд зарлан хэрэглээнд шилжүүлсэн ба 1985 онд уг санг ашиглан Англи хэлний бүрэн хэлзүйг бүтээсэн байдаг.
АНУ-д Брауновын их сургуульд анхлан америкжсан англи хэлний эх бичгийн сан байгуулсан бөгөөд тус бүрдээ 2000 үг бүхий 500 текстийг буюу нийт нэг сая үгийн хэрэглээг хамарсан сурвалжийн санг 1962-1963 онд У.Фрэнсисийн удирдлагаар хийсэн байна. Уг санд 1961 оноос хойшх үеийн текстийг чухал гэж тооцсон 15 төрөл зүйл-жанраар цуглуулсны дотор сонин хэвлэлийн хэлний зэрэгцээ шашны болон шинжлэх ухааны өгүүлэл статъя, уран зохиолын төрлүүд ч орсон. Энэ санг 1980 онд шинэчлэсэн тул одоо үеийнхээ төрхийг олжээ. Яг үүний харалдаа англи хэлний британи хувилбарыг мөн үеийн текстүүдээр нөхөн цуглуулж мөнөөх л тоо, төрөлийн жанртайгаар хожим байгуулсныг Ланкастер-Осло-Бергений корпус гэдэг ажээ. Энэ сангийн товч тайлбартай хувилбарыг 1985 онд нийтэд ашиглуулахаар нээсэн байна.
Өнгөрсөн зууны 60-аад оны үед байгуулсан дээрх сурвалж бичгийн сангууд нь:
эх сурвалжаар их өгөгдөл цуглуулах болсон, улмаар хэлний материалд их системийн үүднээс их өгөгдлийн боловсруулалт хийдэг хэлшинжлэлийн салбар шинжлэх ухааны чиглэлийн суурийг тавьсан байна. Их Британи, АНУ-д байгуулсан сурвалж бичгийн санд тулгуурлан хийсэн харьцуулсан болон бусад төрлийн судалгааны далайц нь бусад орнууд ч эх хэлнийхээ баримтын санг бүрдүүлэх, судлах ажилд шамдахад хүргэн нэн удалгүй Герман, Франц улсад энэ талын ажил эхлэсэн байна.
Өнөөдөр хэлний мэдээг их хэмжээгээр хураан судалгааны зориулалтаар зориуд шүүн бөөгнөрүүлж боловсруулалт хийснээр хэлний судалгаа нь: - мэдлэгийн технолог болон хиймэл оюуны судалгаатай салашгүй холбоотой, өдөр дутам арвижиж байгаа их хэмжээний мэдээллийг нийгэм ба хувь хүнд оновчтой хэрэглүүлдэг ухаалаг технолог боловсруулах ажилтай нягт уялдаатай болж байна.
Бидний монголчууд эх хэлнийхээ сурвалжийн санг дэлхийн мэдээн сүлжээний виртуал орон зайд бүрдүүлснээр монгол үндэстнийг дэлхийн виртуал хамтлагт нэгтгэхийн сацуу монгол хэлшинжлэлийн өмнө тулгамдсан зорилтоос нэгийг ч болов шийдэхэд зохих ач холбогдолтой юм.
Эх хэлний сурвалж судалгааны монгол сан нь:
-монгол хэлний яриа, бичгийн олон талт баримтат судалгааг их өгөгдлийн түвшинд хийхэд зориулагдсан,
-орчин цагийн монгол хэлний бүх төрлийн бичвэр болон язгуур сурвалж бичгийн дурсгалыг нэгтгэн хадгалж,
-эрдэм шинжилгээний ажилтнуудын хэрэгцээнд ашиглуулах боломжийг тус тус эхний ээлжинд олгодог электрон мэдээний виртуал сангийн өвөрмэц төрөл бөгөөд сууриараа цэвэр академик судалгааны зориулалттай мэдээлэл-лавлагааны томоохон систем байж болох юм.
Ийм сангийн ач холбогдолыг гадаад олон оронд өндөрт өргөн авч үзэж:
- ҮНДЭСНИЙ СУРВАЛЖИЙН САН буюу Национальный корпус (русского языка), -The (British) National Corpus гэх зэргээр нэрлэн төлбөртэй болон төлбөргүй олон сувгаар ард түмэндээ ашиглуулж төрлөх хэлнийхээ нэр сүлдийг өндөрт өргөн, хэлний бодлого, шинжлэх ухааны ололтыг сурталчилж байдаг. Жишээ нь, BNC буюу The British National Corpus http://sara.natcorp.ox.ac.uk/lookup.html нь эх хэлний сурвалжийн судалгааны корпус байгуулсан шилдэг үлгэр жишээ бөгөөд 100 сая гаруй үгийн хэрэглээгээр баримтжуулан цэгцэлж нэгтгэсэн, орчин цагийн англи хэлээр бичсэн болон ярьсан текстийн корпус юм.
Мөн үүнчлэн Орос хэлний сурвалжийн үндэсний сан (Орос хэлний сурвалж судалгааны үндэсний корпус): - Орос хэлний үндэсний корпус http://www.ruscorpora.ru –ыг 200 сая үгийн зэхэцтэй байгуулахаар төлөвлөж эхлээд одоогийн байдлаар 50 гаруй сая үг оруулсан байнгааг жишээлж дурдах боломжтой юм.
Монгол хэлний сурвалж судалгааны үндэсний хөмрөг байгуулах саналыг бид нэлээд дээр үеэс хөндөж тавьсан билээ. Монгол хэлний сурвалжийн үндэсний сан буюу Монгол хэлний сурвалж судалгааны үндэсний хөмрөг нь эрдэм шинжилгээ, сургалтын үйл ажиллагааг эх массиваар хангах, монгол хэлний судалгааг их өгөгдлийн боловсруулалттай хийх үндсэн зорилгыг гүйцэлдүүлэнгээ дараахи зорилтыг хангахад чиглэгдэнэ. Үүнд:
-Эх хэлний судалгааг их өгөгдөлд тулгуурлан гүйцэтгэх бололцоо олгодог электрон баримтжуулал- виртуал сан бүрдүүлж,
-орчин цагийн монгол хэлний мэдээг хөмрөг (корпус)-т тусгагдсанаар үгсийн сан, хэлзүйн үүднээс их хэмжээний массив боловсруулан судалгаажуулж шинжлэх, хэтдээ өгүүлбэрзүй, утгазүйн боловсруулалтыг их өгөгдөл, их системийн түвшинд төсөөллөг тор, нейрокомпьютер ашиглан хийж байх нөхцөл бүрдүүлнэ,
-Судалгааны олон чиглэлээр хангалттай хэмжээний лавлах материалыг баталгаат эх үүсвэрээс өндөр нарийвчлалтай бүрдүүлэх боломжтой хэлний баримт, мэдээний сан болгож,
-Улмаар энэ санд түшиглэн үгсийн сангийн, зөв бичгийн дүрмийн, түүхэн болон орчин цагийн аман ярианы хэлзүйн дүрмийн болон найруулга зүйн судалгаа, хэлний мэдээний автоматжуулсан боловсруулалт хийх,
-Орчин цагийн монгол хэлний дэг-найруулгын хэм хэмжээ, зөв бичилт, монгол хэлийг үндэсний хэлний хэмжээнд жаяглах, гадаадынханд заах монгол хэлний аргазүйн боловсруулалтыг хийхэд хэрэглэх,
-Олон хэлний зэргэлдээ корпустай болох,
- Монгол хэлний их өгөгдөлд тулгуурлан монгол хэлний үзэгдлийн математик, статистик, алгоритмчласан боловсруулалтын түвшинг өгсүүлэх, SGML – (ISO standard: Структура документов для производства - Standard Generalized Markup Language (SGML - ISO/IEC 8876:1986) г.м.) болон бусад олон улсын стандартад нийцүүлэн эх хэлний судалгааны баазыг олон улсын түвшинд хүргэн бүрдүүлэх зэрэг олон ажлыг дэлхийн жишгээр хийх суурь нөхцөл бүрдэх юм.
Монгол хэлний сурвалжийн үндэсний санг өргөжүүлэн хөгжүүлвэл: -монгол хэлний үе үеийн бичгийн болон уламжлалт сурвалж дурсгал, нутгийн аман яриа, олон ястаны яриа, бичгийн дурсгалын дэд санг цувуулан нээж, монгол хэлний судалгаанд хэл судалгааны орчин үеийн олон арга зэрэгцэн хөгжиж, корпусын (сурвалжийн) хэлшинжлэл, нейрохэлшинжлэл, компьютерийн хэлшинжлэл, когнитив (танихуйн) хэлшинжлэл, улс төрийн хэлшинжлэл зэрэг орчин үеийн хэлшинжлэлийн олон эгнээ онол, аргаар хэлний мэдээнд боловсруулалт хийхэд дэм үзүүлэн, эдгээр судалгааны үр дүнг нийгэмдээ шинжлэх ухаанч хэрэглээнд, эргэлтэнд оруулахад таатай нөхцөл бий болно.
Монгол хэлний сурвалжийн үндэсний сангийн тулгуур суурийг 5-15 сая үгийн хэрэглээтэйгээр ойрын жилүүдэд байгуулах зорилт, эрдэмтэд, бизнесийн, төрийн болон төрийн бус байгууллагын хамтын хүчээр ийм санг бүтээх санал дэвшүүлж байна.
Монгол хэлний сурвалжийн үндэсний сан (Монгол хэлний сурвалж судалгааны үндэсний корпус) байгуулах санал:
Орчин үед үндэстний түвшинд төдийгүй олон улсын хэмжээнд мэдлэгийн ололтыг түгээхдээ сургалт-судалгааны зиндаачлалыг шинжлэх ухааны хийсвэрлэлийн түвшнээс ангид шалгуураар хэрэгжүүлж, өмчлөх, нууцлах нь олширсноор эрдэм мэдлэгийн сурталчилгаа, түгээлт, сургалтыг либералчлах зайлшгүй шаардлага үүсч байгааг сөрөх дорвитой шийдлийн нэг нь хэлний сурвалжийн сан байгуулах, уг сангийн ашиглалтыг нийтэд нээлттэй байлгах явдал юм.
Та, бид ийм санг байгуулснаар эхний ээлжинд :
-шинжлэх ухаан, судалгааны зориулалттай төрлөх хэлний сурвалжийн үндэсний сан буюу эх хэлээр буй лавлагаа, баримтын цогцолборыг бүрдүүлээд,
-их дээд сургуулиуд, төрийн болон төрийн бус байгууллагуудаас хэрэгжүүлэх монгол хэлний сургалтын материалыг бэлтгэх, судалгааны баримтжуулал хийх чухал эх үүсвэр болгон ашиглаж, улмаар ...
-төрийн, монгол үндэстний хэлний бодлого, монгол хэлний автомат боловсруулалтанд тус дэм бүхий лавламжийн сан байдлаар ашиглах,
-олон хэлний автомат боловсруулалт, автомат орчуулгын зэрэгцүүлсэн судалгааны сан байдлаар ашиглах,
-төрөлжсөн дэд сангуудыг утга зохиол, түүхэн болон улс төр- нийгмийн, аманзохиолын зэрэг төрөл зүйлээр байгуулж нийтийн хэрэглээнд ашиглуулах, эшлэл, гипер холболтын томоохон сүлжээ үүсгэн ашиглах,
-зайлшгүй чухал байвал сурвалжийн сангийн тодорхой хэсгийг төлбөрт үйлчилгээнд зориулан ялгаж ашиглуулах
зэргээр монгол хэлний машинан боловсруулалтын үндэсний технологийг байгуулах алхам хийх, энэ чиглэлд дорвитой ахиц гаргахад чиглэсэн тандах болон суурь судалгааг цаг алдалгүй хэрэгжүүлэх боломж бүрдэх юм.
Санг хэрхэн байгуулах нь оновчтой, зохимжтой талаар урьдчилан бэлтгэж нямбай судлах шаардлагатай, тухайлбал:
-дэлхийн олон оронд ийм төрлийн санг байгуулж идэвхитэй ашиглаж байгаа боловч дийлэнхи судлаачдын тэмдэглэж байгаагаар ийм санг гол төлөв орон нутгийн буюу үндэсний чанартай төслийн хүрээнд хэрэгжүүлдэг тул олон улсын нэгдсэн стандартын тухай ярихад одоо хэр бэрхшээлтэй,
-чухам ийм л шалтгаанаар сангийн ашиглалтыг олон улсын болон үндэсний хэмжээний түгээмэл хэрэглээнд нийцүүлэх талаар, бусад улсын жишиг сангуудтай хамтран ашиглахад нээлттэй байлгах талаар хийх зүйл олон байгаа, тухайлбал, хиймэл оюуны боловсруулалт болон дэлхийн мэдээн сангийн мэдээний автомат боловсруулалттай нийцэж байх суурийг тогтоох,
-санг хэрхэн бүрдвэржүүлэх, хэдэн дэд сантай байх, хэлний мэдээ материалыг судалгааны ямар түвшинд хэвтүүлж чадах нь уг сангийн ашиглалтанд зориулан боловсруулах программ-технологийн шийдлээс нэлээд хамаатайг анхаарах, жишээ нь, эх хэлний автомат болон машинан боловсруулалтыг хэрхэн ямар түвшинд хийж байгаа нь чухал үзүүлэлт юм. Энэ чиглэлд буюу монгол хэлний машинан боловсруулалтын талаар хийгдсэн ажил одоогоор харьцангуй бага байгаа билээ.
Гэвч энэ нь эргээд монгол хэлний сурвалжийн санг байгуулах боломжгүй, эсвэл ач холбогдолгүй мэтээр төсөөлөх үндэс биш юм. Монголын программ зохиогчид, инженерүүдийн ур ухаанаар бүтсэн вээб сайтууд олон болсон, монгол хэлний компьютерийн хэлшинжлэлийн анхны лаборатор ажиллаж эхэлсэн, MS Word болон бусад программын орчинд монгол үгийн алдаа засагч хэлний процессорууд, албан бичиг хэрэг хөтлөгч программууд зохиогдож арилжаанд гарч байгааг тэмдэглүүштэй юм. Ер нь эх бичгийг эх сурвалжийг санд байршуулахын өмнө хийх бэлтгэл ажил гэхэд:
- эх сурвалжийн задаргааны тэмдэглэгээг автоматаар хийх, зөв бичилтээр журамлах,
- үгзүйн задлал, зөв бичилтийг автоматаар хийх,
- өгүүлэхүүний буюу предикатын анализ хийх,
- эдгээрт ашиглаж болох эх хэлний онцлогыг тусгасан үндэсний програм хангамж боловсруулах зэргээс эхлэх шаардлагатай болно.
Дүгнэлт:
1. Монгол хэлний сурвалжийн үндэсний сан буюу Монгол хэлний сурвалж судалгааны үндэсний хөмрөг нь монгол хэлсудлалын эрдэм шинжилгээ, сургалтын үйл ажиллагааг цартай эх баримтаар хангах, монгол хэлний судалгааг их өгөгдлийн боловсруулалттай хийх үндсэн зорилгыг гүйцэлдүүлэх тулгуур сан болно.
2. Монгол хэлний сурвалжийн үндэсний сан нь төрлөх хэлнийхээ нэр сүлдийг өндөрт өргөн, төрийн хэлний бодлого, шинжлэх ухааны ололтыг сурталчилж, монгол улсын тусгаар тогтнолын билэг тэмдэг байх болно.
