EraketaFakultate eta unibertsitateetan

Zer da Corpus Hizkuntzalaritza?

Just duela hamarkada batzuk hizkuntz ikerketa automatizatzeko, zientzialariak izan soilik amets. Lanak eskuz egiten zen, ikasle kopuru handia erakartzen du, ez dago funtsezko arriskua "arduragabekeria" akatsak, eta garrantzitsuena - hori guztia, denbora luze bat hartu zuen.

With ordenagailua teknologia garatzeko egin du posible bihurtu magnitude ordena ikerketa azkarragoa da, eta gaur egun, hizkuntzaren ikerketan etorkizun norabide bat corpus linguistika bat da. Bere ezaugarri nagusia testu informazioa, informazio kopuru handiak erabiltzea, datu-base bakar batean, modu berezi batean dago eta markatu gorputza izeneko.

Orain arte, hainbat material linguistiko milioika unitateak lexiko milaka milioi hamarnaka desberdinen artean zubiak oinarri hartuta, helburu ezberdinekin sortutako eraikin asko daude. Norabide horretan itxaropentsua gisa aitortu eta aplikazio eta ikerketa helburuetarako bidean aurrerapen esanguratsuak erakusten. Adituek, modu batean edo hizkuntza natural aurre-beste, gomendagarria da testuak gorputza ezagutzeko, gutxienez, oinarrizko mailan.

corpus hizkuntzalaritzaren historia

Joera hori eraketa da Estatu Batuetan sortzea Brown gorputza tan hasieran azken mendeko 60-este ondorioz. Bilduma 1 guztien milioi hitza formak testuak biltzen ditu, eta gaur tamaina horretako gorputza erabat uncompetitive litzateke. Hau da, neurri handi batean ordenagailua teknologia garatzeko erritmoa, baita gero eta ikerketa baliabide berrien eskaerak ondorioz.

90eko corpus linguistika diziplina osoa eta independentea batean sortu zen urtean, testuak bilduma bat egin dira eta hizkuntza dozenaka markatzen. Aldi horretan sortu zen, adibidez, British National Corpus 100 milioi tokenak.

hizkuntzalaritzaren arlo honen garapenarekin batera, testu bolumen gero eta gehiago bilakatu dira (eta hiztegia unitateak milaka milioi iristeko), eta diseinua anitzagoak bihurtzen ari da. Orain arte, Internet espazioa aurki daitezke idatzitako gorpuak eta ahozko hizkuntza, eleanitza, eta ikasketa-bideratutako artistiko edo akademikoa literatura, eta baita beste hainbat espezie.

Zer dira etxebizitza

Body gorputz hizkuntzalaritzaren ere mota hainbat arrazoirengatik emandako daitezke. Senez, sailkapenaren oinarri testua hizkuntza (errusiera, alemana), sarbide-modua (kode irekia, itxia, merkataritza), sorburu materiala (fikzioa, dokumentala, akademikoak, kazetaritza) generoa izan daiteke.

Bide interesgarriak ahozko hizkuntzaren material sortzen. nahita hitzaldian, besteak beste, grabaketa ingurune artifizial bat sortu zenetik inkestatuen, eta, ondorioz, material ezin izan izeneko "espontaneoa", corpus linguistika modernoaren beste aldera joan da. boluntario mikrofono bat ditu, eta egunean zehar hizketaldi guztiak, bertan parte hartzen duen erregistro bat ekoiztu. Jendea inguruan, jakina, agian, ez dakit eguneroko elkarrizketa zehar, zientzia garatzen laguntzen du.

Geroago jaso datu-basean gordetzen erregistro dira, eta inprimatutako testuaren transkripzioa mota lagunduta. Horrela, ahozko eguneroko hizkera etxebizitzen bat sortzeko beharrezkoak posible markaketa bihurtzen da.

aplikazio

Ahal hizkuntzaren erabilera, eta, agian eraikin testuak erabiltzea. Metodoak hizkuntzalaritzaren kaskoa aplikatzeko izan daiteke:

  • Programa bat gakoa zehazteko sortzea, asko erabiltzen da, politika eta enpresa hautesleek eta bezeroen erantzunak positiboak eta negatiboak segimendua egiteko, hurrenez hurren.
  • Connection Informazio hiztegiak eta itzultzaileak sistema haien errendimendua hobetzeko.
  • hizkuntza-unitatea, bere garapena eta iragarpen etorkizun hurbilean aldaketen historia ulertzeko laguntzen duten ikerketa zereginak hainbat.
  • informazioa berreskuratzeko sistemen garapena oinarritutako morfologikoa, sintaktikoa, semantikoa eta beste ezaugarri on.
  • Hizkuntz sistema ezberdinak eta beste batzuk optimizazioa.

eraikinen erabilera

antzeko baliabide bilaketa tipikoa motorra interfazea eta erabiltzailearen den informazioa oinarri for word edo konbinazio Hitzen sartzeko eskatuz. Plus hau, kontsultaren zehatza bertsio hobetu, horri esker, ia edozein linguistiko irizpideak testu-informazioa aurkitzeko erabil daiteke.

bilaketa-base izan daiteke:

  • hizkera atalen talde jakin bateko kide;
  • gramatika funtzioak dituzte
  • semantika;
  • kolore estiloari eta emozionalak.

Zuk ere konbinatu ahal izango bilaketa irizpideak hitz segida bat, adibidez, aditz gertaera guztiak aurkitzeko orainaldian, lehen pertsona singular, zein preposizioa "in" eta akusatiboa kasuan izen ostean datorren urtean. hain erraza konponbidea erabiltzaileak hartzen segundo batzuk eta gutxi sagua zehaztu arlotan clicks eskatzen du.

sortzeko prozesua

bilaketa bera egin daiteke subcorpus guztietatik eta inork zehazki aukeratu, helburu jakin bat lortzeko beharren arabera:

  1. Lehen urratsa da bertan testuak kasuan oinarria zehazteko. helburu praktikoa egiteko, maiz erabiltzen da kazetaritza, albisteak, online iruzkinak. ikerketa proiektuak pakete mota askotariko erabilera da, baina testua komun batzuen arabera hautatu behar da.
  2. ondorioz pretreatment jasaten testuen bilduma, ez dago akatsak zuzentzeko da, baldin badago, testu deskribapen bibliografiko eta hizkuntzaz kanpoko prestatu.
  3. Dago kanporatua ez-testual informazio guztia: grafikoak, irudiak, taulak garbitzen.
  4. Token dira, normalean hitzaldian, prozesatzeko gehiago esleipena da.
  5. Azkenik, morfologikoa, sintaktikoa eta beste marka lortzen elementuen aniztasuna egiten da.

egitura sintaktiko batek egindako bertan banatuko elementuak, eta bakoitzak bere hitzaldian, gramatika zati identifikatzen da eta, kasu batzuetan, ezaugarri semantikoa ere pluraltasuna dituzten transakzio guztiak emaitza.

eraikinak sortzeko Zailtasunak

Garrantzitsua da hori ez da nahikoa elkarrekin jarri hitz edo esaldi-multzo bat gorputzaren ulertzeko. Alde batetik, testu-bilduma bat orekatua izan behar du, hau da, proportzio jakin batzuetan testu ezberdinak irudikatzeko. bestetik - itxitura edukiak modu berezi batean bananduta beharko luke.

Lehenengo arazoa da akordio bat konpondu: adibidez, bilduman literatur testuak% 60, dokumentalak% 20 biltzen ditu, ehuneko jakin bat ahozko hizkuntza, legedia, obra zientifikoak, etab perfektua errezeta orekatua gorputza gaur ez dago idatzizko irudikapen bat ematen da ...

Bigarren galderari, eduki diseinua buruzko, konpondu erronka. Badira programak eta testuen markatzea automatikoak egiteko erabiltzen algoritmo bereziak, baina ez dute emaitza ezin hobea eman, etenak eragin dezake eta eskuzko rework behar. Aukerak eta erronkak arazo honen aurre xehetasunez deskribatu paper bat V. P. Zaharova corpus hizkuntzalaritzaren ere.

Testua markaketa hainbat maila, horren azpitik zerrendatu ditugu tan ezarri da.

morfologikoa markatzea

Eskolaren, errusiar hizkuntzan, badira hizkera atal ezberdinak dira gogoratzen dugu, eta horietako bakoitzak bere ezaugarriak ditu. Adibidez, aditza joera sailkatuta eta denbora horretan izen ez du. Zalantzarik gabe jatorrizko hiztun baten ukatzen izen eta konjokatuak aditzak, baina 100 milioi gorputzean markatzeko. eskulan ez du funtzionatzen token. beharrezko Eragiketa guztiak ordenagailuan exekutatu daiteke, ordea, horretarako irakatsi behar da.

Morfologikoa markatzea, ordenagailua behar du "ulertu" hitz bakoitzaren hizkera zenbait gramatika ezaugarriak izatea zenbait zati gisa. Geroztik Russian (eta beste edozein hizkuntza) arau erregular kopuru bat funtzionatzen, posible da prozedura automatiko bat eraikitzeko morfologikoa aztertzeko, autoan inbertitzen algoritmoak zenbaki bat. Hala ere, badira araua, baita hainbat zailtzen faktore salbuespenak. Ondorioz, net ordenagailu gaur azterketa urrun ezin hobea da, eta are 4% error 4 milioi balioa etekin. 100 milioi. Unitateak gorputzean hitzak, eskuliburu rework eskatuko.

book xehea arazoa Zaharova V. P. "Corpus Hizkuntzalaritza" deskribatzen du.

sintaktikoa oharpen

Analizatzean edo analizatzean - Hitzen harremana esaldi batean zehazten duen prozedura bat. algoritmo multzo bat erabiltzea posible da gaia, predikatu, irudiak, adierazpen bira anitz testua zehazteko. Jakin zein hitz diren sekuentzia nagusian, eta bertan - menpe, eraginkortasunez dezakegu informazioa ateratzeko testu eta makina irakasteko informazioa soilik gurekin interesgarria bilaketa eskaera bati erantzunez emateko.

Bide batez, bilatzaileak moderno hau erabili zenbakiak zehatz testuak luzea ordez emateko esaterako kontsultak garrantzitsuak erantzunez edo "zenbat kaloria sagar bat ere" "Mosku distantzia San Petersburgo". Hala ere, nahiz deskribatu beharra kontsultatu "Sarrera Corpus Hizkuntzalaritza to" edo beste oinarrizko tutorial prozesuaren oinarriak ulertzeko.

markaketa semantikoa

hitzaren semantika - da, errazean, esanahia ere. Zabalduena aplikagarri a word eskuduntza etiketa azterketa semantikoa, bere sailkatuta semantikoa eta azpikategoriak multzo batekoa islatzen hurbilketa. Informazio algoritmoak aztertu testu tonu, Laburpen automatikoa eta beste zeregin corpus hizkuntzalaritzaren metodoak optimizatzeko baliotsua da.

Ez dago "erro" zuhaitzaren, kopuru bat hitza abstraktua a semantika oso zabal batekin ordezkari dira. Zuhaitz nodo adar bat sortzen dira, gero eta zehatzagoa elementu lexikoak duten. Adibidez, hitza "izaki" "giza" eta "animalia" bezalako kontzeptuak, hala nola lotutako daiteke. klaseak eta animalia mota on - lehen hitza koka lanbideei desberdinak, senidetasuna terminoetan, naziotasuna, eta bigarrena sartu jarraituko du.

informazioa berreskuratzeko sistemen erabilera

corpus linguistika erabilera-arloak estaltzeko jarduera-eremuak anitza. Karkasak prestaketa eta zuzenketa hiztegiak erabiltzen dira, sortu itzulpen sistema automatikoen, annotating gertaerak berreskuratzen, tonua eta beste testu prozesatzeko zehazteko.

Horrez gain, baliabideak, hala nola aktiboki munduan hizkuntza eta hizkuntzaren funtzionamendua orokorrean mekanismoak aztertzeko erabiltzen dira. Informazio aurrez prestatutako bolumen handiak sarbidea garapen hizkuntza joeren azterketa azkar eta integrala errazten, eta egonkorra eratzea neologismoak hizkera abiadura aldaketa lexiko-unitateak eta beste batzuk baloratzen.

besteak beste, datu kopuru handiak dituzten lanak automatizazioa eskatzen geroztik, gaur egun ordenagailua eta corpus linguistika arteko elkarrekintza hurbil.

Errusiako Corpus Nazionala

Kasu honetan (laburtua NKRYA) subcorpus kopurua, baliabide bat erabiltzea zereginak askotariko aukera ematen dira.

Datu-basean materialak banatzen dira NKRYA:

  • komunikabideak '90eko eta 2000ko, biak barne eta kanpoko argitalpen da;
  • grabatzen hitzaldian;
  • aktsentologicheski markatu testuak (adibidez, estres markak);
  • euskalki hitzaldian;
  • poesia;
  • marka sintaktiko eta beste materialak.

Informazio-sistemak Subcorpus ere biltzen itzulpenak paralelo Errusiako obren ingelesa, alemana, frantsesa eta beste hainbat hizkuntzak (eta alderantziz) sartu gabe.

Era datu-basean daude testuak historikoaren atal bat, Russian idatzitako hitzaldian bere garapen-aldi desberdinetan ordezkari da. Gainera, badago prestakuntza gorputza, eta horrek atzerriko herritarrentzat baliagarria izan daiteke errusiar hizkuntza menderatzea.

Errusiako Corpus National 400 milioi unitate lexikoak osatzen dute, eta modu askotan Europa gorputzen hizkuntzetan zati garrantzitsu baten aurretik.

irtenbideak

Joera hori aitortzeko aldeko Izan laborategi corpus linguistika Russian unibertsitateetan zin, baita atzerriko gisa erabilgarritasuna da. erabilera eta ikerketa informazio eta bilaketa honen baliabideen esparruan With teknologia handiko, galdera-erantzunez sistemen eremuan arlo jakin garapena dakar, baina batez ere eztabaidatzen da.

corpus linguistika garapena maila guztietan aurreikusten da, teknikoa eta algoritmo berriak bilatuz eta informazioa prozesatzeko, ordenagailuak Jabekuntza prozesuak optimizatzeko, RAM gehiago ezartzea dagokionez, eta kontsumo artekoak, erabiltzaileek gero eta gehiago dira modu beren eguneroko baliabide mota hau erabili duelako bizitza eta obra.

Ospakizuna

2017an azken mende erdian zirudien etorkizun hurbilean, non espazio unibertsoaren barrena bidaiatzeko eta robot herriarentzat lan guztia egin. Izan ere, zientzia "orban zuri" eta gizateriaren galdera mendeetan kezkagarria for erantzuteko etsi saiakera egiten replete. Galderak hizkuntzaren funtzionamendua hemen okupatzen ohorezko lekua, eta kabinete eta hizkuntzalaritza konputazionalean haiek erantzun behar digu lagun dezake.

datu multzoak handiak prozesatzeko ereduak atzeman dezake, aurrez eskuraezinak, hizkuntza jakin ezaugarrien garapenari iragartzeko hitz eraketa jarraitzeko ordua ia errealean.

Maila praktiko batean, itxiturak global ikus daiteke, adibidez, tresna potentzial bat umore publiko ebaluatzeko bezala - Interneten a etengabe eguneratzen, egunero hainbat erabiltzailek benetako sortutako testuak dago iruzkinak hau eta iritziak, eta artikulu, eta beste hizkera-mota asko.

Horrez gain, erakunde lanean hardware bera, diren informazioa berreskuratzeko inplikatuta garatzen laguntzen du, zerbitzua "Google" edo "Yandex", itzulpen automatikoa, hiztegi elektronikoak ezagutzen gara.

lasai esan dezakegu corpus linguistika hori lehen urrats bakarrik egiten, eta etorkizun hurbilean izango loratzen.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 eu.birmiss.com. Theme powered by WordPress.