Formazzjoni, Kulleġġi u universitajiet
X'inhu Corpus Lingwistika?
Biss ftit għexieren ta 'snin ilu l-awtomazzjoni ir-riċerka lingwistika, ix-xjentisti setgħet biss ħolma ta'. Ix-xogħol sar bl-idejn, li jattira numru kbir ta 'studenti, hemm sostanzjali probabbiltà "Ŝejjed" żbalji, u aktar importanti - dan kollu ħadet ħafna żmien.
Bl-iżvilupp ta 'teknoloġija tal-kompjuter sar possibbli li twettaq riċerka dwar l-ordni ta' kobor aktar mgħaġġel, u llum wieħed mill-direzzjonijiet aktar promettenti fl-istudju tal-lingwa huwa corpus linguistics. Karatteristika prinċipali tagħha huwa l-użu ta 'ammonti kbar ta' informazzjoni test, informazzjoni f 'database unika, b'mod speċjali u talab l-korp mmarkata.
Sal-lum, hemm ħafna bini maħluqa bl skopijiet differenti fuq il-bażi ta 'materjal lingwistika differenti jifirxu minn miljuni għal għexieren ta' biljuni ta 'unitajiet lessikali. Din id-direzzjoni hija rikonoxxuta bħala promettenti u juri progress sinifikanti lejn l-għanijiet ta 'applikazzjoni u ta' riċerka. Esperti, b'xi mod jew jittrattaw ieħor mal-lingwa naturali, huwa rakkomandat li jiffamiljarizzaw mal-korp ta 'testi għall-inqas fil-livell bażiku.
Storja ta 'lingwistika corpus
Il-formazzjoni ta 'din it-tendenza hija dovuta għall-ħolqien ta' l-Istati Uniti fil-ġisem Brown fil-bidu 60-jiet ta 'l-aħħar seklu. Il-kollezzjoni tinkludi t-testi ta 'kull 1 miljun ta' forom kelma, u llum il-korp ta 'dan id-daqs ikun totalment mhux kompetittivi. Dan huwa prinċipalment minħabba l-pass ta 'żvilupp ta' teknoloġija tal-kompjuter, kif ukoll il-ħtiġijiet dejjem jikbru għar-riżorsi ta 'riċerka ġodda.
Fis-snin 90 lingwistika corpus ħarġu fis-dixxiplina sħiħa u indipendenti, ġabra ta 'testi ġew imfassla u mmarkat għal għexieren ta' lingwi. F'dan il-perjodu kien maħluq, per eżempju, l-Ingliżi Corpus Nazzjonali 100 miljun towkins.
Bl-iżvilupp ta 'din iż-żona ta' lingwistika, il-volumi test qed isiru aktar u aktar (u jilħqu biljuni ta 'unitajiet dizzjunarju), u l-format qed isiru dejjem aktar diversi. Sal-lum, l-ispazju Internet jista 'jinstab karkassi bil-miktub u l-lingwa, multilingwi, u letteratura artistiku jew akkademika orjentati lejn it-tagħlim, kif ukoll ħafna speċi oħra mitkellma.
X'inhuma l-akkomodazzjoni
tipi ta 'korp fil-lingwistika ġisem tista' tiġi pprovduta għal diversi raġunijiet. Intuwittivament, il-bażi għall-klassifikazzjoni tista 'tkun f'lingwa test (Russu, Ġermaniż), il-mod l-aċċess (sors miftuħ, magħluqa, kummerċjali), il-ġeneru tal-materjal mis-sors (finzjoni, dokumentarji, akkademiċi, ġurnaliżmu).
Mod interessanti jiġġenera materjali tal-lingwa mitkellma. Peress li l-irrekordjar intenzjonat ta 'tali diskors biex jinħoloq ambjent artifiċjali għall-parteċipanti, u l-materjal li jirriżulta ma jista' jissejjaħ "spontanju", lingwistika corpus moderni marret il-mod ieħor. Voluntier huwa mgħammar mikrofonu, u matul il-jum ħarġu rekord ta 'konversazzjonijiet kollha, li fihom tipparteċipa. Nies madwar, naturalment, jista 'ma jafux li fil-kors ta' konversazzjoni kuljum tikkontribwixxi għall-iżvilupp tax-xjenza.
Aktar tard rċeviet rekord maħżuna fid-database u huma akkumpanjati minn tip test traskrizzjoni stampat. Għalhekk, isir possibbli Markup meħtieġa biex jinħoloq orali akkomodazzjoni diskors ta 'kuljum.
applikazzjoni
Kull fejn ikun possibbli l-użu tal-lingwa, u forsi l-użu ta 'testi bini. Metodi li japplikaw il-buq fil-lingwistika tista 'tkun:
- Ħolqien ta 'programm li jiddetermina ċ-ċavetta, hija użata ħafna fil-politika u n-negozju li jżommu rekord tat-tweġibiet pożittivi u negattivi ta' votanti u l-klijenti, rispettivament.
- sistema ta 'informazzjoni konnessjoni għall dizzjunarji u tradutturi itejbu l-prestazzjoni tagħhom.
- Varjetà ta 'ħidmiet ta' riċerka li jikkontribwixxu għall-fehim tal-unità lingwa, l-istorja tal-iżvilupp tagħha u l-previżjoni tal-bidliet fil-futur qarib.
- Żvilupp ta 'sistemi ta' rkupru ta 'informazzjoni bbażata fuq l-morfoloġiċi, sintattika, semantiċi u oħrajn karatteristiċi.
- Ottimizzazzjoni tas-sistemi lingwistiċi differenti u oħrajn.
Użu ta 'bini
interface tar-riżorsi simili ma 'search engine tipiku, u tqanqal lill-utent biex jidħol kelma jew kombinazzjoni ta' kliem li jfittxu l-bażi ta 'informazzjoni. Minbarra l-forma l-mistoqsija eżatta tista 'tuża l-verżjoni mtejba, li tippermetti biex issib informazzjoni testwali fuq kważi kull kriterji lingwistiċi.
bażi tfittxija tista 'tkun:
- sħubija fi grupp partikolari ta 'partijiet tad-diskors;
- Karatteristiċi grammatikali;
- semantika;
- kulur stilistika u emozzjonali.
Tista 'wkoll jikkombinaw kriterji ta' tiftix għal sekwenza ta 'kliem, per eżempju, biex isibu kull okkorrenza ta' l-verb fil-tensjoni, l-ewwel persuna preżenti singular, li jiġi wara l-prepożizzjoni "fi" u l nom fil-każ accusative. Is-soluzzjoni għal din il-missjoni sempliċi tieħu l-utent ftit sekondi u teħtieġ biss ftit ġurdien klikks fl-oqsma speċifikati.
Il-proċess tal-ħolqien
It-tfittxija innifsu jista 'jitwettaq fuq subcorpus kollha u dik magħżula speċifikament, skond il-bżonnijiet fil-kisba għan partikolari:
- L-ewwel pass huwa li jiddefinixxi liema testi jiffurmaw il-bażi għall-każ. Għal skopijiet prattiċi, huwa spiss użat ġurnalistiċi, stejjer aħbarijiet, kummenti onlajn. Il-proġett ta 'riċerka huwa l-użu ta' varjetà wiesgħa ta 'tipi pakkett, iżda t-test għandhom jintgħażlu skond xi bażi komuni.
- Il-ġbir li jirriżulta ta 'testi suġġetti għal trattament ta' qabel, hemm korrezzjoni ta 'żbalji, jekk ikun hemm, imħejji mill-deskrizzjoni bibljografika u extra-lingwistika tat-test.
- Jiġi eliminat kull informazzjoni mhux testwali: Tħassar il grafika, stampi, tabelli.
- Huwa allokazzjoni ta 'tokens, li huma tipikament diskors, għal aktar proċessar.
- Fl-aħħarnett, hija wettqet morfoloġiċi, sintattika u għal immarkar ieħor kiseb pluralità ta 'elementi.
Ir-riżultat tat-tranżazzjonijiet kollha magħmula minn struttura sintattika bil mqassma fih pluralità ta 'elementi, kull wieħed minnhom huwa identifikat parti tal-kelma, grammatikali u, f'xi każijiet, l-attributi semantiċi.
Diffikultajiet fil-ħolqien bini
Huwa importanti li tifhem li mhuwiex biżżejjed biex tpoġġi flimkien sett ta 'kliem jew sentenzi għall-korp. Min-naħa waħda, ġabra ta 'testi għandu jkun bilanċjat, jiġifieri, jirrappreżentaw it-tipi differenti ta' testi fil proporzjonijiet ċerti. Fuq l-oħra - il-kontenut tal-kompartiment għandhom ikunu spazjati b'mod speċjali.
L-ewwel problema hija solvuta bi ftehim: per eżempju, fil-kollezzjoni tinkludi 60% ta 'testi letterarji, 20% ta' dokumentarji, ċertu persentaġġ tingħata rappreżentazzjoni bil-miktub tal-lingwa mitkellma, il-leġiżlazzjoni, xogħlijiet xjentifiċi, eċċ perfetta riċetta korp bilanċjata llum ma teżistix ...
It-tieni domanda, dwar it-tqassim kontenut, isolvu sfida. Hemm programmi speċjali u algoritmi użati għall-immarkar awtomatiku ta 'testi, iżda dawn ma jagħtux riżultat perfetta, jista' jikkawża tfixkil u jeħtieġu tinħadem mill-ġdid manwali. Opportunitajiet u sfidi fit-trattament ma 'din il-problema huma deskritti fid-dettall fil-karta V. P. Zaharova tal-lingwistika corpus.
Markup test huwa implimentati f'bosta livelli, li aħna lista hawn taħt.
immarkar morfoloġiċi
Mill-iskola, aħna niftakru li fil-lingwa Russa, hemm partijiet differenti tad-diskors, u kull wieħed minnhom għandu l-karatteristiċi tiegħu stess. Per eżempju, il-verb għandha kategoriji ta 'inklinazzjoni u l-ħin li fih l-ebda nom. kelliem nattiv mingħajr eżitazzjoni jonqos nomi u verbi konjugat, iżda biex jimmarkaw il-korp ta '100 miljun. tokens xogħol manwali mhux se taħdem. L-operazzjonijiet kollha meħtieġa tista 'tesegwixxi l-kompjuter, madankollu, għal dan jeħtieġ li jiġu mgħallma.
immarkar morfoloġiċi, il-kompjuter għandu "jifhmu" kull kelma bħala ċertu parti tad-diskors li ċerti karatteristiċi grammatikali. Peress li l-Russu (u kwalunkwe lingwa oħra) topera numru ta 'regoli regolari, huwa possibbli li tibni proċedura awtomatika għall-analiżi morfoloġiċi, l-investiment fil-karozza għal numru ta' algoritmi. Madankollu, hemm eċċezzjonijiet għar-regola, kif ukoll fatturi kumplikazzjoni varji. Bħala riżultat, l-analiżi nett kompjuter tal-lum hija 'l bogħod mill-ideali, u% żball anki 4 rendimenti valur ta' 4 Mln. Kliem fuq il-ġisem ta '100 miljun. Unitajiet, jeħtieġu tinħadem mill-ġdid manwali.
ktieb dettaljata tiddeskrivi l-problema Zaharova V. P. "Lingwistika Corpus".
annotazzjoni sintattika
Parsing jew parsing - proċedura li tiddetermina r-relazzjoni ta 'kliem fil-sentenza. Użu ta 'sett ta' algoritmi hija possibbli li jiġi determinat it-test tad suġġett, relattivi, żidiet, dawriet multipli ta 'diskors. Skopri liema kliem huma s-sekwenza prinċipali, u li - dipendenti, nistgħu effettivament estratt informazzjoni minn test u biex jgħallmu l-magna biex toħroġ bi tweġiba għal talba tfittxija biss l-informazzjoni interessanti għalina.
Mill-mod, magni tat-tiftix moderni uża dan biex jagħtu l numri speċifiċi minflok testi twal bi tweġiba għall-mistoqsijiet relevanti bħal "kif ħafna kaloriji fil tuffieħa" jew "id-distanza minn Moska lil San Pietruburgu." Madankollu, biex jifhmu anki l-affarijiet bażiċi tal-proċess deskritt mill-ħtieġa li tikkonsulta l- "Introduzzjoni għall-Lingwistika Corpus" jew tutur bażika oħra.
markup semantika
-Semantika tal-kelma - huwa, f'termini sempliċi, it-tifsira. approċċ ġeneralment applikabbli għall-analiżi semantika ta tags kelma attribuzzjoni, li jirriflettu tiegħu jappartjenu għal sett ta 'kategoriji semantiċi u subkategoriji. Tali informazzjoni hija prezzjuża għall-ottimizzazzjoni algoritmi janalizzaw ton test, fil-qosor awtomatika u metodi ħidmiet oħra ta 'corpus linguistics.
Hemm numru ta ' "root" tas-siġra, li jirrappreżentaw kelma astratt ma' semantika wiesgħa ħafna. Bħala fergħa tal-lymph siġra huma ffurmati, li fihom aktar u aktar speċifiċi elementi lessikali. Per eżempju, il-kelma "kreatura" tista 'tkun assoċjata ma' kunċetti bħal "bniedem" u "annimal". L-ewwel kelma se tkompli fergħa fis professjonijiet differenti, termini parentela, nazzjonalità, u t-tieni - fuq klassijiet u t-tipi ta 'annimali.
L-użu ta 'sistemi ta' rkupru ta 'informazzjoni
Oqsma ta 'użu ta' corpus linguistics tkopri oqsma differenti ta 'attività. Housings huma użati għall-preparazzjoni u l-korrezzjoni ta 'dizzjunarji, joħolqu sistemi ta' traduzzjoni awtomatizzati, annotazzjoni, irkupru fatti, li jiddeterminaw l-ton u l-ipproċessar test ieħor.
Barra minn hekk, dawn ir-riżorsi huma użati b'mod attiv fl-istudju tal-lingwi u mekkaniżmi ta 'funzjonament tal-lingwa b'mod ġenerali dinja. Aċċess għall volumi kbar ta 'informazzjoni mħejjija minn qabel tiffaċilita studju rapida u komprensiva tat-tendenzi tal-lingwi għall-iżvilupp, u l-bidla neoloġiżmi formazzjoni stabbli diskors veloċità valuri unitajiet lessikali u oħrajn.
Ġaladarba x-xogħol b'ammonti kbar bħal dawn ta 'dejta tirrikjedi awtomazzjoni, illum hemm interazzjoni mill-qrib bejn il-kompjuter u corpus lingwistika.
Russu Corpus Nazzjonali
Dan il-każ (abbrevjata NKRYA) tinkludi numru ta subcorpus, li jippermetti l-użu ta 'riżorsa għal varjetà wiesgħa ta' ħidmiet.
Il-materjali fid-database huma maqsuma NKRYA:
- għall-pubblikazzjonijiet fil-90s u 2000ijiet l-midja ", kemm domestiċi u barranin;
- reġistrazzjoni diskors;
- aktsentologicheski mmarkati testi (jiġifieri, il-marki ta 'stress);
- diskors djalett;
- poeżija;
- Materjali bi marki sintattika u oħrajn.
Is-sistema ta 'informazzjoni tinkludi wkoll Subcorpus ma traduzzjonijiet paralleli ta' xogħlijiet minn Russu għall-Ingliż, Ġermaniż, Franċiż u f'ħafna lingwi oħrajn (u viċi versa).
Wkoll fid-database hemm sezzjoni ta 'testi storiċi, li jirrappreżentaw l-diskors bil-miktub bir-Russu f'perjodi differenti ta' żvilupp tagħha. Hemm ukoll korp ta 'taħriġ, li jistgħu jkunu utli għaċ-ċittadini barranin fil-ħakma ta' lingwa Russa.
Russu Corpus Nazzjonali jinkludi 400 miljun unità lessikali, u f'ħafna modi li ġejjin ta 'parti sinifikanti mil-lingwi tal-korpi Ewropej.
prospetti
Fatt favur ir-rikonoxximent ta 'din it-tendenza huwa d-disponibbiltà ta' promettenti lingwistika corpus laboratorju fl-universitajiet Russu, kif ukoll barrani. Bl-użu ta 'u r-riċerka fil-qafas ta' dan tal-informazzjoni u tat-tiftix riżorsi jinvolvi l-iżvilupp ta 'ċerti oqsma fil-qasam tat-teknoloġiji għoljin, sistemi jwieġeb-kwistjoni, iżda huwa diskuss hawn fuq.
Aktar żvilupp ta 'lingwistika corpus huwa previst fil-livelli kollha, li jvarjaw minn tekniku u f'termini ta' implimentazzjoni ta 'algoritmi ġodda li jottimizzaw il-proċessi ta' tiftix u l-ipproċessar ta 'informazzjoni, setgħa kompjuters, RAM aktar, u għall-konsumatur, minħabba l-utenti huma aktar u aktar modi biex nużaw dan it-tip ta' riżorsa fil kuljum tagħhom ħajja u x-xogħol.
Bħala konklużjoni
Fin-nofs tas-seklu l-2017 deher futur imbiegħed, fejn spaceships ivvjaġġar permezz-univers u robots jagħmlu x-xogħol għall-poplu. Fil-fatt, ix-xjenza hija replete ma ' "tikek bojod" u tagħmel tentattivi ddisprata biex twieġeb il-mistoqsijiet ta' l-umanità għal sekli sħaħ inkwetanti. Mistoqsijiet funzjonament tal-lingwa hawn jokkupaw post ta 'unur, u kabinett u komputazzjoni lingwistika tista' tgħinna biex twieġeb għalihom.
Ipproċessar ta 'settijiet ta' data kbar jistgħu jindividwaw mudelli, qabel inaċċessibbli, jbassru l-iżvilupp ta 'karatteristiċi lingwistiċi speċifiċi sabiex jittraċċjaw il-formazzjoni ta' kliem fil-ħin kważi reali.
Fuq livell prattiku, il-kompartimenti globali jistgħu jidhru, per eżempju, bħala għodda potenzjali biex tevalwa l-burdata pubbliku - l-Internet huwa kontinwament aġġornata kuljum Bażi varji testi maħluqa mill-utenti reali: dan kummenti u r-reviżjonijiet, u oġġetti, u ħafna forom oħra ta 'diskors.
Barra minn hekk, li jaħdmu ma 'korpi jikkontribwixxi għall-iżvilupp ta' l-istess ħardwer, li huma involuti fil-irkupru ta 'informazzjoni, aħna familjari mas-servizz "Google" jew "Yandex", traduzzjoni awtomatika, dizzjunarji elettroniċi.
Nistgħu b'fiduċja tafferma li l-lingwistika corpus jagħmel biss l-ewwel passi, u fil-futur qarib se tistgħana.
Similar articles
Trending Now