FormationGymnasier og universiteter

Hvad er korpuslingvistik?

Bare et par årtier siden at automatisere sprogforskning, kunne forskerne kun kan drømme om. Arbejdet blev udført i hånden, det tiltrækker et stort antal studerende, der er stor sandsynlighed "skødesløse" fejl, og vigtigst af alt - alt dette tog lang, lang tid.

Med udviklingen af computerteknologi er blevet muligt at foretage målinger på størrelsesorden hurtigere, og i dag en af de mest lovende retninger i studiet af sproget er en korpuslingvistik. Dets vigtigste funktion er brugen af store mængder tekst information, oplysninger i en enkelt database, på en særlig måde og kaldte den markerede krop.

Til dato er der mange bygninger, der er oprettet med forskellige formål på basis af forskellige sproglige materiale spænder fra millioner til et tocifret milliardbeløb i leksikalske enheder. Denne retning er anerkendt som en lovende og viser betydelige fremskridt hen imod anvendelse og forskningsformål. Eksperter, en eller anden måde beskæftiger sig med naturligt sprog, anbefales det at stifte bekendtskab med kroppen af tekster i det mindste på et grundlæggende niveau.

Historien om corpus lingvistik

Dannelsen af denne tendens skyldes oprettelsen af USA på Brown krop i de tidlige 60-erne af det sidste århundrede. Samlingen omfatter teksterne til alle 1 million af ordformer, og i dag liget af denne størrelse ville være fuldstændig konkurrencedygtig. Dette skyldes i høj grad tempoet i udviklingen af computerteknologi, samt de voksende krav til nye forskningsressourcer.

I 90'erne korpuslingvistik opstået i en fuldstændig og uafhængig disciplin, har en samling af tekster udarbejdet og mærket for snesevis af sprog. I denne periode blev det skabte, for eksempel British National Corpus 100 millioner tokens.

Med udviklingen af dette område af lingvistik, bliver tekst mængder bliver mere og mere (og nå milliarder af ordbog enheder), og layoutet bliver mere forskelligartet. Til dato, kan internettet rum findes kroppe skrevne og talte sprog, flere sprog og læring-orienterede kunstnerisk eller videnskabelig litteratur, samt mange andre arter.

Hvad er huset

Krop typer i kroppen sprogvidenskab kan leveres af flere grunde. Intuitivt kan grundlaget for klassificeringen være en tekst sprog (russisk, tysk), adgang mode (open source, lukket, kommercielle), genren af kildematerialet (fiktion, dokumentar, akademisk, journalistik).

Interessant måde genererer materialer talesprog. Siden den bevidste optagelse af en sådan tale til at skabe et kunstigt miljø for respondenterne, og det resulterende materiale kunne ikke kaldes "spontan", har moderne korpuslingvistik gået den anden vej. En frivillig er udstyret med en mikrofon, og i løbet af dagen produceret en fortegnelse over alle samtaler, hvor det deltager i. Folk rundt, selvfølgelig, kan ikke vide, at i løbet af dagligdags samtale bidrager til udviklingen af videnskaben.

Senere fik rekord gemmes i databasen og er ledsaget af trykt tekst udskrift type. Således bliver det muligt markup er nødvendig for at skabe en mundtlig daglig tale boliger.

ansøgning

Når det er muligt at anvende sproget, og måske brugen af bygninger tekster. Metoder til at anvende skroget i lingvistik kan være:

  • Oprettelse af et program til fastlæggelse af nøglen, er meget udbredt i politik og erhvervslivet til at holde styr på positive og negative reaktioner af vælgere og kunder, hhv.
  • Tilslutning informationssystem til ordbøger og oversættere til at forbedre deres præstationer.
  • En række forskningsopgaver, der bidrager til forståelsen af sproget enhed, historien om sin udvikling og forudsigelse af ændringer i den nærmeste fremtid.
  • Udvikling af informationssystemer søgesystemer baseret på morfologiske, syntaktiske, semantiske og andre funktioner.
  • Optimering af de forskellige sproglige systemer og andre.

Anvendelse af bygninger

lignende ressource-interface med en typisk søgemaskine, og beder brugeren om at indtaste et ord eller en kombination af ord til at søge efter information base. Bortset form den nøjagtige forespørgslen kan bruge den forbedrede version, som gør det muligt at finde tekstinformation på stort set alle sproglige kriterier.

søgning base kan være:

  • tilhørsforhold til en bestemt gruppe af dele af tale;
  • grammatiske funktioner;
  • semantik;
  • stilistisk og følelsesmæssig farve.

Du kan også kombinere søgekriterier for en sekvens af ord, for eksempel for at finde alle forekomster af verbet i nutid, første person ental, som kommer efter forholdsord "i" og navneordet i akkusativ. Løsningen på sådan en simpel opgave tager brugeren et par sekunder og kræver kun et par museklik i de angivne felter.

Processen med at skabe

Søgningen selv kan udføres på alle subcorpus og en specielt udvalgt, afhængigt af behovene i at nå et bestemt mål:

  1. Det første skridt er at definere, hvilke tekster danner grundlag for sagen. Til praktiske formål er det hyppigst anvendte journalistiske, nyheder, online kommentarer. Forskningsprojektet er brugen af en lang række forskellige emballagetyper, men teksten skal vælges i henhold til nogle fælles grundlag.
  2. Den resulterende samling af tekster udsat for forbehandling, der er rettelse af fejl, hvis nogen, udarbejdet af bibliografisk og ekstra-lingvistiske beskrivelse af teksten.
  3. Er elimineret alle ikke-tekstlig information: Rydder grafik, billeder, tabeller.
  4. Er en tildeling af poletter, der typisk er tale, til videre forarbejdning.
  5. Endelig gennemføres morfologisk, syntaktisk og andre markeringer opnåede flerhed af elementer.

Resultatet af alle transaktioner foretaget af en syntaktisk struktur med fordelt deri en flerhed af elementer, der hver især er identificeret ordklasse, grammatisk og, i nogle tilfælde, de semantiske egenskaber.

Vanskeligheder med at skabe bygninger

Det er vigtigt at forstå, det er ikke nok til at sammensætte et sæt af ord eller sætninger for kroppen. På den ene side bør en samling af tekster være afbalanceret, det vil sige, repræsenterer forskellige typer af tekster i bestemte proportioner. På den anden - bør indholdet af kabinettet være anbragt på en særlig måde.

Det første problem er løst ved aftale: for eksempel i samlingen omfatter 60% af litterære tekster, 20% af dokumentarfilm, er en vis procentdel givet en skriftlig gengivelse af det talte sprog, lovgivning, videnskabelige værker mv findes ikke perfekte opskrift afbalanceret krop i dag ...

Det andet spørgsmål, om indholdet layout, løse udfordrende. Der er særlige programmer og algoritmer, der anvendes til automatisk markering af tekster, men de giver ikke et perfekt resultat, kan forårsage forstyrrelser og kræver manuel omarbejde. Muligheder og udfordringer i forbindelse med behandlingen af dette problem er beskrevet i detaljer i et papir V. P. Zaharova af korpuslingvistik.

Tekst markup gennemføres på flere niveauer, som vi listen nedenfor.

morfologiske tagging

Fra skole, vi huske, at i det russiske sprog, der er forskellige dele af talen, og hver af dem har sine egne karakteristika. For eksempel verbet har kategorier af hældning og den tid, hvor der ikke navneord. en indfødt uden tøven falder navneord og konjugerede verber, men for at markere krop på 100 mio. tokens manuelt arbejde vil ikke fungere. Alle nødvendige operationer kan udføre computeren, men for dette er det nødvendigt at blive undervist.

Morfologisk tagging, computeren skal "forstå" hvert ord som en bestemt del af talen, der har visse grammatiske funktioner. Da den russiske (og ethvert andet sprog) driver en række faste regler, er det muligt at bygge en automatisk procedure for morfologisk analyse, at investere i bilen i en række algoritmer. Der er dog undtagelser fra reglen, samt forskellige komplicerende faktorer. Som et resultat, netto computer analyse af i dag er langt fra ideelt, og selv 4% fejl giver en værdi af 4 mio. Ord på kroppen på 100 mio. Enheder, der kræver manuel rework.

Detaljeret bog beskriver problemet Zaharova V. P. "korpuslingvistik".

syntaktisk annotation

Parsing eller parsing - en procedure, der bestemmer forholdet mellem ord i en sætning. Ved hjælp af et sæt af algoritmer er muligt at bestemme teksten i emnet, prædikat, tilføjelser, flere vendinger. Find ud af, hvilke ord er det vigtigste sekvens, og som - afhængig, kan vi effektivt udtrække oplysninger fra tekst og undervise maskinen til at udstede som svar på en søgning anmodning kun de oplysninger interessant os.

Af den måde, moderne søgemaskiner bruge dette til at give specifikke tal i stedet for lange tekster som reaktion på relevante forespørgsler som "hvor mange kalorier i et æble" eller "afstanden fra Moskva til St. Petersborg." Men for at forstå selv de grundlæggende i den proces, der er beskrevet af behovet for at konsultere den "Introduktion til Corpus Linguistics" eller andre grundlæggende tutorial.

semantisk opmærkning

De semantik af ordet - er, i enkle vendinger, betydningen. Bredt anvendelig tilgang til den semantiske analyse af et ord attribution tags, afspejler hans tilhører et sæt semantiske kategorier og underkategorier. Sådanne oplysninger er værdifulde for at optimere algoritmer analysere tekst tone, automatisk sammendrag og andre opgaver metoder til korpuslingvistik.

Der er en række af "root" af træet, som repræsenterer en abstrakt ord med en meget bred semantik. Som er dannet en gren af træet knudepunkter, der indeholder flere og mere specifikke leksikale elementer. For eksempel kan ordet "væsen" være forbundet med begreber som "human" og "dyr". Det første ord vil fortsætte med at forgrene sig ud i forskellige erhverv, slægtskab vilkår, nationalitet og den anden - på klasser og typer af dyr.

Brugen af informations- søgesystemer

Områder for anvendelse af korpuslingvistik dækker forskellige aktivitetsområder. Huse anvendes til udarbejdelse og rettelse af ordbøger, skabe automatiserede oversættelsessystemer, udfyldelse, hente fakta, der bestemmer tonen og andre tekstbehandling.

Desuden er sådanne ressourcer bruges aktivt i studiet af verdens sprog og mekanismer fungerer på sproget i almindelighed. Adgang til store mængder af allerede forberedt information muliggør hurtig og omfattende undersøgelse af tendenserne i udviklingssprog, og stabile dannelse neologismer tale hastighed ændre værdier leksikalske enheder og andre.

Da arbejdet med så store mængder data kræver automatisering, i dag er der et tæt samspil mellem computeren og korpuslingvistik.

Russian National Corpus

Denne sag (forkortet NKRYA) indeholder en række subcorpus, tillader anvendelse af en ressource for en bred vifte af opgaver.

Materialerne i databasen er opdelt NKRYA:

  • til publikationer i medierne 90'erne og 2000'erne, både indenlandske og udenlandske;
  • optage tale;
  • aktsentologicheski markerede tekster (dvs. varemærkerne af stress);
  • dialekt tale;
  • poesi;
  • Materialer med syntaktiske og andre markeringer.

Informationssystemet indeholder også Subcorpus med parallelle oversættelser af værker fra russisk til engelsk, tysk, fransk og mange andre sprog (og omvendt).

Også i databasen er der et afsnit af historiske tekster, der repræsenterer den skriftlige tale i russisk i forskellige perioder af dens udvikling. Der er også en træning kroppen, hvilket kan være nyttigt for udenlandske statsborgere i at mestre det russiske sprog.

Russian National Corpus omfatter 400 millioner leksikalske enheder, og på mange måder forud for en betydelig del af de sprog i Europa organer.

udsigter

Fakta til fordel for anerkendelsen af denne tendens er tilgængeligheden af lovende laboratorium korpuslingvistik i russiske universiteter, såvel som udenlandske. Med brugen af og forskning inden for rammerne af denne information og søgning ressourcer indebærer udviklingen af visse områder inden for højteknologi, spørgsmål-besvarelse systemer, men det er diskuteret ovenfor.

Videreudvikling af corpus lingvistik er forudsagt på alle niveauer, lige fra teknisk og med hensyn til implementeringen af nye algoritmer, der optimerer de processer for at søge og behandle information, bemyndigelse computere, mere RAM, og til forbruger, fordi brugerne er flere og flere måder at bruge denne type ressource i deres daglige liv og arbejde.

Som konklusion

I midten af det forrige århundrede i 2017 virkede fjern fremtid, hvor rumskibe rejse gennem universet og robotter gøre alt arbejdet for folket. Faktisk videnskab er fyldt med "hvide pletter" og gør desperate forsøg på at besvare spørgsmålene om menneskeheden i århundreder foruroligende. Spørgsmål funktionsmåde sprog her indtager en hædersplads, og skab og datalingvistik kan hjælpe os med at besvare dem.

Behandling af store datasæt kan registrere mønstre, der tidligere utilgængelige, forudsige udviklingen af specifikke sproglige funktioner til at spore dannelsen af ord i næsten realtid.

På det praktiske plan kan de globale indhegninger ses, for eksempel som et potentielt redskab til at vurdere den offentlige stemning - Internettet er en konstant opdateret daglig basis forskellige tekster skabt af rigtige brugere: denne kommentarer og anmeldelser, samt artikler, og mange andre former for tale.

Hertil kommer, at arbejdet med organer bidrager til udviklingen af den samme hardware, der er involveret i informationssøgning, vi er bekendt med tjenesten "Google" eller "Yandex", maskinoversættelse, elektroniske ordbøger.

Vi kan trygt hævde, at corpus lingvistik gør kun de første skridt, og i den nærmeste fremtid vil blomstre.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 da.birmiss.com. Theme powered by WordPress.