Gjør som tusenvis av andre bokelskere
Abonner på vårt nyhetsbrev og få rabatter og inspirasjon til din neste leseopplevelse.
Ved å abonnere godtar du vår personvernerklæring.Du kan når som helst melde deg av våre nyhetsbrev.
A Extração de Informação (EI) é o ramo da área de recuperação de informação (RI) que utiliza técnicas e algoritmos para identificar e coletar informações desejadas em documentos estruturados ou não, persistindo-as em um formato apropriado para consultas futuras. A utilização de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem estrutura e/ou padrão definido. Um framework que reúne dezenas de plug-ins que podem ajudar na tarefa de EI baseada em PLN é o conhecido GATE (General Architecture for Text Engineering). Neste sentido propõe-se o modulo RELPIE (Regular Expressions for Language Processing Information Extraction), contendo plug-ins para a extração a partir de texto livre. O módulo é original e integra plug-ins GATE baseados em expressões regulares (ER) e regras de produção (RP), que ficam totalmente separadas do sistema, visando modularidade na EI. Os resultados obtidos demonstram que a proposta apresenta bons níveis de extração e reconhecimento de entidades nomeadas (NER), cerca de 80%, em texto livre.
A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar, ou gerar sentenças relevantes a partir de documentos textuais. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. Esta tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, além da possibilidade de combinação dentre eles. A plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português).
Identificar competências em uma base textual não estruturada é uma tarefa árdua. Para tanto, precisamos de todo um embasamento teórico necessário para a utilização dos processos nos quais possam extrair conhecimento desta base, assim a Mineração de textos ou descoberta de conhecimento em textos (KDT) é necessária. Um fator importante no contexto é que a maioria das informações (mais de 80%) no mundo estão armazenadas neste formato textual, acredita-se que as técnicas de KDT possuam um grande valor comercial. Deste modo, neste livro, apresentamos um embasamento teórico necessário para a modelagem e proposta de desenvolvimento de uma aplicação para a busca e identificação de competências profissionais em currículos em processos de contratação, promoção ou formação de equipes. Para este fim, são utilizadas técnicas KDT, associadas ao uso de ontologias para representar cada um dos conceitos presentes nos currículos. A classificação prévia das competências por conceitos restringe o tamanho do contexto a ser pesquisado, proporcionando uma maior qualidade na seleção dos currículos, de acordo com as exigências da empresa na qual será efetuado o recrutamento.
Abonner på vårt nyhetsbrev og få rabatter og inspirasjon til din neste leseopplevelse.
Ved å abonnere godtar du vår personvernerklæring.