Altigran Soares da Silva

  1. -Atual. Descoberta de Restrições de Integridade de Dados Relacionais a partir de Documentos Regulatórios usando Modelos de Linguagem. (Coordenador)

    Descrição: A integridade e confiabilidade dos dados são fundamentais para a tomada de decisões em áreas onde a conformidade com normas é crítica, como saúde, educação e finanças. Documentos regulatórios estabelecem direitos, obrigações e responsabilidades que podem ser expressas como regras de dados. Contudo, observamos em diversos documentos e dados abertos, que muitas vezes as regras divergem das suas implementações nos bancos de dados (BDs), com potencial impacto em tomadas de decisão e políticas públicas. Este projeto investiga a extração e validação automática de regras de integridade (RIs) a partir de textos regulatórios, visando garantir a consistência e a conformidade dos dados. Estas regras podem ser formalizadas em lógica de primeira ordem que impedem combinações indesejadas de dados, permitindo a detecção e correção de inconsistências que comprometam a integridade de dados tabulares, como um BD relacional ou arquivos CSVs. Métodos automatizados são necessários para reduzir o esforço humano na extração de RIs e garantir a consistência dos dados. Este projeto explora a extração dessas RIs usando Modelos de Linguagem Pré-treinados de Larga Escala (LLMs), capazes de descobrir e converter regras textuais em RIs aplicáveis em SQL. LLMs têm sido amplamente usados na geração de SQL a partir de especificações textuais, o que reforça a viabilidade de seu uso para extrair RIs a partir de documentos regulatórios. Esses modelos podem reconhecer padrões complexos e relações semânticas em textos, tornando viável o uso de técnicas de Processamento de Linguagem Natural (PLN) para transformar esses textos em restrições formais. Este projeto propõe o desenvolvimento de um pipeline de PLN para extração de regras de documentos regulatórios e conversão em RIs. CHAMADA CNPQ/MCTI N 44/2024 Faixa B - Grupos Consolidados.Proc. 400936/2025-9 R$ 216.000,00

    Integrante(s): Altigran Soares da Silva; Alberto Henrique Frade Laender; João Marcos B Cavalcanti; Eduardo Cunha de Almeida; Eduardo Pena.

    Financidor(es): CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTIFICO E TECNOLOGICO-CNPQ.

  2. -Atual. Integrando LLMs em Sistemas de Recomendação Financeiros: Personalização e Mitigação de Viés. (Coordenador)

    Descrição: Sistemas de recomendação desempenham papel essencial em plataformas digitais, incluindo o setor financeiro, onde influenciam decisões críticas. Este projeto busca desenvolver métodos para melhorar a equidade e personalização desses sistemas utilizando Modelos de Linguagem de Larga Escala (LLMs). A pesquisa, em parceria com o Laboratoire d'Informatique de Grenoble, abordará o viés demográfico que compromete a confiança e eficácia das recomendações financeiras. Propomos integrar LLMs com técnicas de fairness-aware learning para criar recomendações mais justas e personalizadas, preservando a eficiência. A metodologia envolverá o desenvolvimento e teste de algoritmos, utilizando dados reais do setor financeiro para validação e ajuste.

    Integrante(s): Altigran Soares da Silva; Sihem Amer-Yahia.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  3. -Atual. Descoberta Semântica e Explicabilidade de Relacionamentos em Data Lakes. (Coordenador)

    Descrição: O principal objetivo deste projeto de cooperação internacional é desenvolver e implementar uma solução integrada para a descoberta eficiente de relacionamentos em data lakes. Mais do que simplesmente identificar relações entre conjuntos de dados, a meta é combinar técnicas sintáticas e semânticas avançadas para criar uma abordagem híbrida. Esta abordagem pretende não só identificar relações explícitas entre dados, mas também captar nuances e relações implícitas que poderiam ser facilmente ignoradas por métodos tradicionais. Processo: 01.02.016301.00600/2024-97 Edital: EDITAL N 015/2023 - PROMOB/FAPEAM R$ 35.000,00

    Integrante(s): Altigran Soares da Silva; Paolo Merialdo.

    Financidor(es): Fundação de Amparo a Pesquisa do Estado do Amazonas.

  4. -Atual. Neural Bond - Um Estudo sobre o Uso de Modelos de Linguagem Neurais para Engajamento Inteligente de Usuários em Plataformas de Redes Sociais. (Coordenador)

    Descrição: Nos dias atuais, possuir uma boa reputação nas redes sociais é de suma importância para organizações e empresas, pois a reputação é determinante para a fidelização e atração de possíveis usuários e clientes. Nesse contexto, uma tarefa fundamental é a capacidade de engajamento da organização com clientes nas redes sociais para, por exemplo, resolver reclamações ou questionamentos sobre produtos e serviços realizados por ela. Uma maneira de realizar esse engajamento é utilizar pessoas para monitorar menções à organização em mídias sociais com o intuito de responder prontamente a comentários de usuários que necessitem ser endereçados. Essa abordagem, no entanto, pode ser custosa financeiramente, pois ela somente escala com a contratação de mais profissionais para a realização deste monitoramento. Este projeto se propõe a automatizar o processo de engajamento com usuários através do uso de técnicas avançadas de Processamento de Linguagem Natural (PLN) como Modelos de Linguagem. Esses modelos têm alcançado nos últimos anos o estado da arte em diversas tarefas de PLN. Em particular, modelos como GPT-3, ChatGPT desenvolvido pela OpenAI, e LaMDA, construído pela Google, têm alcançado excelentes resultados na geração automática de texto conversacional. Muitos desses modelos, no entanto, são pagos ou não estão disponíveis para o público em geral. Além disso, eles são construídos (ou pré-treinados) em corpora genéricos. Para este projeto, pretendemos utilizar modelos disponíveis gratuitamente e customizá-los para a tarefa de interesse. Essa customização pode ser realizada utilizando técnicas como DAPT (domain-adaptive pretraining) ou TAPT (task-adaptive pretraining), que continua o pré-treinamento desses modelos genéricos em textos respectivamente no domínio ou na tarefa que se deseja realizar. No contexto deste projeto, pretendemos especializar modelos de linguagem genéricos em comentários e postagens em redes sociais na língua portuguesa do Brasil. Para isso, iremos construir um coletor focado para obter dados conversacionais em redes sociais como Instagram e Facebook. Por serem modelos com um grande número de parâmetros (o modelo GPT-3 tem, por exemplo, 175 bilhões de parâmetros), uma grande limitação do uso deles na prática é o tempo de inferência necessário para a geração automática do texto. Com o intuito de diminuir esse tempo, pretende-se utilizar estratégias baseadas em model distillation, que se refere à transferência de conhecimento de um modelo maior para um modelo menor (ou seja, com menor custo computacional). A construção desse modelo de linguagem de geração automática de texto para engajamento com usuários com alta acurácia e baixo tempo de inferência irá, portanto, permitir que organizações possam responder prontamente, e com baixo custo, a comentários de usuários em redes sociais. EDITAL N. 001/2023 - UNIVERSAL FAPEAM R$ 179.600,00

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; BARBOSA, LUCIANO; DE MELO, TIAGO; MOREIRA, JOHNY.

    Financidor(es): Fundação de Amparo a Pesquisa do Estado do Amazonas.

  5. -Atual. Pesquisa em Métodos e Técnicas para Sistemas de Sugestões de Consultas. (Coordenador)

    Descrição: Neste projeto, desenvolvido em cooperação com a Jusbrasil (Goshme), são estudados e desenvolvidos métodos para ordenação de relevância em sistemas de sugestão e auto-completação de consultas, com uso de técnicas de aprendizagem de máquina. A pesquisa envolve a construção de conjuntos de dados rotulados, a definição e avaliação de características relevantes para o treinamento dos algoritmos, bem como a análise de informações de comportamento do usuário durante o processo de consulta, visando apoiar mecanismos de personalização. As soluções propostas consideram, além da qualidade da ordenação, restrições de desempenho e requisitos operacionais dos sistemas em que serão aplicadas.

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Goshme Soluções para a Internet.

  6. -Atual. Pesquisa em Métodos e Técnicas para Sistemas de Sugestões de Consultas. (Coordenador)

    Descrição: Neste projeto, pretendemos estudar e desenvolver novos métodos para ordenação de relevância em sistemas de auto completação utilizando aprendizagem de máquina. Para desenvolver um modelo usando aprendizagem de máquina é necessário construir uma base de dados rotulados e definir um conjunto de características que possam ser usadas pelo algoritmo de treinamento para aprender e desenvolver uma função próxima da solução ótima do problema. Além disso, para um sistema personalizável de acordo com usuário é necessário ter informações sobre o comportamento do usuário no momento da consulta. Contudo, a função resultante do treino tem que atender a critérios especificados pelo sistema em que será implementada para não prejudicar aspectos de desempenho.

    Integrante(s): Altigran Soares da Silva; DE MOURA, EDLENO.

    Financidor(es): GOSHME SOLUCOES PARA A INTERNET LTDA - ME.

  7. -Atual. Centro de Inovação em Inteligência Artificial para a Saúde (CIIA-Saúde). (Participante)

    Descrição: A saúde, definida pela Organização Mundial da Saúde (OMS) como estado de completo bem-estar físico, mental e social, e não apenas a ausência de doença ou enfermidade, é uma dimensão básica da vida, seja para os indivíduos, seja para as sociedades e nações. Um complexo conjunto de políticas e ações têm sido estruturados pelas nações e seus governos, em diferentes níveis, para garantir a prevenção, o diagnóstico e o tratamento adequados das doenças e alcançar o bem-estar individual e social. O custo apenas dos sistemas identificados como de saúde representa cerca de 10% do PIB mundial e, apesar dos progressos das últimas décadas, ainda persistem desafios no reconhecimento e tratamento de inúmeras condições clínicas, e mesmo para garantir que todos tenham acesso à atenção à saúde de qualidade. A inteligência artificial (IA), definida como a simulação da inteligência humana em máquinas, incluindo aprendizado, raciocínio e percepção, e as tecnologias relacionadas, é uma inovação disruptiva na área da saúde e da medicina. O foco do projeto do Centro de Inovação em Inteligência Artificial em Saúde (CIIA-Saúde) é a pesquisa e desenvolvimento de técnicas e soluções de inteligência artificial (IA) para habilitar e demonstrar o seu potencial para auxiliar os indivíduos e pacientes no autocuidado, os médicos e profissionais de saúde no diagnóstico e tratamento das doenças e os gestores de saúde na programação de ações de prevenção e organização da assistência à saúde, otimizando a utilização de recursos e melhorando a saúde das pessoas e da população no Brasil. Trata-se de um centro multidisciplinar e multiinstitucional integrando as áreas de ciências exatas e da saúde com sede na UFMG em associação com 9 instituições de ensino superior das regiões Sudeste, Sul e Norte do país, e em parceria com quatro empresas das áreas de saúde, tecnologia e educação. A equipe é constituída por 130 pesquisadores, sendo 95 bolsistas de produtividade do CNPq (19 são 1A). As áreas de saúde do Centro estão estruturadas em cinco eixos fundamentais que abrangem: 1) prevenção e qualidade de vida; 2) diagnóstico, prognóstico e rastreamento; 3) medicina terapêutica e personalizada; 4) sistemas de saúde e gestão; e 5) epidemias e desastres. Associados aos eixos e desafios da saúde, o foco das pesquisas em IA concentram-se nas seguintes áreas: i) Ética e Valores Humanos, ii) Modelos e Algoritmos, iii) Gerenciamento e Engenharia de Dados, e iv) Sistemas Computacionais. Os resultados esperados do CIIA-Saúde são agrupados em resultados de pesquisa, de inovação e de formação de recursos humanos, incluindo a publicação de artigos científicos em periódicos e conferências nacionais e internacionais de prestígio, o desenvolvimento de provas de conceito e protótipos de soluções junto a empresas e instituições de saúde, bem como a transferência de tecnologia e know-how para o mercado (com o apoio da CTIT-UFMG); e a formação de doutores e mestres. Planeja-se também ações de educação e difusão do conhecimento para estudantes do ensino fundamental e médio incluindo cursos de curta duração e vídeos educativos, e também um curso de especialização (360h) para profissionais da saúde e cursos de curta duração para a população em geral. O Centro planeja também uma intensa atividade internacional, através da colaboração com pesquisadores e instituições de excelência em pesquisa avançada. O CIIA-Saúde terá uma estrutura administrativa enxuta incluindo um Conselho Diretor, Comitê Científico Internacional, Comitê Executivo, Coordenação Técnico-Científica e Secretaria Administrativa, e contará com o apoio da Fundação de Desenvolvimento da Pesquisa (Fundep) da UFMG para o gerenciamento administrativo e financeiro.
Proc. 2020/09866-4 - Chamada FAPEP/MCTIC/CGI (2019) - R$ 939.839,04

    Integrante(s): Altigran Soares da Silva; Virgilio Almeida.

    Financidor(es): Fundação de Amparo à Pesquisa do Estado de São Paulo.

  8. -Atual. Uma Abordagem Multimodal para Identificar Viés em Mídias Sociais Digitais. (Coordenador)

    Descrição: Um problema importante mas frequentemente negligenciado em análise de redes sociais é presença de vieses, intencionais ou não, introduzidos no conteúdo veiculado em mídias sociais. Ao fazer uso de recursos como omissão seletiva de informação e escolha de palavras, fontes ou autores distintos podem transmitir impressões tendenciosas acerca de um mesmo fato, além de contribuir para a propagação de desinformação através da manipulação individual ou coletiva de indivíduos despreparados ou sem conhecimento suficiente acerca do assunto. Além disso, a presença de vieses pode impactar a forma como os consumidores de conteúdo percebem eventos, decisões políticas e discussões relacionadas a diferentes tópicos. Identificar o viés político ou ideológico em conteúdo social é uma tarefa difícil até mesmo para humanos, dado o alto nível de subjetividade envolvido. Propostas na literatura recente apresentam métodos focados principalmente em conteúdos textuais por meio de análise de sentimento, com resultados que são, infelizmente, ainda aquém do esperado. Neste projeto, vamos investigar um nova abordagem multimodal para este problema. Especificamente, vamos utilizar e combinar, através de técnicas de fusão de dados, diversos outros aspectos que, embora utilizados com sucesso em diversos outros problemas de análise de redes sociais, têm sido pouco explorados neste problema específico. Entre estes aspectos destacamos: relacionamentos existente entre fontes de conteúdo através de citações; entidades nomeadas mencionadas frequentemente pelas fontes; tópicos abstratos implicitamente e tacitamente presentes no conteúdo produzido pelas fontes; além da análise de sentimentos para identificação de ênfase. Nossa hipótese é que estes aspectos, quando adequadamente explorados e corretamente combinados, podem melhorar os resultados do estado da arte em detectar viés ideológico em portais de notícias e em redes sociais. A equipe de pesquisadores do projeto foi constituída de forma a aglutinar especialistas em métodos e técnicas relacionadas a cada um destes aspectos, e que além disso possuem larga experiência pesquisa sobre análise de redes sociais e processamento de dados massivos (Big Data). Através de procedimentos experimentais envolvendo coleções de dados reais obtidos da Web ou dados gerados sinteticamente a partir de propriedades, pretendemos avaliar a eficácia dos métodos, técnicas e algoritmos desenvolvidos durante a pesquisa e também sua eficiência e escalabilidade para instâncias reais do problema em foco.Proc. 2020/05173-4 Chamada FAPESP/MCTIC/CGI (2019) - R$ 166.638,93

    Integrante(s): Altigran Soares da Silva; André Luiz da Costa Carvalho; Eduardo Nakamura; Fabiola Nakamura.

    Financidor(es): Fundação de Amparo à Pesquisa do Estado de São Paulo.

  9. -Atual. ATMOSPHERE (Adaptive, Trustworthy, Manageable, Orchestrated, Secure, Privacy-assuring, Hybrid Ecosystem for REsilient Cloud Computing). (Participante)

    Descrição: ATMOSPHERE (Adaptive, Trustworthy, Manageable, Orchestrated, Secure, Privacy-assuring, Hybrid Ecosystem for REsilient Cloud Computing) é um projeto de 24 meses aprovado na 4th BR-UE Coordinated Call do programa H2020-EUB-2017 no tópico sobre Cloud Computing. Seu objetivo é projetar e desenvolver um ecossistema composto por um arcabouço e uma plataforma que possibilitem a implementação da próxima geração de serviços de nuvem confiáveis sobre um conjunto híbrido e intercontinental de recursos federados. O arcabouço considera um amplo espectro de propriedades de confiabilidade e suas medidas. A plataforma suporta o desenvolvimento, a construção, a implantação, a medição e a evolução de recursos de nuvem confiáveis, serviços de gerenciamento de dados e serviços de processamento de dados, e é demonstrado em um cenário sensível que consiste em um aplicativo confiável e confiável para a telemedicina distribuída na nuvem. São participantes do projeto, várias universidades brasileiras - Universidade Federal de Campina Grande (UFCG), Universidade Federal de Minas Gerais (UFMG), Universidade Estadual de Campinas (UNICAMP), Universidade Federal do Amazonas (UFAM), Universidade de Brasília (UnB) - várias universidades europeias - 	Universitat Politècnica de València (UPV), Universidade de Coimbra (UC), Politecnico di Milano (POLIMI), Technische Universität Dresden (TUD), University of Piraeus Research Center (UPRC) - além de empresas de várias nacionalidades - Trust-IT Services Ltd (Trust-IT), QUantitative Imaging Biomarkers In Medicine (QUIBIM), EMC ISRAEL ADVANCED INFORMATION TECHNOLOGIES LTD (DELL-EMC), DELL-EMC, KUNUM. R$ União Europeia, RNP, R$ 482,772.90

    Integrante(s): Altigran Soares da Silva; André Luiz da Costa Carvalho; Marco Antônio Pinheiro de Cristo; DE MOURA, EDLENO; Francisco Brasileiro.

    Financidor(es): Não possui.

  10. -Atual. SocSens - Sensoriamento de Mídias Sociais Digitais Baseado em Processamento de Sinais. (Coordenador)

    Descrição: Devido a popularização das redes sociais, a área de Análise de Redes Sociais (ARS) tem despertado crescente interesse, apresentado aplicações em diferentes campos, tais como marketing, máquinas de busca, segurança pública, saúde pública e dinâmica organizacional. Análise de Redes Sociais é a área de pesquisa que busca o entendimento das estruturas sociais e do comportamento dos indivíduos em redes sociais. Neste contexto, Mineração de Dados é uma abordagem natural para automatizar a análise de redes sociais, extraindo e explorando conhecimento proveniente de bases relacionadas com o comportamento social de usuários em ambientes virtuais. Os grupos do IComp/UFAM e CSE/NYU vêm trabalhando em problemas relacionados com análise de redes sociais sob várias abordagens, englobando, por exemplo, o uso de técnicas de aprendizagem de máquina, recuperação de informação, visualização de dados, processamento de sinais, etc. Esta multiplicidade de abordagens deve gerar soluções inovadoras para os problemas extremamente desafiantes em termos de complexidade e escala relacionados ao tema. Em particular, trata-se de uma oportunidade impar para que os pesquisadores e estudantes do Programa de Pós-Graduação em Informática do IComp/UFAM interajam com pesquisadores de excelência internacionalmente reconhecida e, além disso, tenham acesso a recursos computacionais e coleções de dados disponíveis em poucos lugares no mundo. Projeto Financiado pela CAPES através do Programa Geral de Cooperação Internacional, Proc. 88887.130299/2017-01 (R$ 400.000,00)

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; Juliana Freire; Marco Antônio Pinheiro de Cristo; Eduardo Nakamura; Fabiola Nakamura; Claudio Silva.

    Financidor(es): (CAPES) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior.

  11. -Atual. CARECO - Sistemas de Recomendação para Manutenção Colaborativa de Software. (Participante)

    Descrição: O objetivo deste projeto é investigar como sistemas de recomendação podem apoiar efetivamente as tarefas de manutenção de software e contornar as limitações mencionadas anteriormente. Este objetivo será alcançado através de cooperações entre especialistas com atuação destacada em cada uma das áreas relevantes e que fazem parte das instituições integrantes: PUC-Rio, UFAL, UFCG e UFAM. As contribuições técnicas esperadas do projeto CAReCo são: (i) sistemas de recomendação para auxiliar manutenção colaborativa de sistemas de software, (ii) métodos que apóiem avaliação da qualidade de uso de sistemas de recomendação, (iii) novos mecanismos de colaboração, integrados a ambientes de desenvolvimento, para agilizar atividades de manutenção de software, (iv) aplicação de técnicas avançadas de inteligência artificial e banco de dados para desenvolvimento de sistemas de recomendação que apoiem a manutenção colaborativa de software e (v) projeto e avaliação de sistemas de recomendação para apoio ao ensino e aprendizagem de manutenção de software. As contribuições acadêmicas esperadas deste projeto são: (i) fortalecimento da cooperação existente entre pesquisadores dos Programas de Pós-Graduação emergentes da Computação - UFAL, UFCG e UFAM e pesquisadores de um Programa de Pós-Graduação mais maduro - PUC-Rio; (ii) fortalecimento destes Programas de Pós-Graduação emergentes; (iii) promoção do intercâmbio regional de pesquisa em diferentes áreas importantes da Ciência da Computação, a serem envolvidas no projeto, tais como: Engenharia de Software, Interação Humano-Computador, Inteligência Artificial, Bancos de Dados e Sistemas Colaborativos; (iv) atração de candidatos em potencial para concursos nas instituições de pesquisa e ensino dos Programas de Pós-Graduação emergentes envolvidos; (v) aumento da produtividade de todos os Programas envolvidos; (vi) construção de uma rede cooperativa de pesquisa para alavancar o ensino, a pesquisa e o desenvolvimento nas áreas citadas acima em regiões fora do eixo RJ-SP. Esta rede cooperativa deve promover uma maior interação e mobilização de pesquisadores e estudantes de Graduação e Pós-Graduação para a solução de novos desafios científico-tecnológicos. PROCAD/CAPES 2014 88881.068507/2014-01. R$ 358.931,10

    Integrante(s): Altigran Soares da Silva; Marco Antonio Casanova; Tayana Uchôa Conte; Alberto Nogueira de Castro Junior; Thais Helena Chaves de Castro; Simone Diniz Junqueira Barbosa; Bruno Gadelha; Alessandro Fabricio Garcia; Carlos José Pereira de Lucena; Rohit Gheyi.

    Financidor(es): Não possui.

  12. -Atual. An Active Learning Approach to Match Networked Schemas. (Coordenador)

    Descrição: Given a set of schemas in the same domain, our main goal is to develop and evaluate a method to enable the integration of the schemas by establishing which pairs of schema elements have the same semantics (a matching) using classifiers and active learning, such that the established matchings must obey the network?s constraints that guarantees the logical integrity of the matching schemas.

    Integrante(s): Altigran Soares da Silva; Diego Rodrigues.

    Financidor(es): Google Inc..

  13. -Atual. eSpot - Enriquecimento de Entidades com Aspectos Extraídos de Comentários On-Line. (Coordenador)

    Descrição: Neste projeto propõe-se o desenvolvimento de métodos e técnicas para explorar o conteúdo veiculado no texto de comentários escritos por usuários para continuamente enriquecer o conhecimento disponível sobre entidades representadas em banco de dados com aspectos extraídos destes comentários. Nossa motivação é tirar proveito do vasto conteúdo gerado por usuários de forma espontânea em Web sites, fóruns, redes sociais, blogs, etc. e que descrevem aspectos variados sobre diversos tipos de entidades tais como produtos de varejo, hotéis, programas de TV, filmes, livros, jogos, escolas, professores, etc. Tais aspectos têm crescido cada vez mais em relevância e importância, pois cada vez mais usuários baseiam suas escolhas e decisões de consumo em comentários de outros usuários. Embora úteis e disponíveis publicamente, a identificação das entidades-alvo dos comentários e a extração de seus aspectos é uma tarefa desafiadora dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. 
Além da extração das entidades-alvo e aspectos, é necessário ainda identificar corretamente as correspondências entre as entidades-alvo extraídas e as entidades do banco de dados. Essa tarefa é também desafiadora porque as menções de entidades feitas em comentários de usuários são bastante ambíguas, sendo que uma mesma entidade pode ser mencionada usando diversas formas alternativas. Assim, neste projeto focamos em três problemas principais relacionados ao tema: (1) coleta automática e continuada dos comentários disponível em fontes on-line, (2) extração robusta e escalável de menções de entidades-alvo, possivelmente referenciadas através de formas alternativas, e também de aspectos relacionados a estes entidades-alvo, presentes em comentários de usuários e (3) pareamento das entidades-alvo e suas formas alternativas com entidades únicas representadas em bancos de dados. CNPq Universal - R$ 84.000,00

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti; André Luiz da Costa Carvalho; David Fernandes; de Carvalho, Moises G.; Marco Antônio Pinheiro de Cristo.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  14. -Atual. eVox-Pesquisa - Explorando opiniões em mídias sociais digitai. (Participante)

    Descrição: Cada vez mais pessoas trocam informações através de mídias sociais com uma rica variedade de possibilidades de interação. Tais mídias permitem a disponibilização de conteúdo diversificado, geralmente criado pelo próprio usuário, usando mecanismos de comunicação altamente acessíveis e escaláveis. Neste contexto, cada vez mais usuários difundem e confiam em opiniões publicadas por outros usuários sobre os mais diversos tópicos e veiculadas das mais diversas formas. Entre elas, uma de particular interesse neste projeto, são as comunidades de conteúdo dedicadas à publicação de revisões relacionadas com produtos e serviços. Tais revisões são importantes porque têm enorme impacto em decisões de consumo, na medida em que auxiliam os consumidores em seus processos de escolha e dão aos fornecedores importantes subsídios sobre os itens que eles oferecem. Assim, compreender conteúdo de revisões e suas interações pode fornecer importantes subsídios para uma variedade de aplicações de grande interesse. Contudo, realizar tais estimativas é uma tarefa particularmente desafiadora, dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. Além disso, muitas vezes, o próprio conteúdo é falso ou construído intencionalmente para influenciar a opinião dos usuários de acordo com interesses que lhes são alheios (spam). Assim, neste projeto, estudamos o problema de detecção de padrões em conjuntos de opiniões, em particular, associadas com revisões de produtos e serviços. Mais especificamente, estudamos problemas relacionados com os três grandes desafios de pesquisa: (1) fornecimento de uma infraestrutura escalável para a coleta, armazenamento e busca de revisões; (2) descoberta de conhecimento relacionado com as opiniões e (3) aplicação do conhecimento adquirido em tarefas como previsão e detecção de tendências, busca e apresentação de informação, recomendação de produtos, serviços e informação, precificação de itens e enriquecimento de informação. Como resultado, esperamos adquirir conhecimento relacionado ao desenvolvimento de um ambiente para a identificação, coleta e armazenamento eficaz de opiniões, propor e avaliar novos algoritmos e modelos para a compreensão destas opiniões e transferir a tecnologia gerada para empresas interessadas. Este projeto é de grande relevância para região ao fomentar o desenvolvimento e fixação de mão de obra em métodos de aquisição e aplicação de conhecimento, uma área estratégica e de crescente interesse econômico. Finalmente, a tecnologia desenvolvida pode ser útil para a formação de novos negócios na região. Editais 016/2013 FAPEAM/PROTI-AMAZÔNIA R$ 243.272,98

    Integrante(s): Altigran Soares da Silva; João Marcos B Cavalcanti; André Luiz da Costa Carvalho; David Fernandes; de Moura, Edleno S.; de Carvalho, Moises G.; Marco Antônio Pinheiro de Cristo.

    Financidor(es): Fundação de Amparo a Pesquisa do Estado do Amazonas.

  15. -Atual. eVox-Mobilidade - Explorando opiniões em mídias sociais digitai. (Participante)

    Descrição: Cada vez mais pessoas trocam informações através de mídias sociais com uma rica variedade de possibilidades de interação. Tais mídias permitem a disponibilização de conteúdo diversificado, geralmente criado pelo próprio usuário, usando mecanismos de comunicação altamente acessíveis e escaláveis. Neste contexto, cada vez mais usuários difundem e confiam em opiniões publicadas por outros usuários sobre os mais diversos tópicos e veiculadas das mais diversas formas. Entre elas, uma de particular interesse neste projeto, são as comunidades de conteúdo dedicadas à publicação de revisões relacionadas com produtos e serviços. Tais revisões são importantes porque têm enorme impacto em decisões de consumo, na medida em que auxiliam os consumidores em seus processos de escolha e dão aos fornecedores importantes subsídios sobre os itens que eles oferecem. Assim, compreender conteúdo de revisões e suas interações pode fornecer importantes subsídios para uma variedade de aplicações de grande interesse. Contudo, realizar tais estimativas é uma tarefa particularmente desafiadora, dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. Além disso, muitas vezes, o próprio conteúdo é falso ou construído intencionalmente para influenciar a opinião dos usuários de acordo com interesses que lhes são alheios (spam). Assim, neste projeto, estudamos o problema de detecção de padrões em conjuntos de opiniões, em particular, associadas com revisões de produtos e serviços. Mais especificamente, estudamos problemas relacionados com os três grandes desafios de pesquisa: (1) fornecimento de uma infraestrutura escalável para a coleta, armazenamento e busca de revisões; (2) descoberta de conhecimento relacionado com as opiniões e (3) aplicação do conhecimento adquirido em tarefas como previsão e detecção de tendências, busca e apresentação de informação, recomendação de produtos, serviços e informação, precificação de itens e enriquecimento de informação. Como resultado, esperamos adquirir conhecimento relacionado ao desenvolvimento de um ambiente para a identificação, coleta e armazenamento eficaz de opiniões, propor e avaliar novos algoritmos e modelos para a compreensão destas opiniões e transferir a tecnologia gerada para empresas interessadas. Este projeto é de grande relevância para região ao fomentar o desenvolvimento e fixação de mão de obra em métodos de aquisição e aplicação de conhecimento, uma área estratégica e de crescente interesse econômico. Finalmente, a tecnologia desenvolvida pode ser útil para a formação de novos negócios na região. Editais 015/2013 FAPEAM/PROTI-AMAZÔNIA R$ 78.372,00

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos B Cavalcanti; André Luiz da Costa Carvalho; Moises Carvalho; David Fernandes; Marco Antônio Pinheiro de Cristo.

    Financidor(es): Não possui.

  16. -Atual. Ampliação de Estrutura Multidisciplinar de Pesquisa e Pós-Graduação em Informática da UFAM. (Coordenador)

    Descrição: O presente projeto foi concebido para solicitar o apoio da CAPES para complementar o investimento feito na construção de novas instalações físicas para o PPGI/UFAM, equipando os laboratórios de pesquisa , tendo como objetivos maiores não só dar um salto na qualidade das pesquisas do PPGI, como também aumentar sua cooperação com outros grupos da UFAM, como os programas de pós-graduação em Engenharia Elétrica (PPGE), Ciências do Ambiente e Sustentabilidade na Amazônia e Matemática. Considerando esse contexto, este projeto visa obter recursos para a aquisição de equipamentos para prover uma infraestrutura unificada para o PPGI/UFAM e que atenda às necessidades dos grupos de pesquisa que atuam diretamente no programa e outros grupos de pesquisa da UFAM que trabalham com computação, bem como de outras unidades e instituições que interagem com o Instituto de Computação da UFAM, como Instituto Federal do Amazonas (IFAM), Instituto Nacional de Pesquisa da Amazônia (INPA), Universidade do Estado do Amazonas (UEA) e Fundação Centro de Análise e Pesquisas (FUCAPI).

    Integrante(s): Altigran Soares da Silva; Rosiane de Freitas Rodrigues; Alberto Nogueira de Castro Junior; de Moura, Edleno S.; Eulanda Miranda dos Santos; Raimundo da Silva Barreto; Edjair de Souza Mota.

    Financidor(es): Não possui.

  17. -Atual. Técnicas para Tratamento de Documentos Semi-estruturados na Web. (Coordenador)

    Descrição: Neste projeto enfocamos o desenvolvimento de métodos e técnicas para obter, extrair e utilizar informações (semi) estruturados que estão implicitamente disponíveis dentro do vasto conteúdo textual não-estruturado da Web. Trabalhos que buscam explorar de forma efetiva os dados estruturados disponíveis na Web têm surgido na literatura há pelo menos uma década. Mais recentemente, com o avanço do estado-da-arte de áreas como recuperação de informação, aprendizagem de máquina e mineração de dados, este tema ganhou um novo impulso e novos projetos têm surgido tanto na academia quanto na indústria. De fato, o tema tem crescido em importância na comunidade científica nos últimos anos, o que pode ser comprovado pelo espaço considerável que veículos de publicação importantes de áreas de pesquisa como bancos de dados, recuperação de informação e inteligência artificial têm devotado pra trabalhos de pesquisa a ele relacionados. Isso se justifica não apenas pelos problemas desafiadores que se apresentam, mas principalmente pela crescente demanda da indústria para solução de problemas relacionados a este domínio. Isso faz com que os resultados de pesquisa nesta área sejam não somente imediatamente aplicáveis como realimentem continuamente a investigação científica em torno dela. EDITAL N. 009/2011 - FAPEAM/PRONEM - R$ 277.789,81

    Integrante(s): Altigran Soares da Silva; João Marcos B Cavalcanti; Daniel R. Fernandes; de Moura, Edleno S.; Marco Antônio Pinheiro de Cristo.

    Financidor(es): Não possui.

  18. -Atual. DOMAR - Extração de Dados em Fontes Textuais de Domínios Arbitrários na Web. (Coordenador)

    Descrição: Neste projeto propomos a utilização do vasto volume de dados presentes em fontes de conhecimento de domínio disponíveis na Web, tais como Wikipedia e Freebase,para viabilizar o emprego de métodos não-supervisionados de IETS em aplicações de extraçãoem domínios arbitrários, ou seja, nas quais os domínios não estejam previamente especificados.Apesar do seu grande potencial, tal abordagem não tem sido estudada apropriadamente na literatura recente. O projeto envolve vários sub-problemas desafiadores relacionaods, a saber: (1) coleta automática e continuada dos dados disponível nas fontes; (2) organização destes dados de forma semanticamente coerente para composição de bases de conhecimento; (3) construção de bases de conhecimento para cada aplicações de extração; (4) avaliação da qualidade dos dados coletados para a utilização em tarefas de IETS e a aplicação de métodos para, quando necessário, garantir esta qualidade. Processo 476798/2011-6, CNPq/Universal 14/2011 - Faixa C. R$ 148.720,00

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  19. -Atual. Extração de Informação em Fontes Textuais. (Coordenador)

    Descrição: Este projeto é uma continuação do projeto financiado no ano de 2010 pelo Programa UOL Bolsa Pesquisa. Visa à extensão, formalização e divulgação de uma nova abordagem para extração não-supervisionada de informações disponíveis em fontes textuais genéricas, a qual foi desenvolvida no projeto passado. Pretendemos estender nossa abordagem em três aspectos principais: (1) Simultaneamente à extração das informações, descobrir e extrair a estrutura de objetos complexos presentes em fontes textuais (tabelas, listas, registros), o que é uma limitação real identificada nos atuais métodos de extração e que prejudica a total automatização do processo; (2) Atualmente a extração não-supervisionada (sem a interferência do usuário) com nossa abordagem alcança altos níveis de qualidade (acima de 90% em medida F). Para atingir níveis mais próximos a 100% pretendemos desenvolver técnicas baseadas em Relevance Feedback e Active Learning para incorporar de forma inteligente e não intensiva o julgamento do usuário ao processo de extração; (3) Nossa abordagem depende da construção prévia de bases de conhecimento no domínio das informações a serem extraídas. Pretendemos desenvolver uma série de técnicas para obtenção destas bases de forma massiva a partir de bases estruturadas disponíveis na Web (p.ex., Wikipedia).

    Integrante(s): Altigran Soares da Silva; Eli Cortez.

    Financidor(es): Universo Online.

  20. -Atual. Acordo Brasil-Índia - Pesquisas Conjuntas - Área de Computação. (Participante)

    Descrição: O objetivo geral deste projeto é o desenvolvimento de atividades de pesquisa científica, tecnológica e de inovação na área de Computação envolvendo grupos de pesquisa do Brasil e da Índia, mediante apoio financeiro a projetos de pesquisa em cooperação. Também é esperado o intercâmbio de pesquisadores e estudantes entre as instituições participantes visando a troca de experiências na formação de mão-de-obra altamente qualificada para pesquisa e desenvolvimento em Tecnologia de Informação.CNPq Processo 49.0441/2009-2 R$ 350.000,00

    Integrante(s): Altigran Soares da Silva; Alberto Henrique Frade Laender; Virgilio Almeida; Amit Bhaya; Edmundo de Souza e Silva; Jose Roberto Boisson de Marca; Roberto M. Cesar-Jr; José Carlos Maldonado.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  21. -Atual. Integrando técnicas de mineração de dados e texto em groupware. (Coordenador)

    Descrição: A compreensão e a formalização dos aspectos envolvidos na produção e recuperação de artefatos digitais requerem uma fundamentação teórico-metodológica e um conjunto de ferramentas para elicitação, organização e manuseio do conhecimento. Neste projeto, propõe-se a investigação e utilização de técnicas de mineração de dados e textos aplicadas a groupware. Edital MCT/CNPq/CT-Amazônia 2008 Proc. 575553/2008-1 R$119,317.64

    Integrante(s): Altigran Soares da Silva; Crediné Silva de Menezes; Alberto Nogueira de Castro Junior; Bruno Freitas Gadelha; Thais Helena Chaves de Castro; Marcos André Fernandes Spósito; Hugo Fuks.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  22. -Atual. Busca e Classificação de Imagens com Combinação de Múltiplas Características. (Participante)

    Descrição: Neste projeto serão estudadas soluções para busca e classificação de imagens, tendo como base os problemas de detecção de desmatamento de imagens de satélite e/ou radar e a identificação de versões de imagens associadas a crimes. É esperado que ao longo dos três anos de trabalho, novas aplicações sejam identificadas, onde nossa abordagem possa ser aplicada. Ao final do projeto esperamos ter desenvolvido um conjunto de soluções que formem um arcabouço geral para ajudar na resolução de problemas de busca e classificação de imagens. CNPq - Edital CT-AMAZONIA/MCT/CNPq nº 55/2008 R$ 72.434,00

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; Marcos A. Gonçalves; João Marcos B Cavalcanti; Ricardos Torres.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  23. -Atual. PMS - Plataforma Multiserviços. (Participante)

    Descrição: A PMS integra um sistema de software com a infra-estrutura de telefonia, que provê uma interface (Web) de aplicações para os usuários. As aplicações envolvem menu de opções do portal de voz, registro da navegação do usuário pelo menu de opções, relatórios sobre estatísticas de uso do portal de voz, entre outras. O projeto aqui proposto prevê um estudo aprofundado de soluções para o desenvolvimento da PMS-Trópico e uma avaliação da solução atual, propondo alterações quando necessário. Estão previstas ainda as ativi-dades de desenvolvimento da solução/alterações propostas neste projeto e o desenvolvimento de novas funcionalidades de acordo com requisitos dos clientes da Trópico. 
 Trópico Telecomunicações R$ 228.009,61

    Integrante(s): Altigran Soares da Silva; João Marcos B Cavalcanti.

    Financidor(es): Trópico Telecomunicações da Amazônia.

  24. -Atual. Sistema de Recomendação para TV Digital Móvel. (Participante)

    Descrição: Este projeto em parceria com o Instituto Nokia de Tecnlogia - INdT - tem como objetivo geral o desenvolvimento de um Sistema de Recomendação para o ambiente de TV Digital Móvel, com aprendizado automático das preferências do usuário. Para isso, as seguintes tarefas devem ser realizadas: - Estudo de técnicas do estado-da-arte na área de Recuperação de Informação para a aplicação no problema de recomendação em TV Digital Móvel; - Definição da arquitetura de recomendação para o problema em questão; - Aplicar conceitos de aprendizagem de máquina para inferir as preferências dos usuários com o mínimo de interação deste com o sistema; - Experimentação prática para validação do modelo. Com esse trabalho, esperamos contribuir diretamente em pelo menos dois aspectos específicos. Primeiro, adequar as técnicas de recomendação para o ambiente de TV Digital móvel. Em segundo lugar, tornar o processo de detecção das preferências dos usuários o mais automatizado possível.

    Integrante(s): Altigran Soares da Silva; João Marcos B Cavalcanti.

    Financidor(es): INDT - INSTITUTO DE DESENVOLVIMENTO TECNOLOGICO.

  25. -Atual. Recuperação de Informação na Web Invisível. (Coordenador)

    Descrição: Este projeto tem objetivo a alocação de recursos para apoiar as atividades de pesquisa conjuntamente desenvolvidas desde 2005 entre o Grupo de Tecnologia da Informação da Universidade Federal do Amazonas (GTI/UFAM) e o Data Management Group da University of Utah (DMG/UUTAH) em torno de temas relacionados à recuperação de informação e gerência de dados na assim chamada Web Invisível (Hidden Web). As atividades de pesquisa serão concentradas em duas linhas principais de investigação relacionada a problemas de recuperação de informação na Web Invisível: Geração de coletores de páginas ricas em dados visando alimentar extratores de dados (Linha 1) e Organização automática de formulários visando a construção de meta-buscadores (Linha 2). Edital CNPq/NSF 2007 Proc 490199/2007-0 R$49,000.00

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti; Juliana Freire.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  26. -Atual. Infra-Estrutura para Pesquisa Científica e Tecnológica nos Campi Regionais da UFAM. (Coordenador)

    Descrição: A necessidade de desenvolvimento científico e tecnológico nos campi regionais recentemente implantados pela UFAM no Amazonas exige a sustentação continuada das competências existentes e a ampliação da capacidade instalada tanto de infra-estrutura física como de recursos humanos, possibilitando a geração de conhecimentos, formando e atraindo novos pesquisadores para a região. Dentro dessa perspectiva, a presente proposta tem como objetivo impulsionar o processo de implantação de infra-estrutura nos campi regionais da UFAM, com a finalidade de consolidar e ampliar as atividades de pesquisa, desenvolvimento tecnológico e de pós-graduação nas unidades, em uma abordagem inter e multidisciplinar. A instalação da infra-estrutura pleiteada possibilitará a consolidação dos grupos de pesquisa existentes e a formação de novos grupos, produtores de conhecimento em suas áreas de atuação. Financimento: R$ 684.019,00

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Financiadora de Estudos e Projetos.

  27. -Atual. SAUIM ? Sistema de Monitoramento e Armazenamento de Dados de FaUna Terrestre e MIcro-clima Gerados por Sensores Móveis e Fixos. (Coordenador)

    Descrição: Este projeto propõe-se a investigar a aplicação de Redes de Sensores sem Fio e de Bancos de Dados de Sensores ao monitoramento e armazenamento de dados de espécimes de fauna terrestre e micro-clima em um ambiente típico da região amazônica. Tal estudo abrange desde a investigação teórica e experimental do problema através de simulação, até a implementação real de uma Rede de Sensores em campo para o monitoramento de populações de espécimes do primata Saguinus Bicolor, popularmente conhecido como sauim-de-coleira, que habitam áreas urbanas nas cercanias de Manaus, notadamente o Campus da UFAM.
Edital MCT/CNPq/CT-Amazônia/CT-Energ 2006 Proc. 554087/2006-5 R$ 255,511.78

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  28. -Atual. Extração de dados em textos semi-estruturados. (Coordenador)

    Descrição: Neste projeto propomos uma nova abordagem para extração em textos semi-estruturados baseada em Modelos de Markov Ocultos (Hidden Markov Models - HMM). Ao contrário de outros trabalhos baseados em HMM, nossa abordagem dá ênfase à extração de metadados além dos dados propriamente ditos, levando em consideração que dados e metadados podem estar relacionados para formar um único atributo. Por exemplo, no trecho de um anúncio de classificados de imóveis na Web ?2 qtos.?, os termos ?2? (dado) e ?qtos.?(metadado) quando tomados isoladamente não têm um sentido completo. Porém, quando tomados como formando um par <dado, metadado> temos a ocorrência implícita de um atributo, por exemplo, QUARTOS. A extração de dados implícitos em textos semi-estruturados é um problema de grande relevância, tendo sido abordado por vários pesquisadores na literatura recente. Porém, em nenhum destes trabalhos é considerada a extração dos metadados que complementam o sentido dos dados extraídos. Em nosso trabalho, consideramos que a identificação e extração de metadados em textos semi-estruturados têm grande importância, pois: (1) metadados ajudam a identificar os dados com maior precisão, principalmente para valores numéricos; (2) os metadados no texto não pertencem ao domínio dos atributos, devendo ser extraídos separadamente dos dados; (3) o conjunto de metadados extraído pode ser utilizado em várias aplicações que envolvem busca baseada em palavras-chave. Nossa abordagem baseia-se em uma estrutura aninhada de HMMs, onde um HMM principal identifica os atributos no texto e HMMs internos, um para cada atributo, identificam os dados e metadados. Estas HMMs são construídas automaticamente com base em um conjunto de dados preparados em uma fase de treinamento.

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Universo Online.

  29. -Atual. Reestruturação da Rede de Dados da UFAM para Apoio a Atividades de Pesquisa. (Coordenador)

    Descrição: Este projeto propõe a reformulação e expansão da infra-estrutura da rede de dados da UFAM através da implantação de novos equipamentos baseados em tecnologias Gigabit Ethernet. Tal reformulação se faz necessária devido à obsolescência dos equipamentos atuais baseados na tecnologia ATM, descontinuada pelos fornecedores de equipamentos de rede. Desta forma será possível garantir serviço de conexão ininterrupto e de boa qualidade entre os diversos órgãos da UFAM e destes com a Internet a um custo comparativamente menor de manutenção. Visamos reestruturar a infra-estrutura de rede da UFAM, atendendo propriamente às necessidades das atividades de pesquisa, extensão e ensino, bem como estar apto ao futuro crescimento de seu parque computacional através da revitalização do backbone já instalado, adequando a rede a uma tecnologia moderna, funcional e confiável.&#10;Valor do Projero: R$ 1.871.339,00

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Financiadora de Estudos e Projetos.

  30. -Atual. ADAPTINF - Algoritmos Adaptativos para Recuperação de Informação. (Coordenador)

    Descrição: Hoje em dia, com o desenvolvimento a baixo custo de sistemas informatizados, a maior parte da&#10;informação é armazenada de forma digital. De fato, o funcionamento de instituições em todas as&#10;áreas sociais depende de sistemas de informação eficazes e eficientes. No entanto, o&#10;desenvolvimento de sistemas para o tratamento de informação digital não é uma tarefa trivial. Para&#10;problemas de importância, como seleção de documentos acordo com preferências de usuários ou a&#10;organização de documentos em categorias temáticas, existem atualmente apenas soluções&#10;heurísticas.&#10;&#10;Estas soluções, no entanto, são normalmente desenvolvidas para uma coleção específica de&#10;documentos. A sua aplicação em coleções diferentes requer adaptações mais ou menos complexas,&#10;o que implica um esforço adicional de pesquisa e implementação. O uso de algoritmos adaptativos&#10;pretende resolver de forma genérica alguns dos problemas encontrados em RI. Algoritmos&#10;adaptativos possuem uma capacidade de aprendizagem de parâmetros, o que os torna mais&#10;genéricos e, consequentemente, independentes de intervenção humana para que se passam&#10;adaptar a diferentes ambientes.&#10;&#10;Neste projeto, pretendemos estudar, avaliar e implementar diversas soluções para problemas de RI&#10;textual usando algoritmos adaptativos. Problemas de classificação, ordenação e recomendação de&#10;documentos serão abordados usando diversas soluções adaptativas. Serão testadas soluções&#10;baseadas em, entre outros, algoritmos genéticos, algoritmos de clustering e algoritmos de&#10;classificação supervisionada. O foco principal das aplicações desenvolvidas será a World Wide Web&#10;um repositório de informação de importância mundial, onde, devido à sua estrutura dinâmica&#10;e grande variabilidade, são essencias técnicas adaptativas.

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Não possui.

  31. -Atual. SIRIAA - Sistemas de Recuperação de Informação em Ambientes com Adversário. (Participante)

    Descrição: Este projeto visa o estudo de soluções para problemas de recuperação de informação em ambientes com adversários, os quais consideram a existência de pessoas interessadas em burlar o sistema, fazendo uso incorreto dos mesmos e trazendo prejuízos aos demais usuários. O projeto enfoca principalmente quatro aplicações específicas: controle de mensagens indesejadas (spam) em sistemas de correio eletrônico (e-mails), detecção e eliminação de informações falsas em bases de dados de máquinas de busca (ou motores de busca), transposição de barreiras à extração de dados em sites Web e filtragem de conteúdo ofensivo em navegadores utilizados para o acesso a páginas Web. &#10;CNPq - Edital CT-AMAZONIA/MCT/CNPq nº 27/2005 R$ 380.121,28

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  32. -Atual. 5SVQ - Uso do Arcabouço 5S para Desenvolvimento de uma Nova Geração de Bibliotecas Digitais. (Participante)

    Descrição: O potencial educacional e de preservação e disseminação cultural e científica existente nas bibliotecas digitais é inegável. Tal potencial é ainda mais relevante no Brasil, onde bibliotecas digitais podem atuar como ferramentas de apoio a soluções de problemas específicos do país tais como exclusão digital, analfabetismo, má preparação de educadores e falta de material educacional de qualidade, má preservação da memória nacional, falta de divulgação do conhecimento científico produzido pelas universidades e transferência tecnológica, para citar uns poucos. &#10;&#10;O avanço e o crescimento da pesquisa na área de bibliotecas digitais remonta aos primórdios da Web. O enorme crescimento da área pode ser constatado pelos milhões de dólares investidos em centenas de projetos de pesquisa e desenvolvimento nos EUA, Europa e outros países do mundo na última década. Diferentemente da Web, a informação em bibliotecas digitais é explicitamente criada, organizada, gerenciada e mantida, geralmente visando um comunidade alvo específica. A informação coletada em bibliotecas digitais tem portanto um maior potencial de valor agregado para estas comunidades. A contrução e manutenção de bibliotecas digitais é, contudo, uma tarefa não trivial. As técnicas e ferramentas a serem desenvolvidas nesse projeto pretendem ao mesmo tempo facilitar a construção desse tipo de sistema, principalmente por não-especialistas, e garantir que os sistemas contruídos tenham alta qualidade e valor agregado para o seu público-alvo. &#10;&#10;Esta projeto é focado em uma aplicação-chave, bibliotecas digitais, com instâncias definidas, inclui o desenvolvimento de componentes de software para geração de protótipos de bibliotecas digitais e engloba pesquisa básica e experimentação em algoritmos de mineração de dados, paralelismo, e em algoritmos adaptativos bem como modelos teórico-formais de bibliotecas digitais.

    Integrante(s): Altigran Soares da Silva; Alberto Henrique Frade Laender; Edleno Silva de Moura; Wagner Meira Junior; Marcos A. Gonçalves; João Marcos B Cavalcanti; Pável P. Calado.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  33. -Atual. Geração Automática de Coletores Especializados para a Hidden Web. (Coordenador)

    Descrição: O presente projeto tem como objetivos o desenvolvimento de métodos e técnicas para geração automática de coletores especializados de páginas semi-estruturadas e ricas em dados existentes em Web sites de conteúdo dinamicamente gerado, ou seja, aqueles que compõem a chamada Web Invisível. Nossa motivação é contribuir com o desenvolvimento de uma nova geração de sistemas de busca que sejam capazes de dar tratamento adequado a páginas deste tipo, o que não é possível com as atuais máquinas de busca. As páginas da Web invisível ocorrem em grande volume e abrigam conteúdo de alta relevância e interesse. Estão presentes em inúmeros sites dos mais variados domínios, incluindo comércio eletrônico, bibliotecas digitais, museus, coleções biológicas, etc. Este vasto e valioso conteúdo é praticamente ignorado pelas máquinas de busca atuais. Algumas propostas para coleta de páginas na Web invisível têm surgido na literatura nos últimos anos. Diferentemente destas abordagens, a nossa prescinde da atuação exaustiva de usuários uma vez que é baseada somente em exemplos. Mas especificamente, nosso método é capaz de gerar automaticamente coletores especializados para recuperar páginas estruturalmente similares às páginas de exemplo indicadas por um usuário. O coletor especializado gerado navegará somente pelo sub-grafo do Web site que leva até estas páginas e, quando necessário, preencherá automaticamente os campos de formulários que geram estas páginas.

    Integrante(s): Altigran Soares da Silva; Márcio Luiz Vidal.

    Financidor(es): Universo Online.

  34. -Atual. Projeto Tamanduá. (Participante)

    Descrição: O Projeto Tamanduá tem por objetivo projetar e implementar uma plataforma escalável e eficiente de serviços de mineração de dados. Essas propriedades são atingidas pela utilização de novos algoritmos paralelos construídos sobre a plataforma Formigueiro (Anthill), onde é possível explorar três dimensões de paralelismo: dados, tarefas e assincronia. A plataforma resultante do Projeto Tamanduá vem sendo utilizada por diversos órgãos de governo para atividades como caracterização de perfil de compras governamentais e detecção de fraudes. .

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; Wagner Meira Junior; João Marcos Bastos Cavalcanti; Renato Antônio Celso Ferreira; Dorgival Olavo Guedes Neto.

    Financidor(es): Universidade Federal de Minas Gerais; Financiadora de Estudos e Projetos.

  35. -Atual. SiteFix - Adaptação de Web Sites para Tarefas de Recuperação de Informação. (Coordenador)

    Descrição: Este projeto propõe uma para a geração automática (ou semi-automática) de versões de Web sites (ou de partes de Web sites) que sejam mais adequadas para sistemas de RI e que possam até mesmo cooperar com tais sistemas. Esta abordagem é baseada na idéia de se poder, de forma (semi) automática, (1) coletar informação semanticamente enriquecidas de Web sites, incluindo seu conteúdo e estrutura, para produzir uma representação lógica intermediária destes sites; (2) analisar esta representação lógica para verificar propriedades que reflitam requisitos de adequação a tarefas de RI; (3) sintetizar, com base nesta análise, versões (possivelmente várias) que tenham conteúdo equivalente ao do sítio Web original, mas que possuam a características de serem mais adequadas para o processamento automático por sistemas de RI do que o sítio original. O objetivo final é fazer com que as páginas dos Web sites possam ser encontradas com maior facilidade por usuários de sistemas RI na Web tais como máquinas de busca, robôs de coleta de páginas e sistemas de filtragem de informação.

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti.

    Financidor(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico.

  36. -Atual. Sistema de Recomendação para TV Digital Móvel. (Participante)

    Descrição: Este projeto em parceria com o Instituto Nokia de Tecnlogia - INdT - tem como objetivo geral o desenvolvimento de um Sistema de Recomendação para o ambiente de TV Digital Móvel, com aprendizado automático das preferências do usuário. Para isso, as seguintes tarefas devem ser realizadas: - Estudo de técnicas do estado-da-arte na área de Recuperação de Informação para a aplicação no problema de recomendação em TV Digital Móvel; - Definição da arquitetura de recomendação para o problema em questão; - Aplicar conceitos de aprendizagem de máquina para inferir as preferências dos usuários com o mínimo de interação deste com o sistema; - Experimentação prática para validação do modelo. Com esse trabalho, esperamos contribuir diretamente em pelo menos dois aspectos específicos. Primeiro, adequar as técnicas de recomendação para o ambiente de TV Digital móvel. Em segundo lugar, tornar o processo de detecção das preferências dos usuários o mais automatizado possível..

    Integrante(s): Altigran Soares da Silva; João Marcos Bastos Cavalcanti.

    Financidor(es): INDT - INSTITUTO DE DESENVOLVIMENTO TECNOLOGICO.

  37. -Atual. Extração de Informação em Fontes Textuais. (Coordenador)

    Descrição: Este projeto tem com objetivos: Proposta e desenvolvimento de nova abordagem para extração de dados e metadados de documentos contendo textos semi-estruturados e que são ricos em dados, por exemplo: Artigos Científicos, Anúncios de Classificados, Currículos, etc.; Desenvolvimento de uma Nova técnica que combina elementos estatísticos de abordagens como HMM (Hidden Markov Models) , CRF (Conditional Random Fields) com técnica não supervisionada, denominada FLU-CiM., motivada pelo alto grau de esforço humano necessário e alto custo computacional requerido por técnicas que existem atualmente na literatura.&#10;Permitir a realização de operações complexas de consulta, busca e mineração sobre dados implícitos que ocorrem em textos semi-estruturados; Estudo e desenvolvimento de técnica para Verificação Automática da qualidade dos dados extraídos pela nova abordagem.

    Integrante(s): Altigran Soares da Silva.

    Financidor(es): Universo Online.

  38. -Atual. RiBiDi - Recuperación de Información y Bibliotecas Digitales. (Participante)

    Descrição: O projeto promove a coperação Ibero-Americana na pesquisa e desevolvimento de tecnologias para recuperação de informação e bibliotecas digitais. Tem a duração de 3 anos e conta com a paticipação de instituições e pesquisadores da Espanha, Portugal, Chile, Brasil, México, Colombia e Argentina.

    Integrante(s): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti.

    Financidor(es): Universidade de Chile; Universidade Federal de Minas Gerais; Universidade Federal do Rio Grande do Sul; Programa Iberoamericano de Ciencia Y Tecnología Para El Desarrollo.