1. 1), (ambiguïté),., ( ). 2),.,.. L1 L2, L1 L2,. L1 L2, L2 L1, L1..,,,. L1, L2, L1 L2 (Bilingual Indexing).,... L1 L2,. L1 L2. L1, L1.,. < 1> (www.google.co.kr). 1) 2002 (KRF-2002-A00219).. 2) Douglas(1996), Hull(1996), Ballesteros(1996). 1
< 1. > 3 70. <> 2 ( ). <>... <> <contrôle> <remerciement>.. (L1 ). L2 (L1 ) (L1 ). L2. < 2>. 2
< 2. (www.sephora.fr/www.ysl.fr)>. note' accord',.... [1],. [2]. [3]. <> <parfum>.,. 3
.. (kr.altavista.com), < 3>. 3) < 3. LANCOME ALTAVISTA >, spray' (), How to use.. 2, 3. 4. 2.. 3) ALTAVISTA SYSTRAN,,.. 4
(locution) (phrase) (traitement automatique des langues naturelles).. (mot isolé). ().,. (bruit). <> <>, <>. < 4> <>. < 4. (www.naver.com)> <>,.,.,,. 2.1.,.. <> 8,.. 4) 5
[1] : X, X? [2], : [1] X, X? [3], : [1] X, X,? [1], [2] [3].,,,. DECOS 5) 15,000 2,900. < 1>. AMB 1 1 2 2 N_AMB AMB 1 1 2 6) 3 4 5 6 6 < 1. > 2 95%( 2734 /2900 ). 2 85% 1 3. < 2> 2 4).. (2004). 5) DECOS (2005). 6) <> 2 3, 4. [3]. <>, 1 5, 6 3 (AMB). 6,.,.. 6
21%(2734 /12610 ), 11%(53 /448 ), 3 5%(95 /1835 ). 7) 1 448 53 11.8 % 2 12610 2734 21.7 % 3 1835 95 5.2 % 14893 2882 19.4 % ( ) < 6. >, 15,000 19%, 5 1. 3, 4,, 2 3 2 (2 77%, 3 95% 2 ).,.. <> <>, <>.,,. 2.2.,., <> <>,. (1 ㄱ ) 1 : < > < > < > (1 ㄴ ) 2 : < > < > < > (2ㄱ) 1 : < > < > (2ㄴ) 2 : < > < > < >, <>. (1 ㄴ ) <>, (1 ㄱ ) <>. (1 ㄴ ). <> (1 ㄱ ), (1 ㄴ ),. ㆍ 7) 2 5, 1 10, 3 20. 2. 7
.. 2,900.. [1]. [2],. 22,000. < 3>. NO ENTRY N1 N N2 Code Structure 1 1 1 Ncomp Pfx/N 2 1 1 Ncomp Pfx/N 3 1 1 Ncomp Pfx/N 4 2 2 Ncomp Pfx/N 5 2 2 Ncomp Pfx/N 6 2 2 Ncomp N/Sfx 7 3 3 Ncomp Pfx/N 8 4 4 Ncomp Pfx/N 9 4 4 Ncomp Pfx/N 10 1 1 Ncomp Pfx/N 11 1 1 Ncomp Pfx/N 12 1 1 Ncomp N/Sfx 13 2 2 Ncomp Pfx/N 14 2 2 Ncomp N/Sfx 15 2 2 Ncomp N/Sfx 16 3 3 Ncomp N/Sfx 17 3 3 Ncomp N/Sfx 18 3 3 Ncomp N/Sfx 19 3 3 Ncomp N/Sfx 20 3 3 Ncomp N/Sfx < 3. >,, ( ). 3.., 8
. (indexation). <> ㆍ, <parfum>,,, <>..? < 5>. 8) < 5. > 8) (2000). 9
(Yves Saint-Laurent).., (noms propres)', (noms communs)'... 3.1.,, (noms propres)'.,. IN LOVE AGAIN YVRESSE EAU LEGERE YVRESSE PARIS OPIUM RIVE GAUCHE Y IN LOVE AGAIN, YVRESSE IVRESSE (, ), RIVE GAUCHE (Cf. ).. (traduction) (transcription),,.,. 9) 3.2. (terme technique). (mot classifieur). Pour femme Pour homme Accord Composants Style Pour homme/pour femme, () / ().. pour femme' ( ) 9) (2002). 10
. pour homme' homme. femme',. ACCORD, COMPOSANTS, STYLE. (Cf. ). ACCORD : n.m. 1, 2, 3, 4 5, 6 [], 7 [] 8 [] COMPOSANT : a.,, n.m. 1 2 [, ] ( ) 3 [] 4 [] ( ), n.f. 1 ( ),, 2 [, ] () 3 [] ( ) STYLE : n.m. 1 (, ) 2 () 3 [], 4 ( ), 5, 6 ( ), 7 [] 8 [], [] 9, accord 8, composant (,, ), 7, style 9. accord, 3,, composant. style,.,,,.,. < 4>. ACCORD COMPOSANTS STYLE < 4. > 3.3.,., (Attribut),.. ACCORD() : COMPOSANTS( ) :, STYLE() : 11
<1> ACCORD : ACCORD ALDEHYDE CASSIS CHYPRE COMPOSÉ EPICÉ FLEURAL FLEURI FLORAL FRUITÉ HESPERIDE ORIENTAL ROSE VERT <2> COMPOSANTS : COMPOSANTS ACCORD CHYPRE BERGAMOTE BOIS DE SANTAL BRIMBELLE ET RAISIN FEUILLES DE CASSIS FLEURS DE NECTARINE GARDENIA JASMIN LYCHEE MANDARINE MIMOSA MYRRHE NECTARINE NENUPHAR ET MURE ROSE SANTAL VANILLE VIOLETTE YLANG YLANG <3> STYLE : STYLE SPONTANEITE ET FRAICHEUR IMPETUEUSE UNE NOUVELLLE EMOTION TENDRE ET SUBITE JOIE DE VIVRE ET COMPLICITE ROMANTISME ET FEMINITE SENSUALITE A L EXTREME IMPERTINENCE ET AUDACE RAFFINEMENT ET ELEGANCE INTEMPORELLE,. ( cassis, oriental, jasmin, rose, vanille ) 10), ( joie de vivre et complicité)... 10) (accord) (composants). 12
. < 5> < - > (<LEX-PARFUM>). IN LOVE AGAIN YVRESSE EAU LEGERE YVRESSE 1 PARIS OPIUM RIVE GAUCHE Y ACCORD COMPOSANTS 2 STYLE NOTE DE TETE NOTE DE COEUR NOTE DE FOND ALDEHYDE AMBRE CASSIS CHYPRE COMPOSÉ EPICÉ FLEURAL FLEURI FRAIS FLORAL FRUITÉ HESPERIDE ORIENTAL ROSE VERT ACCORD CHYPRE AMBRE GRIS BERGAMOTE 3 BOIS DE SANTAL BRIMBELLE ET RAISIN CISTE DASMACUS FEUILLES DE CASSIS FLEURS DE NECTARINE GARDENIA JASMIN LADBANUM LYCHEE MANDARINE MIMOSA MYRRHE, NECTARINE NENUPHAR ET MURE OSMANTHUS PATCHOULI ROSE SANTAL VANILLE VIOLETTE YLANG YLANG < 5. <LEX-PARFUM> >,,,,. 13
. 4..,,...,.,,. ㆍ..,. < > <LEX-PARFUM>... (Automate fini) - < (Grammaire locale)> 11).. eau de toilette KANTARA pour femmes ( ).. eau de toilette OPIUM pour femmes ( ) eau de parfum KENZO pour hommes ( ) parfum RIVE GAUCHE pour femmes ( ) eau de parfum CLIMAT pour femmes ( ) parfum MAGIE pour femmes ( ) 11) M. Gross(1997), M. Silberztein(1993), (2005). 14
. 3, / < > N-Parfum /, 3, 5, 2, 30(=3x5x2).. < 6> 3, ' ' 100 (N-Parfum = 100), 600. < 6. > UNITEX 12) GraphEditor, ㆍ (transducteur) 13)...,,.,.,.,. 12) UNITEX 90 INTEX(Silberztein 1993), 2002 S. Paumier(Univ. de Marne-la-Vallée). http://www-igm.univ-mlv.fr. 13) M. Mohri(1997), E. Roche(1997). 15
,, (1997),.,, (1998),.,, (1997),.,,, (1996) : 95,. (1999),. (2000), I,. (2002), 38-1,. (2004), 24,. (2005), 49,. (2005) DECOS-NS, Technical Report TR-05-02, DICORA., (1997),., (2002), 14,. ㆍ (1990).. (2001), 33-1,. (2003), 54-2,. (1982).., (1996),. (2000),.. (1992).. (2004) 21,. KAIST, KAIST. Ballesteros, L. & Croft, W.B. (1996) Dictionary-Based methods for cross-lingual information retrieval, In Proceedings of the 7th international DEXA Conference on Database and Expert Systems Applications. Ballesteros, L. & Croft, W.B. (1997) Phrasal Translation and Query Expansion Techniques for Cross-Language Information Retrieval, In AAAI Symposium on Cross-Language Text and Speech Retrieval. Courtois, B. (1987) Dictionnaire électronique du LADL pour les mots simples du francais (DELAS). RT du LADL N-17. Université Paris 7. Douglas, W. & Bonnie J. Dorr. (1996) A Survey of Multilingual Text Retrieval, Technical Report UMIACS-TR-96-19, Institute for Advanced Computer Studies, Univ of Maryland. 16
Douglas, W. (1997) Alternative Approaches for Cross-Language Text Retrieval, In AAAI Symposium on Cross-Language Text and Speech Retrieval. Gross, M. (1989) La construction de dictionnaires électroniques, Annales des Télécommunications. Tome 44. N-1:2. Issy-les-Moulineaux/ Lannion: CNET. Gross, M. (1997) The Construction of Local Grammars, Finite-State Language Processing, E. Roche & Y. Schabes (eds.), Cambridge, MIT Press. Hull, D.A. & Grefenstette, G. (1996) A Dictionary-Based Approach to Multilingual Information Retrieval, In Proceedings of the 19th ACM SIGIR Conference. Hull, D.A. (1997) Using Structured Queries for Disambiguation in Cross-Language Information Retrieval, In AAAI Symposium on Cross-Language Text and Speech Retrieval. Mohri, M. (1997) On the use of Sequential Transducers in Natural Language Processing, Finite-State Language Processing, Cambridge: The MIT Press. Nam, J.S. (1994) Dictionnaire des noms simples du coréen, Rapport Technique N-46, LADL, Université de Paris 7. Paumier, S. (2003) De la reconnaissance de formes linguistiques à l'analyse syntaxique, Thèse de Doctorat, Université de Marne-la-Vallée. Roche, E. (1997) Parsing with Finite-State Transducers, Finite-State Language Processing, Cambridge: The MIT Press. Silberztein, M. (1993) Dictionnaires électroniques et analyse automatique de textes - le système INTEX. Paris: Masson. RÉSUMÉ Étude sur des problèmes des mots ambigus dans des moteurs de recherche multilingues NAM JEE-SUN Dans cet article, nous avons montré quelques problèmes posés par l'occurrence des mots ambigus dans des pages web et les cadres méthodologiques que nous avons adaptés pour les traiter dans des moteurs de recherche multilingues. Le moteur de recherche multilingue se comprend dans cette étude comme un système qui fournit aux utilisateurs des informations des pages web enregistrées en langue différente de celle des utilisateurs. Il faut donc soit traduire le mot-clé(question) en un autre d'une autre langue soit transformer le texte même en un autre d'une autre langue également. Nous avons étudié ces deux procédures du point de vue des moteurs de recherche des documents en français pour des utilisateurs coréens. En premier lieu, on peut obtenir des informations en traduisant des mots-clés(questions) coréens en français. Quand ces mots-clés sont ambigus, les informations associées(i.e. les pages web recherchées) comprendront trop de bruits(i.e. des informations non-adéquates), et ce phénomène devient plus grâve quand il s'agit d'un moteur de recherche multilingue. Nous avons observé 17
combien de noms simples en coréen peuvent être utilisés de façon ambiguë et dans quels contextes(dans quelles formes composées avec un autre nom) ces noms ambigus peuvent se désambiguïser. Une nomenclature des noms composés comprenant un nom ambigu est établi pour être utilisé dans la construction des données complexes coréen-français. D'autre part, des pages web peuvent être traduites en langue des utilisateurs dans le système multilingue. Dans ce cas, des mots ambigus qui se trouvent dans les textes doivent se désambiguïser avant d'être indexés automatiquement. Pour cela, les domaines spécifiques où ont apparus ces mots ambigus doivent être considérés pour qu'ils soient désambiguïsés. Un exemple d'un lexique franco-coréen, celui du domaine concernant "parfum", est présenté dans cet article. Les informations basées sur les séquences plus complexes que les mots isolés peuvent être décrites efficacement sous forme des graphes finis appelés Grammaires Locales. Un outil informatique adapté pour ce cadre est créé et nommé UNITEX(S. Paumier 2002), et grâce à cet outil on peut construire des données linguistiques pour les moteurs de recherche multilingues de façon cohérente et systématique. Mots-Clés: Ambiguïté, Mots-Clés, Base de données linguistique, Moteur de recherche multilingue, Traduction des mots-clés, Traduction des Pages web :,,,,, (NAM JEE-SUN) 016-273-6202 / 031-330-4349 namjs@hufs.ac.kr 18