Ok

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies. Ces derniers assurent le bon fonctionnement de nos services. En savoir plus.

30/06/2023

Formation à Hyperbase

Léa et Marceau.jpgDans le cadre du projet ANR Tractive, l’équipe BCL (Bases, corpus, langage) de l’université de Nice m'a accueillie, le 22 et 23 juin 2023, ensemble avec Léa Andolfi (doctorante du projet Tractive) et Marceau Hernandez (assistant de recherche CERES) (voir photo) pour un atelier de formation à Hyperbase, logiciel universitaire téléchargeable d'exploration documentaire et statistique des textes, dont la version actuelle est développée par Laurent Vanni.

Lire la suite

09/03/2023

CorpusCALL SIG webinar series

First event of the CorpusCaLL SIG webinar series:

 

A conversation with_poster_final_PNG.png

26/01/2023

CorpusCALL webinar 26 January 2023

Speakers: Tanara Zingano Kuhn & Rina Zviel-Girshin

Event organised by the members of the EuroCALL CorpusCALL SIG (Special interest group):  Peter Crosthwaite, Jasper Degraeuwe, Reka Ratkaine Jablonkai, Joyce Lim, Eva Schaeffer-Lacroix.

01/03/2022

Journée d’étude “Outils d’exploration de corpus”

1024px-Hôtel_des_sociétés_savantes_Paris_1.jpg

Le Club Corpus de Sorbonne Université organise une journée d’étude sur les outils d’exploration de corpus numériques. Cette journée d’étude donnera l’occasion à plusieurs spécialistes du domaine de faire une présentation d’un outil d’analyse de corpus dans une visée scientifique déterminée (p. ex. analyse de discours) et d’en faire la démonstration, avec possibilité de prise en main de l’outil par les participant|e|s au moment des pauses. À la fin de la journée d’étude, Kimberly Oger et Eva Schaeffer-Lacroix animeront une table ronde qui réunira toutes les personnes ayant fait une présentation.

Date : 17 juin 2022

Lieu : Maison de la recherche, 28 rue Serpente, 75006 Paris

Intervenant|e|s (par ordre alphabétique) :

  • Guillaume Desagulier (Université Paris 8 Vincennes Saint Denis) : R
  • Daniel Henkel (Université Paris 8 Vincennes Saint Denis) : Techniques d’alignement pour mémoires de traduction
  • Marc Kupietz (IDS Mannheim) : KorAP
  • Christophe Parisse (Université Paris Ouest la Défense, INSERM) : Clan
  • Bénédicte Pincemin (Ens de Lyon): TXM (données multimodales)
  • Maria Zimina-Poirot (Université de Paris) : Le Trameur

Événement soutenu par CELISO (Centre de linguistique en Sorbonne), STIH (Sens Texte Informatique Histoire), CERES (Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales).

Un formulaire d’inscription sera diffusé prochainement.

Voir aussi cette page qui sera régulièrement actualisée.

---------------------------------

© Photo : Celette — Travail personnel, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=71150139

24/04/2021

Doing Linguistics with a Corpus

egbert_larsson_biber.jpgEgbert, Jesse, Tove Larsson, et Douglas Biber. 2020. Doing Linguistics with a Corpus: Methodological Considerations for the Everyday User (Elements in Corpus Linguistics). Cambridge: Cambridge University Press. doi:10.1017/9781108888790
 
Un petit livre bien écrit, clair et instructif. Voici mes citations préférées :
 
"we should always strive to choose minimally sufficiant statistical methods, meaning that we should choose tests that are no more no less sophisticated than the study design requires. (...) Even simple, seemingly straightforward statistical methods may lead to linguistically questionable conclusions caused by layers of abstraction between the data and the researcher" (p. 40).
 
"Statistical tests cannot replace linguistical analysis; they are, and should remain, tools that should assist the researcher in drawing linguistically valid conclusions" (p. 42).
 
"an ever-widening gap between the everyday user and the language contained in the corpus" (p. 70).
 
"end goal of turning corpus-based data into meaningful linguistic information" (p. 70).
 
"[i]nformation is born when data are interpreted" (Stallings, 1989: 2) (p. 71).
 
"The two sides of any corpus-based linguistically meaningful quantitative analysis: the statistical analysis and the qualitative interpretation (...) through consideration of actual texts" (p. 72).

Publié dans 9. Corpus & co

20/04/2021

Lancaster Summer School in Corpus Linguistics 2021

Screenshot_20210427-044132__01.jpg

Je suis heureuse de la perspective de pouvoir participer en juin 2021 à cette école d'été dédiée aux outils de corpus pour l'analyse de discours.

Site de l'événement

Publié dans 9. Corpus & co

15/01/2019

CLARIN User Involvement Event


Se servir des corpus d'apprenants et des corpus d'experts pour former en langue étrangère

Conférence présentée dans le cadre de la journée d’étude "Lier recherche et formation professionnelle : des corpus à l’interface", organisée par l’axe CA2LI – LRL, CLARIN User Involvement Event, à l’université Clermont-Auvergne le vendredi 16 novembre 2018.

Site de l’événement

03/10/2018

Collection personnelle (et autre) de corpus

J'ai rassemblé les corpus que j'ai créés depuis 2007 ainsi que les projets, conférences et publications qui y sont associés dans un tableau accessible ici. Plusieurs volets sont de type "work in progress" et offrent l'occasion de collaborations futures avec d'autres chercheurs et chercheuses.

Publié dans 9. Corpus & co

01/08/2018

Lier recherche et formation professionnelle : des corpus à l'interface

Journée d'étude organisée par l'axe CA2LI - LRL, Université Clermont Auvergne, le vendredi 16 novembre 2018

Lire la suite

10/04/2018

Une journée hommage à Thierry Chanier

Traitements et standardisation des corpus multimodaux et web 2.0 - Une journée hommage à Thierry Chanier

Étant donné le travail important que Thierry Chanier a accompli pour la communauté, et spécifiquement pour le consortium Corpus écrits, aujourd'hui CORLI (Corpus, Langues, Interactions), nous souhaitons lui rendre un hommage en organisant une journée particulière qui se tiendra à l'université Paris Diderot. Cette journée d’études sera organisée autour des corpus complexes dans les champs de l’Apprentissage des Langues Médiée par les Technologies (ALMT) et de la Communication Médiée par les Réseaux, qu’il a privilégiés dans ses travaux.

Lire la suite

05/02/2018

Die Rolle der Digitalisierung im Fach „Germanistische Linguistik“

Ein sehr interessanter Überblicksartikel von Mechthild Habermann (2016) mit Links zu zwei Artikeln zur Technik und zu den rechtlichen Aspekten des Korpusaufbaus.

Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprach­korpora

Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora

Publié dans 9. Corpus & co

11/09/2017

Collaboration scientifique, didactique et technique

Traductrice pour Sketch Engine

Traduction de l'interface créée en 2018 de l'anglais vers le français

 

Collaboratrice en linguistique de corpus

Projet : Politique linguistique et usage de la langue dans la suisse plurilingue: noms communs de personne dans le langage administratif (2013-2016).

Ce projet du département de langue & littérature allemandes de la faculté des lettres de l'université de Genève a été financé par le SNF (Fond national suisse de la recherche scientifique) et l'université de Genève (description du projet). Il a mené à plusieurs communications et publications individuelles et communes (v. les rubriques Communications et Publications de ce blogue).

 

Experte en didactique des langues pour un projet du CELV

Atelier : Développer la conscience linguistique dans les matières scolaires (2016-2019).

Ce projet du CELV (Centre européen pour les langues vivantes du Conseil de l'Europe)  est coordonné par Marita Härmälä.

Résultats attendus : "La méthode développée améliorera l’accès à une éducation de qualité pour tous les apprenants en permettant aux enseignants disciplinaires de : 

  • développer des approches pédagogiques plus inclusives, plurilingues et interculturelles ;
  • devenir plus conscients de l'importance des compétences langagières dans l'apprentissage des savoirs."

07/01/2017

Club Corpus CeLiSo

Le 29 janvier 2017, le Club Corpus CeLiSo fêtera son premier anniversaire. C'est l'occasion pour moi d'exprimer ma satisfaction par rapport à ce lieu de rencontre entre chercheur·e·s du laboratoire CeLiSo (Centre de Linguistique en Sorbonne) intéressé·e·s par les corpus numériques, que ce soit pour des recherches en linguistique ou en didactique.

Nous avons trouvé un rythme de croisière qui nous permet de tisser des liens, de partager notre expertise et de nous informer mutuellement sur nos découvertes dans le domaine des corpus.

carnet.png

Nous venons de créer le carnet Hypothèses Club Corpus CeLiSo qui nous donne l'occasion de rester en contact entre les séances de travail et de rendre notre démarche visible.

23/07/2016

TaLC12 2016 (Gieβen)

P1050700.JPGThis year's TaLC (Teaching and Language Corpora) conference took place at the Justus Liebig University of Gieβen (Germany). Over hundred participants from several continents came to attend the talks and to admire the posters presented. The weather was really nice, not to say very hot; ideal conditions for eating outside and talking and having a good time together during the social events planned for the end of the day. I enjoyed listening to exciting and inspiring presentations and plenary talks. Learning R under 35° C was hard, Christoph, but I promise you, I will go on and try to practise what you showed us during the workshop! A lot of talks and posters stroke me for their particularly brilliant performance, their content close to my research interest and for the original character of the topic. It seems that I missed some exciting events, but you can't be everywhere :).

The book of abstracts gives following insight into the main topics and concerns of TaLC12 (Sketch Engine, Thesaurus):

talc12_ske.png

I understood, amongst other things, that native speakers' productions are not always reliable; I found evidence for this statement just 200m away from the conference location:

P1050706.JPG

[Save the farmers. *Drink more milk ?instead of beer.]

I am grateful for all the coffee break and dinner discussions, for the organisers' welcoming presence, for the kind and effective help of the staff, and for having spotted the "real faces" of people we can consider as corpus linguistics milestones. I am also glad to have met researchers working in France who give me hope that corpus-assisted language learning and teaching is a viable concept in that country.

06/08/2013

Perfectionnement technique

25 novembre 2021 – Formation à l'utilisation d'EXMARaLDA pour l'exploration et l'annotation de données d'audiodescription multimodales, Inspé de Paris. Formateur : Thomas Schmidt, Université de Bâle (Suisse).

30 septembre 2021 – Atelier proposé lors du Colloque "Vers une robotique du traduire ?" à Strasbourg : Le système de traduction automatique neuronale MateCat (outil de traduction assistée par ordinateur basé sur le Web). Formateur : Loïc Barrault (University of Sheffield, Le Mans Université).

19 janvier 2021 – Online workshop: Visual discovery tools in TRIPLE (Transforming Research through Innovative Practices for Linked interdisciplinary Exploration). Huma-Num.

24 juin 2020 – Webinar: Doing corpus linguistics with #LancsBox (V5). Workshop leader: Vaclav Brezina.

18 juillet 2018 - Using corpora to teach sociolinguistics: A practical workshop. Introduction into #LancsBox. Workshop leaders: Vaclav Brezina, Dana Gablasova, and Irene Marín Cervantes. Pre-conference workshop, TaLC13, Cambridge (Angleterre).

19-20 juin 2017 et 11 septembre 2017 : "Initiation à R". Formateur : Dylan Glynn (Université Paris 8 Vincennes – Saint-Denis). Formation organisée par le laboratoire CeLiSo (Université Paris-Sorbonne).

20 juillet 2016 - Introduction to statistics for linguistics with R. Pre-conference workshop TaLC12.

19-24 juin 2016 - École thématique CNRS MISAT - Méthodes informatiques et statistiques en analyse des textes (Besançon).

22 et 29 janvier 2016 et 25 mars 2016 - Ateliers AntConc et TXM, organisés par le laboratoire CeLiSo (Centre de linguistique en Sorbonne). Formateurs : Daniel Henkel, Pierre Labrosse et Kim Oger.

26-29 mai 2015 - Initiation à l’édition électronique et la pratique de l’encodage XML/TEI (formateurs : Lou Burnard, Emmanuel Château). Stage organisé par l'École nationale des chartes.

2-3 décembre 2014 - Ateliers TXM : "Initiation à TXM" (Bénédicte Pincemin) et "Préparation de corpus et import dans TXM" (Serge Heiden), ENS Lyon.

Mai - juin 2014 - Mooc "Monter un Mooc de A à Z" (plateforme FUN).

2012/2013 - Séminaire doctoral "Informatique pour la recherche. Approches textométriques, ergonomies numériques", proposé par Jean-Marc Leblanc, UPEC (Université Paris-Est Créteil Val de Marne).

9-10 juin 2011 - Formation LODEL utilisateurs (logiciel d'édition électronique), organisée par Cléo (Centre pour l'édition électronique ouverte), Paris.

22 février 2011 - Tutorium der Sektion Computerlinguistik. Korpuslinguistik mit Online-Ressourcen — eine interaktive Einführung für Linguisten [Atelier "Linguistique de corpus basée sur des ressources en ligne - une introduction interactive pour linguistes"]. 33. Jahrestagung der DGfS (Deutsche Gesellschaft für Sprachwissenschaft), Georg-August-Universität Göttingen (Allemagne).

5-16 juillet 2010 - Formation CLARA Summer School on Advanced Resource Creation, Archiving and Usage à Nijmegen (Hollande).

12 mars 2010 - Atelier d'initiation à COSMAS II (Corpus Search, Management and Analysis System) proposé par l'IDS (Institut für Deutsche Sprache) à Mannheim (Allemagne).

1er juillet 2006 - Atelier d'initiation à Sketch Engine, proposé par Adam Kilgarriff lors de la 7ème Conférence TaLC (Teaching and Language Corpora) à Paris 7.

06/12/2010

Une thèse en textométrie

Le 4 décembre 2010, j'ai assisté à la soutenance de thèse de Luiggi Sansonetti, intitulée Apports de la textométrie pour l'analyse de corpus d'interactions verbales entre adulte et enfant au cours de l'acquisition du langageVoici les notes que j'ai prises lors de cet évènement.

Publié dans 9. Corpus & co

CLARA Summer School 2010

clara_salle1.jpg

En juillet 2010, j'ai eu l'occasion de participer à la CLARA Summer School, organisée par le MPI (Max-Planck-Institut) à Nijmegen en Hollande. Dans une ambiance hautement internationale, j'ai eu la joie d'entendre des exposés, présentés par des spécialistes du son, de la vidéo et des banques de données. J'ai pu essayer de nombreux outils, comme ELAN, Praat, Folker, EXMARaLDA, R, etc.  J'ai vu que  les corpus multimodaux offrent de belles possibilités pour l'enseignement-apprentissage des langues étrangères. Voici un rapport concernant cet évènement, publié sur le site du MPI Nijmegen.